首页 > 教育学习 > 为什么 > 搜索引擎评价体系应该分几个方面？建立怎样的指标？

搜索引擎评价体系应该分几个方面？建立怎样的指标？
2012-01-19 19:31:17 来源：点击：

4 个答案

答案 1：
只说搜索质量,召回率,索引量和相应速度是技术指标,在此不讨论干这活儿累计两年半.一年的Google quality rater,一年半淘宝搜索评测.Google的做法:1.单个item与关键词匹配度(相关性)五个等级:vital:官方网站类useful:极其相关,或包含大量相关信息relevant:相关的slightly relevant:有点相关,提及的Off-Topic:完全无关附加:spam,porn等几个附件选项,独立可选,但与以上不冲突网上流传的那份Google的 < Quality Rater Guidelines > 说的就是这部分.jianghaiming.com/seo/google...2.side by side(ranking)黑盒测试,两组排序对比:同序位不同item的相关性对比同item不同排位对比偏主观,两组关系评级分为about the same,slightly better,better,much better.其余还有针对图片的,视频的评测,基本只做相关性评测.PS:还有专门的色情网站评测,不过那个项目的活儿我没接. :)淘宝的做法:因为是购物搜索,基本只做相关性评测,但也做A/B对比相关性等级基本只分为good,fair,bad.根据不同质量结果在A/B抽样数据中的占比,评价算法调整的好坏.并根据bad case做进一步调优.side by side测试也做,但投入产出比太小.只在部分特殊项目中尝试.另外,Yahoo!是以DCG指标来衡量搜索结果质量baike.baidu.com/view...
答案 2：
借用开复老师的答案：搜索的质量评估通常是看几个指标：
【1】baike.baidu.com/view...
答案 3：
最基本的两个指标是准确率和召回率。准确率为检索出的相关文档数与检出文档数的比值。召回率为系统检索出的相关文档数与实际相关文档数的比值。举个例子，假设查询q为一个给定的查询式，而包含q的相关文档集Rq为下面的文档集：{d2,d5,d9,d12,d23}而针对q，搜索系统检索出的相关文档集为：Aq={d3,d4,d5,d6,d8,d10,d12,d19,d20,d23}则搜索系统搜索到的，能呈现给用户的正确文档的结果集为Ra={d5,d12,d23}那么针对此次查询，准确率P=3/5=0.6,召回率R=3/15=0.2。从这个例子可以看出，准确率和召回率是基于对检出文档集中的所有文档都进行检查的基础上得到的。但实际上，由于检索系统对检索词返回的结果比较多，系统一般不会一次性地将检出文档集中的所有结果都返回给用户，而是先对A中文档根据相关度进行排序，然后由用户从第一篇文档开始查看排序列表。在这种情况下，准确率和召回率指标会随着用户对排序列表的检查而变化。这个时候，准确率/召回率曲线更能清晰地描述评价结果。一般情况下，随着准确率的增加，召回率一般呈下降趋势。大致是这样一个曲线images.51cto.com/files...随着测试集规模的扩大以及人们对评测结果理解的深入，更准确地反映系统性能的新评价指标也出现了，主要下面几个，都是基于pooling技术的单值评价方法：
这些方法都是只考虑经过相关性判断后的相关文档排序，对判断不相关文档与未经判断的文档的差别并没有考虑。一些特殊的评价方法（此处略去N个字，有兴趣的自己去google一下好了）——
在国际信息检索评测方面，有影响的是由美国NIST和DARPA主持的TREC(Text REtrieval Conference)、日本NII(National Insitute of Informatics)主持的NTCIR(NII Test Collection for Information Retrieval Systems)以及欧盟的CLEF(Cross Language Evaluation Forum)。其中TREC涉及文本检索的多个任务或侧面，例如常规检索、文本过滤、交互式检索、视频检索、网络检索、跨语言检索等等。NTCIR评测的重点是日语和其他亚洲语言的跨语言检索。CLEF的评测重点是欧洲语言之间的跨语言检索。虽然他们仨的测试主题和侧重点有差别，但是都有共同之处——
国内的信息检索评测比较有名的有863信息检索评测和SEWN中文Web评测。当然，还包括大家说的查询速度、呈现的网页质量、网页更新速度、结果去重、系统稳定性，从用户的使用角度来说，也是很重要的指标~怎么对检索系统进行这些方面的评价，还木有研究过…上面很多指标和方法没有作详细介绍，不然就太多了~大家有兴趣的自己去搜搜看吧: )话说知乎的答案编辑不能上图也不能编辑公式，是个问题~大家请指正，指正，各种指正……
答案 4：
搜索引擎重要的两个参数是准确率和召回率假设有100素材，和你搜索关键词相关的素材是80篇。当你搜索时，返回了90篇，其中相关的素材是70篇那么搜索准确率是70/90，召回率是70/80

QQ空间新浪微博腾讯微博人人网更多

搜索引擎评价体系应该分几个方面？建立怎样的指标？
2012-01-19 19:31:17 来源：点击：

4 个答案

热门知识

教育学习 > 为什么 > 热点知识

本月热门知识

搜索引擎评价体系应该分几个方面？建立怎样的指标？ 2012-01-19 19:31:17 来源： 点击：

4 个答案

热门知识

教育学习 > 为什么 > 热点知识

本月热门知识

搜索引擎评价体系应该分几个方面？建立怎样的指标？
2012-01-19 19:31:17 来源：点击：