首页 > 教育学习 > 为什么 > 搜索引擎评价体系应该分几个方面?建立怎样的指标?

搜索引擎评价体系应该分几个方面?建立怎样的指标?
2012-01-19 19:31:17   来源:   点击:

    搜索引擎评价体系应该分几个方面?建立怎样的指标?

    4 个答案

    • 答案 1:

      只说搜索质量,召回率,索引量和相应速度是技术指标,在此不讨论干这活儿累计两年半.一年的Google quality rater,一年半淘宝搜索评测.Google的做法:1.单个item与关键词匹配度(相关性)五个等级:vital:官方网站类useful:极其相关,或包含大量相关信息relevant:相关的slightly relevant:有点相关,提及的Off-Topic:完全无关附加:spam,porn等几个附件选项,独立可选,但与以上不冲突网上流传的那份Google的 < Quality Rater Guidelines > 说的就是这部分.jianghaiming.com/seo/google...2.side by side(ranking)黑盒测试,两组排序对比:同序位不同item的相关性对比同item不同排位对比偏主观,两组关系评级分为about the same,slightly better,better,much better.其余还有针对图片的,视频的评测,基本只做相关性评测.PS:还有专门的色情网站评测,不过那个项目的活儿我没接. :)淘宝的做法:因为是购物搜索,基本只做相关性评测,但也做A/B对比相关性等级基本只分为good,fair,bad.根据不同质量结果在A/B抽样数据中的占比,评价算法调整的好坏.并根据bad case做进一步调优.side by side测试也做,但投入产出比太小.只在部分特殊项目中尝试.另外,Yahoo!是以DCG指标来衡量搜索结果质量baike.baidu.com/view...
    • 答案 2:

      借用开复老师的答案:搜索的质量评估通常是看几个指标:

        相关度 -- 请受过训练的人来评估每个引擎的前几个结果是否相关,评估时不参考结果的来源、引擎的品牌等。指标有DCG等[1]。

        索引规模 -- 每个引擎知道自己的规模,也就是有多少网页(除去重复的),但是不知道对方的规模,可是可以根据两方搜索结果的爬取,得知有多少网页是我有他无,或他有我 无,从此得知大约两个引擎的索引规模。比较有挑战的一点是如果索引规模大了可能导致相关度下降(因为有些长尾结果会排序太靠前)。成熟的商业全网搜索引擎索引规模在10billion以上.

        速度 -- 就是输入搜索词,得到结果的时间。很多测试告诉我们0.2秒的速度会导致用户满意度的落差,和未来使用的频率。

        新鲜度 -- 就是能爬到多新的内容,而且要有一定规模(只有新闻内容不算够新)。

      【1】baike.baidu.com/view...
    • 答案 3:

      最基本的两个指标是准确率和召回率。准确率为检索出的相关文档数与检出文档数的比值。召回率为系统检索出的相关文档数与实际相关文档数的比值。举个例子,假设查询q为一个给定的查询式,而包含q的相关文档集Rq为下面的文档集:{d2,d5,d9,d12,d23}而针对q,搜索系统检索出的相关文档集为:Aq={d3,d4,d5,d6,d8,d10,d12,d19,d20,d23}则搜索系统搜索到的,能呈现给用户的正确文档的结果集为Ra={d5,d12,d23}那么针对此次查询,准确率P=3/5=0.6,召回率R=3/15=0.2。从这个例子可以看出,准确率和召回率是基于对检出文档集中的所有文档都进行检查的基础上得到的。但实际上,由于检索系统对检索词返回的结果比较多,系统一般不会一次性地将检出文档集中的所有结果都返回给用户,而是先对A中文档根据相关度进行排序,然后由用户从第一篇文档开始查看排序列表。在这种情况下,准确率和召回率指标会随着用户对排序列表的检查而变化。这个时候,准确率/召回率曲线更能清晰地描述评价结果。一般情况下,随着准确率的增加,召回率一般呈下降趋势。大致是这样一个曲线images.51cto.com/files...随着测试集规模的扩大以及人们对评测结果理解的深入,更准确地反映系统性能的新评价指标也出现了,主要下面几个,都是基于pooling技术的单值评价方法:

        MAP(Mean Average Precision,已检出相关文献的平均准确率均值)。这个是近几年常用的评价标准。单个查询的平均准确率是逐个考察排序中每个新的相关文档,然后对其准确率值进行平均后的平均值。查询集合的平均准确率是每个查询的平均准确率MAP的平均值。平均准确率是反映系统在全部查询上性能的单值指标。系统检索出来的相关文档蚊纸越靠前(rank越小),MAP就可能月高。如果系统没有返回相关文档,准确率默认为0.

        P@10,是系统针对查询返回的前10个结果的准确率。

        R准确率,单个查询的R准确率是检索出R篇文档时的准确率。

        准确率直方图,在多个查询下,分别计算每一查询下的R准确率,计算其差值,并用直方图表示。

      这些方法都是只考虑经过相关性判断后的相关文档排序,对判断不相关文档与未经判断的文档的差别并没有考虑。一些特殊的评价方法(此处略去N个字,有兴趣的自己去google一下好了)——

        bpref(binary preference-based measure)

        N(D)CG(Normalized (Discounted) Cumulated Gain)

        单一相关文档检索评价

      在国际信息检索评测方面,有影响的是由美国NIST和DARPA主持的TREC(Text REtrieval Conference)、日本NII(National Insitute of Informatics)主持的NTCIR(NII Test Collection for Information Retrieval Systems)以及欧盟的CLEF(Cross Language Evaluation Forum)。其中TREC涉及文本检索的多个任务或侧面,例如常规检索、文本过滤、交互式检索、视频检索、网络检索、跨语言检索等等。NTCIR评测的重点是日语和其他亚洲语言的跨语言检索。CLEF的评测重点是欧洲语言之间的跨语言检索。虽然他们仨的测试主题和侧重点有差别,但是都有共同之处——

        提供科学的统一的测试标准、训练语料、测试语料和评测软件,似的被测试系统在公开工作的基础上进行,从而真实地反映各个被测试系统的性能。

        提供一个供大家交流研究开发经验的论坛。

      国内的信息检索评测比较有名的有863信息检索评测和SEWN中文Web评测。当然,还包括大家说的查询速度、呈现的网页质量、网页更新速度、结果去重、系统稳定性,从用户的使用角度来说,也是很重要的指标~怎么对检索系统进行这些方面的评价,还木有研究过…上面很多指标和方法没有作详细介绍,不然就太多了~大家有兴趣的自己去搜搜看吧: )话说知乎的答案编辑不能上图也不能编辑公式,是个问题~大家请指正,指正,各种指正……
    • 答案 4:

      搜索引擎重要的两个参数是准确率和召回率假设有100素材,和你搜索关键词相关的素材是80篇。当你搜索时,返回了90篇,其中相关的素材是70篇那么搜索准确率是70/90,召回率是70/80

相关热词搜索:

上一篇:为什么转动惯量的符号在工程中用J, 而在数学中用I?
下一篇:药家鑫案终审的结果会是如何的?会判死缓吗?