首页 > 教育学习 > 为什么 > Google 如何判断一篇文章是转载还是原创?

Google 如何判断一篇文章是转载还是原创?
2012-01-19 19:36:20   来源:   点击:

    Google 如何判断一篇文章是转载还是原创?如果两篇文章完全一致,可以通过时间来做判断。但如果仅对原文进行微小修改呢?我最关心的是,这种修改大到什么程度,google就判定该文章来自于独立源呢?这个问题并非是问google如何完美地解决了这个问题(显然这个问题本身就是ill-defined,不存在完美解决方案)。这个问题的探讨价值是,google在试图解决这个问题的时候,用了何种方法。这其中有些方法本身,或者是绕过这些方法的后门,都是有思考价值的。.

    11 个答案

    • 答案 1:

      原创内容识别是搜索引擎的难题之一,google在这方面做的明显要好, 但和理想的情况还是有差距.以"谈谈书价"这个query为例, google的结果已经做的非常棒了google.com.hk/#hl=zh-C...几个可能的识别"原创"的方法:时间:直观来想最重要的识别因子就是时间, 但对于google而言, 这个因子却很难像我们想象的那样有效. 可能的几个参考时间:

        搜索引擎收录时间: 由于抓取系统的调度不同, 即使是google, 即使是用ping, 原创结果也不一定优先被收录(虽然在很多情况下, 已经向这个方向靠拢了). 这是基于优先级队列的网页抓取算法和机器抓取性能有限共同决定的. 第一时间新浪编辑转载的内容可能就比原创先收录.

        网页上文章的生成时间: 抛开完全不靠谱的服务器lastmodifytime, 网页上本身就显示有生成时间, 如果可以被识别, 也是有效的. 但并不是所有的网页都有这个属性,read.weiwuhui.com/archives... 就找不到有意义的时间. 而且即使存在, 对于这个由网页生成者提供的时间, 是否可信也是一个问题.

      基本上是没有所有网页通用的有效时间因素, 可以被搜索引擎获取到. 时间不准确的话, 即使是完全相同的网页内容, 也无法判断了. (判断网页是否微小改变, 由于时间不靠谱, 在原创问题上就不是重要的因素, 就不展开了. 从方法上看, 列温斯顿编辑距离这些方法已经是非常成熟有效的. 看起来google没这么用)链接关系:在一个理想化的互联网里面, 转载方会给出原始出处, 链接关系就是比较靠谱的识别原创的方法. google可以顺着链接关系, 找到最终的原始出处. 但目前来看, 这个方法的作用有限:

        没有专业精神的转载者: 转载不给出出处, ^C+^Y一党. 简体中文互联网里面几乎所有的综合性站点, 都有一些编辑耍流氓不给出原始出处的现象, 甚至是剽窃别人的内容当做自己的原创. 这种复制和剽窃, 切断了链接的传播途径(现在微博上的那些粉丝多的草根微博, 都是走复制粘贴这个路数的货色, 更不要说采集站了). 搜索引擎识别不能.

        没有统一的出处: 对于一些urban legend或者笑话, 人类自己都搞不清楚源头是什么, 甚至很多源头都不在互联网上. 链接关系也无法指向最终出处, 可能指向的只是可考的镜像. 这类超出人类自身的问题, 搜索引擎也没能力.

      传播能力:目前看, google识别原创的最主要手段就是识别传播能力. 根据meme理论传播越广的内容其价值越高:en.wikipedia.org/wiki...其实这里换了概念, 把"原创"换成了"价值高". 这是一种对于识别"原创"困难的折中. 把找出"源头"的工作, 交给了用户的群体智慧. 网页被用户通过主动的方式看到的越多, 那么他是"原创"的概率就越大. 把识别的工作, 交给了全体用户来共同参与. 相当于是我们找出了信息源(但有可能不是原创), 再把这个结果告诉google. 虽然可能不是真正的原创, 但可能是最具影响力的结果.基于此我们经常看到, 对于同一篇内容, 投稿在月光博客上的网页, 会比真正的原创网页排名高.对于query: quora的创新, 知乎的土壤google的结果第一位的就是月光博客上的结果, 而真正的原创结果是第一页找不到的.至于如何识别网页的"传播能力", 类似于facebook的like按钮就是比较典型的代表, google目前自身的产品已经可以获取到很多类似的数据(目前还不包括+1的数据), 链接关系也可以包括在这里面, 虽然不是最有效的.
    • 答案 2:

      很理论的东西:首先你这个文章的:标题、段落的第一句、段落的末句、段落的顺序。抓取到的内容去和 数据库中比较!看重复度!!!一般地说 差异化达到50%(有说60%) 就算原创了(另称伪原创成功)。
    • 答案 3:

      看了答案,不是很靠谱.贴一个我知道的答案.... 所以如果你要让机器知道哪一篇文章是原创还是转载,你需要解决2个问题. 1.把所有同一篇文章找出来. 2.把抓到时间按照时间排序,最先抓来的认为是原创的. 第2个问题非常好解决,所以说一下第1个问题的解决方案.

        我先把所有页面中的文字提取,按照自然断句,变成一个文档.

        我取出该网页最长的一个句子,作为签名,认为这个是这篇文章中一个特征.

        我取出该网页上次最长句子作为签名2,认为是是第二个特征.

      把所有网页上,特征1,和特征2一样的网页选出来,则完成了同一篇文章的选择. 第二个问题迎刃而解.
    • 答案 4:

      原则上 头尾修改·幅度不超三分之一
    • 答案 5:

      这个问题我想google现在也没法回答。譬如说有两篇文章A和B,A先原创出来,然后B在很短的时间内转载,然后提交书签,做反链,ping它......结果B比A先收录,你说google该怎么评判?
    • 答案 6:

      现在硕博论文都有个反作弊检查程序,为什么抄袭和非创新重复建设还是不可杜绝,不少人都下载来自己先看看有没违规,然后想办法让他们看起来不太一样。然后某人自己写的文章虽然是同一个内容,但是换种写法机器是很难识别出来的,这样就有了很多SCI, EI。。。觉得机器能代替人来判断在这点上还是太难了。
    • 答案 7:

      不可能完美解决,头尾修改幅度不要超过1/3,SEO现在不好做,看天吃饭。百度520就是一个教训啊
    • 答案 8:

      修改到关键词拼发生变化即可,搜索算法一直在变的,seo不好做啊
    • 答案 9:

      应该主要是根据时间来判断吧,还有文章的相似程度吧。。。
    • 答案 10:

      这个连人工都无法做到准确判断,何况机器算法。
    • 答案 11:

      看看这篇文章吧---数学之美系列十二:余弦定理和新闻的分类,相信你就明白了

相关热词搜索:

上一篇:从法律角度如何看待「驾后喝酒」问题?
下一篇:澳洲移民政策?