首页 > 教育学习 > 为什么 > Google 如何判断一篇文章是转载还是原创？

Google 如何判断一篇文章是转载还是原创？
2012-01-19 19:36:20 来源：点击：

11 个答案

答案 1：
原创内容识别是搜索引擎的难题之一,google在这方面做的明显要好, 但和理想的情况还是有差距.以"谈谈书价"这个query为例, google的结果已经做的非常棒了google.com.hk/#hl=zh-C...几个可能的识别"原创"的方法:时间:直观来想最重要的识别因子就是时间, 但对于google而言, 这个因子却很难像我们想象的那样有效. 可能的几个参考时间:
基本上是没有所有网页通用的有效时间因素, 可以被搜索引擎获取到. 时间不准确的话, 即使是完全相同的网页内容, 也无法判断了. (判断网页是否微小改变, 由于时间不靠谱, 在原创问题上就不是重要的因素, 就不展开了. 从方法上看, 列温斯顿编辑距离这些方法已经是非常成熟有效的. 看起来google没这么用)链接关系:在一个理想化的互联网里面, 转载方会给出原始出处, 链接关系就是比较靠谱的识别原创的方法. google可以顺着链接关系, 找到最终的原始出处. 但目前来看, 这个方法的作用有限:
传播能力:目前看, google识别原创的最主要手段就是识别传播能力. 根据meme理论传播越广的内容其价值越高:en.wikipedia.org/wiki...其实这里换了概念, 把"原创"换成了"价值高". 这是一种对于识别"原创"困难的折中. 把找出"源头"的工作, 交给了用户的群体智慧. 网页被用户通过主动的方式看到的越多, 那么他是"原创"的概率就越大. 把识别的工作, 交给了全体用户来共同参与. 相当于是我们找出了信息源(但有可能不是原创), 再把这个结果告诉google. 虽然可能不是真正的原创, 但可能是最具影响力的结果.基于此我们经常看到, 对于同一篇内容, 投稿在月光博客上的网页, 会比真正的原创网页排名高.对于query: quora的创新, 知乎的土壤google的结果第一位的就是月光博客上的结果, 而真正的原创结果是第一页找不到的.至于如何识别网页的"传播能力", 类似于facebook的like按钮就是比较典型的代表, google目前自身的产品已经可以获取到很多类似的数据(目前还不包括+1的数据), 链接关系也可以包括在这里面, 虽然不是最有效的.
答案 2：
很理论的东西：首先你这个文章的：标题、段落的第一句、段落的末句、段落的顺序。抓取到的内容去和数据库中比较！看重复度！！！一般地说差异化达到50%（有说60%）就算原创了（另称伪原创成功）。
答案 3：
看了答案,不是很靠谱.贴一个我知道的答案.... 所以如果你要让机器知道哪一篇文章是原创还是转载,你需要解决2个问题. 1.把所有同一篇文章找出来. 2.把抓到时间按照时间排序,最先抓来的认为是原创的. 第2个问题非常好解决,所以说一下第1个问题的解决方案.
把所有网页上,特征1,和特征2一样的网页选出来,则完成了同一篇文章的选择. 第二个问题迎刃而解.
答案 4：
原则上头尾修改·幅度不超三分之一
答案 5：
这个问题我想google现在也没法回答。譬如说有两篇文章A和B，A先原创出来，然后B在很短的时间内转载，然后提交书签，做反链，ping它......结果B比A先收录，你说google该怎么评判？
答案 6：
现在硕博论文都有个反作弊检查程序，为什么抄袭和非创新重复建设还是不可杜绝，不少人都下载来自己先看看有没违规，然后想办法让他们看起来不太一样。然后某人自己写的文章虽然是同一个内容，但是换种写法机器是很难识别出来的，这样就有了很多SCI, EI。。。觉得机器能代替人来判断在这点上还是太难了。
答案 7：
不可能完美解决，头尾修改幅度不要超过1/3，SEO现在不好做，看天吃饭。百度520就是一个教训啊
答案 8：
修改到关键词拼发生变化即可，搜索算法一直在变的，seo不好做啊
答案 9：
应该主要是根据时间来判断吧，还有文章的相似程度吧。。。
答案 10：
这个连人工都无法做到准确判断，何况机器算法。
答案 11：
看看这篇文章吧---数学之美系列十二：余弦定理和新闻的分类，相信你就明白了

QQ空间新浪微博腾讯微博人人网更多

相关热词搜索：

上一篇：从法律角度如何看待「驾后喝酒」问题？
下一篇：澳洲移民政策？

Google 如何判断一篇文章是转载还是原创？
2012-01-19 19:36:20 来源：点击：

11 个答案

热门知识

教育学习 > 为什么 > 热点知识

本月热门知识

Google 如何判断一篇文章是转载还是原创？ 2012-01-19 19:36:20 来源： 点击：

11 个答案

热门知识

教育学习 > 为什么 > 热点知识

本月热门知识

Google 如何判断一篇文章是转载还是原创？
2012-01-19 19:36:20 来源：点击：