-
答案 1:
原创内容识别是搜索引擎的难题之一,google在这方面做的明显要好, 但和理想的情况还是有差距.以"谈谈书价"这个query为例, google的结果已经做的非常棒了google.com.hk/#hl=zh-C...几个可能的识别"原创"的方法:时间:直观来想最重要的识别因子就是时间, 但对于google而言, 这个因子却很难像我们想象的那样有效. 可能的几个参考时间:搜索引擎收录时间: 由于抓取系统的调度不同, 即使是google, 即使是用ping, 原创结果也不一定优先被收录(虽然在很多情况下, 已经向这个方向靠拢了). 这是基于优先级队列的网页抓取算法和机器抓取性能有限共同决定的. 第一时间新浪编辑转载的内容可能就比原创先收录.
网页上文章的生成时间: 抛开完全不靠谱的服务器lastmodifytime, 网页上本身就显示有生成时间, 如果可以被识别, 也是有效的. 但并不是所有的网页都有这个属性,read.weiwuhui.com/archives... 就找不到有意义的时间. 而且即使存在, 对于这个由网页生成者提供的时间, 是否可信也是一个问题.
没有专业精神的转载者: 转载不给出出处, ^C+^Y一党. 简体中文互联网里面几乎所有的综合性站点, 都有一些编辑耍流氓不给出原始出处的现象, 甚至是剽窃别人的内容当做自己的原创. 这种复制和剽窃, 切断了链接的传播途径(现在微博上的那些粉丝多的草根微博, 都是走复制粘贴这个路数的货色, 更不要说采集站了). 搜索引擎识别不能.
没有统一的出处: 对于一些urban legend或者笑话, 人类自己都搞不清楚源头是什么, 甚至很多源头都不在互联网上. 链接关系也无法指向最终出处, 可能指向的只是可考的镜像. 这类超出人类自身的问题, 搜索引擎也没能力.
-
答案 2:
很理论的东西:首先你这个文章的:标题、段落的第一句、段落的末句、段落的顺序。抓取到的内容去和 数据库中比较!看重复度!!!一般地说 差异化达到50%(有说60%) 就算原创了(另称伪原创成功)。 -
答案 3:
看了答案,不是很靠谱.贴一个我知道的答案.... 所以如果你要让机器知道哪一篇文章是原创还是转载,你需要解决2个问题. 1.把所有同一篇文章找出来. 2.把抓到时间按照时间排序,最先抓来的认为是原创的. 第2个问题非常好解决,所以说一下第1个问题的解决方案.我先把所有页面中的文字提取,按照自然断句,变成一个文档.
我取出该网页最长的一个句子,作为签名,认为这个是这篇文章中一个特征.
我取出该网页上次最长句子作为签名2,认为是是第二个特征.
-
答案 4:
原则上 头尾修改·幅度不超三分之一 -
答案 5:
这个问题我想google现在也没法回答。譬如说有两篇文章A和B,A先原创出来,然后B在很短的时间内转载,然后提交书签,做反链,ping它......结果B比A先收录,你说google该怎么评判? -
答案 6:
现在硕博论文都有个反作弊检查程序,为什么抄袭和非创新重复建设还是不可杜绝,不少人都下载来自己先看看有没违规,然后想办法让他们看起来不太一样。然后某人自己写的文章虽然是同一个内容,但是换种写法机器是很难识别出来的,这样就有了很多SCI, EI。。。觉得机器能代替人来判断在这点上还是太难了。 -
答案 7:
不可能完美解决,头尾修改幅度不要超过1/3,SEO现在不好做,看天吃饭。百度520就是一个教训啊 -
答案 8:
修改到关键词拼发生变化即可,搜索算法一直在变的,seo不好做啊 -
答案 9:
应该主要是根据时间来判断吧,还有文章的相似程度吧。。。 -
答案 10:
这个连人工都无法做到准确判断,何况机器算法。 -
答案 11:
看看这篇文章吧---数学之美系列十二:余弦定理和新闻的分类,相信你就明白了
Google 如何判断一篇文章是转载还是原创?
2012-01-19 19:36:20 来源: 点击:
相关热词搜索:
上一篇:从法律角度如何看待「驾后喝酒」问题?
下一篇:澳洲移民政策?