-
答案 1:
实现起来并不困难,并且有现成的开源工具。但是网页/自然语言的噪声是很大的,想提取出很clean的数据或者达到很高的正确率就比较困难了。事实上很多人在试图将整个互联网整合为structured data, 也就是所谓的“semantic web”, 有很多相关的研究,但是还没有形成统一的认识和标准,盈利模式就更加模糊了。现在web2。0的盈利模式都还不清晰,就不要提还在襁褓中的web 3。0了。 -
答案 2:
如果能做到智能学习和识别,__准确地__抽取出主要内容,那么它就成为了一个强大的RSS自动提取器(还是全文的)。进一步,如果这个提取器能做到__实时__渲染,那可以说整个web的内容展现都可以被重新定义,这将是另外一个崭新的世界 -
答案 3:
同样一个东西,只有你有创新之处,就比别人有价值;关键之处要让别人感受到产品的闪光点。 -
答案 4:
网页主体内容抽取非常有价值,在全网搜索引擎里面尤其重要,是保证搜索结果与用户查询意图相关的基础。而随着网页的多媒体元素比例增加,主体内容抽取不仅仅需要提取文本信息,还包括图片、音频、flash内容等。如何提取和解析这些内容都很有需求。当然,价值的多少要看准确率能做到什么程度。 -
答案 5:
不是很懂,感觉这个应用类似新闻编辑的采集器一样。或者跟聚合类网站一样;或者跟网友推荐聚合类网站一样,抓虾?以前好像有类似的推荐网站,digg类的,记不清了。后来好像都半死不活了。原因无非是,抓过来还不如点击过去看原版吧。是否盈利,要看盈利方向是什么,如果是广告方向,就要看是否有足够多的用户数和流量。当然,如果用户数不多,但够高端,够精准也可以。如果所指的主要是个采集功能,估计没啥用。就是个转帖机器,自动水军。【后面添加的内容】当年,大旗和奇虎网出来的时候,我个人曾判断,大旗能活下去,奇虎网会死掉。大旗做的是论坛聚合,机器抓+人工抓,国内论坛多,需要一个集纳网站;奇虎做的是新闻聚合,机器搞死,也搞不过新浪上千号编辑弄出来的内容。大旗找到了一个空白,所以能活,但也就是半死不活。最根本的道理,这样的采集+聚合,吸引来的只是一点点人气或者流量,不是真正的用户。 -
答案 6:
我觉得一个可能的方向是做咨询。客户可以是一个公司也可以是一个组织,甚至是某一个个人。为特定的个人或组织收集特定的信息,使之可以更好的面对危机或者是提高形象等。在这个角度上,信息的高效整合与合理提取将是关键。将这两个关键点做好做精将会变得非常有竞争力。我暂时是没有发现在这方面做得非常杰出的公司。这回事一个很有前途的领域。 -
答案 7:
如果作为移动应用,还是有价值的。因为移动应用,如果加载原网页实在费劲。如果是考虑PC版的话,我觉得从用户体验出发,是一个好的开始。但是,如果只是提供信息采集的话,你可以考虑把所有信息集合成为一个数据库而销售。 -
答案 8:
有价值。不过主要是商业价值。我上一家公司就是专业做这个的。客户是大的互联网公司。 -
答案 9:
这东西,简单的脚本编程就能实现。广大垃圾站站长做了好久了。靠伪原创欺骗搜索引擎,汇聚流量,再依靠广告联盟变现。
抓取网页主要内容的服务有价值么?
2012-01-19 20:06:57 来源: 点击:
相关热词搜索:
上一篇:Fedora 15 lovelock 字体如何优化?
下一篇:知乎的兴起代表了怎样的社会文化发展趋势?