首页 > 教育学习 > 为什么 > 怎样建立一个定向抓取内容的爬虫站点?

怎样建立一个定向抓取内容的爬虫站点?
2012-01-19 17:32:37   来源:   点击:

    怎样建立一个定向抓取内容的爬虫站点?1.用java写,有哪些抓取和解析的框架可以用?我看网上有httpclient htmlparser的教学例子,不知道实用性怎么样2.如何存储数据?数据之间的耦合并不强,能用mongodb么

    4 个答案

    • 答案 1:

      jsoup就可以用来解析html
    • 答案 2:

      如果数据结构化很好,还是建议用relational database来存储,技术比较成熟,也能得到快速的支持。
    • 答案 3:

      小框架有webharvers,大一点的用nutch也行。数据库比较推荐用nosql,mongodb挺符合需求,建议自己搭框架,比较容易适应各种不同的爬抓方向
    • 答案 4:

      推荐NoSQLFan上的一篇文章,来自淘宝搜索技术博客的:《快速构建实时抓取集群》专门讲述了定向抓取的实现blog.nosqlfan.com/html...

相关热词搜索:

上一篇:PSVITA会有第三方浏览器么?
下一篇:如果一个应用只支持用手机号码账户,会影响你注册的意愿吗?