首页 > 教育学习 > 为什么 > 爬虫如何辨别目录页?

爬虫如何辨别目录页?
2012-01-19 19:47:09   来源:   点击:

    爬虫如何辨别目录页?现在有一堆url,我想根据这些url爬取网页,但是那些主页和目录页是没用的,要怎么辨别并过滤掉这些页面?例如news.sina.com.cn/z/cjzxyz...,我要怎么辨别呢?

    4 个答案

    • 答案 1:

      当下我采用的是简单幼稚但还算有效的办法----链接数目,超过阈值便处理为索引页,否则判定为内容页。
    • 答案 2:

      我猜想可以这样判断:1、页面子链个数很多。2、页面子链的url形式(目录)有一定共性。3、判断锚文本占页面所有文本比重很高。
    • 答案 3:

      首先要区分问题解决的环境:如果是处理特定的站点,肯定是手工配url pattern,如果是大规模海量无共性站点,那么@郑传义的方法机上@Paul说的特征,毫无疑问是性价比最高的,当然如果你对自己自信,可以基于站点构型做挖掘最后,这些索引页是帮你发现新链接的,如果做spider,怎么会没用呢?
    • 答案 4:

      我的想法是这样的,如果有子url的就是目录页,如果没有的基本都是内容页。但是就是news.sina.com.cn/z/cjzxyz...,这个这样下来就不大好辨别了

相关热词搜索:

上一篇:如何锻炼出一身肌肉?
下一篇:如何设计一个匿名社区?