首页 > 教育学习 > 为什么 > 爬虫如何辨别目录页？

爬虫如何辨别目录页？
2012-01-19 19:47:09 来源：点击：

4 个答案

答案 1：
当下我采用的是简单幼稚但还算有效的办法----链接数目，超过阈值便处理为索引页，否则判定为内容页。
答案 2：
我猜想可以这样判断：1、页面子链个数很多。2、页面子链的url形式（目录）有一定共性。3、判断锚文本占页面所有文本比重很高。
答案 3：
首先要区分问题解决的环境：如果是处理特定的站点，肯定是手工配url pattern，如果是大规模海量无共性站点，那么@郑传义的方法机上@Paul说的特征，毫无疑问是性价比最高的，当然如果你对自己自信，可以基于站点构型做挖掘最后，这些索引页是帮你发现新链接的，如果做spider，怎么会没用呢？
答案 4：
我的想法是这样的，如果有子url的就是目录页，如果没有的基本都是内容页。但是就是news.sina.com.cn/z/cjzxyz...，这个这样下来就不大好辨别了

QQ空间新浪微博腾讯微博人人网更多

相关热词搜索：

上一篇：如何锻炼出一身肌肉？
下一篇：如何设计一个匿名社区？

热门知识

教育学习 > 为什么 > 热点知识

本月热门知识