-
答案 1:
当下我采用的是简单幼稚但还算有效的办法----链接数目,超过阈值便处理为索引页,否则判定为内容页。 -
答案 2:
我猜想可以这样判断:1、页面子链个数很多。2、页面子链的url形式(目录)有一定共性。3、判断锚文本占页面所有文本比重很高。 -
答案 3:
首先要区分问题解决的环境:如果是处理特定的站点,肯定是手工配url pattern,如果是大规模海量无共性站点,那么@郑传义的方法机上@Paul说的特征,毫无疑问是性价比最高的,当然如果你对自己自信,可以基于站点构型做挖掘最后,这些索引页是帮你发现新链接的,如果做spider,怎么会没用呢? -
答案 4:
我的想法是这样的,如果有子url的就是目录页,如果没有的基本都是内容页。但是就是news.sina.com.cn/z/cjzxyz...,这个这样下来就不大好辨别了
爬虫如何辨别目录页?
2012-01-19 19:47:09 来源: 点击:
相关热词搜索:
上一篇:如何锻炼出一身肌肉?
下一篇:如何设计一个匿名社区?