thao01 发表于 2010-10-25 09:17:33

怎么采集多个网址

首页列表是 index.html
然后列表第二页的是 list_2.html
第三页列表页是list_3.html
依次内推
就那admin5做例子
采集地址:http://www.admin5.com/browse/177/index.shtml
http://www.admin5.com/browse/177/list_<1,5,1,false,false>.shtml
我测试的时候能采集到所有列表下的网址,
但正式采集的时候 他只采集
http://www.admin5.com/browse/177/index.shtml
http://www.admin5.com/browse/177/list_2.shtml
http://www.admin5.com/browse/177/list_3.shtml
http://www.admin5.com/browse/177/list_4.shtml
http://www.admin5.com/browse/177/list_5.shtml
下面的文章列表不采集!

专业收费采集 发表于 2010-10-25 09:32:21

看来你对火车头采集器不太熟悉

我估计你是不是把深度设置为0了

thao01 发表于 2010-10-25 10:07:47

深度设置的为1,是连续采集了20个重复网址,他自动停止了, 我记得我清空过本地网址 数据库什么的!

wxl08 发表于 2010-10-25 10:19:17

根据你写的有一个小问题,没有list_1.html这个页面,你可以将数字从2开始递增。采集不到1级网址,你首先检查下你的采集规则是否正确,若正确,测试有重复网址,你就要删除该任务的所有本地采集数据,和任务地址库,重新采集
页: [1]
查看完整版本: 怎么采集多个网址