redjcn 发表于 2014-1-14 16:57:10

采集分页时,分页的链接地址怎么获取全呢?

我采集的地址是假设 http://www.abc.com/News/Html/20140107/18056_1.shtml,该页中的分页代码如下,<div class="pub__page">&nbsp;<A href=18056_1.shtml class="thispage">1</A>&nbsp;<A href=18056_2.shtml class="pageshow">2</A>&nbsp;<A href=18056_3.shtml class="pageshow">3</A>&nbsp;<A href=18056_4.shtml class="pageshow">4</A>&nbsp;<A href=18056_2.shtml class="pageshow">下一页</A>&nbsp;</div>
我用火车头v8采集,当前页面采集没有问题,但分页设置时总采集不到,后来我看了一下典型页面的测试,分页链接取得错了,应该是http://www.abc.com/News/Html/20140107/18056_2.shtml,http://www.abc.com/News/Html/20140107/18056_3.shtml,

但实际火车头取得的分页是http://www.abc.com/18056_2.shtml、http://www.abc.com/18056_3.shtml怎样设置才能让分页链接取争取的链接呢?

请各位高手帮忙看一下。

303718 发表于 2014-1-16 09:05:52

分页部分设置不正确就采不到了。用手动填写分页规则采集

redjcn 发表于 2014-1-16 22:09:46

具体该怎么写呢?

xinsun007 发表于 2014-1-21 15:24:39

该怎么写才好{:soso_e103:}
页: [1]
查看完整版本: 采集分页时,分页的链接地址怎么获取全呢?