采集分页时,分页的链接地址怎么获取全呢?
我采集的地址是假设 http://www.abc.com/News/Html/20140107/18056_1.shtml,该页中的分页代码如下,<div class="pub__page"> <A href=18056_1.shtml class="thispage">1</A> <A href=18056_2.shtml class="pageshow">2</A> <A href=18056_3.shtml class="pageshow">3</A> <A href=18056_4.shtml class="pageshow">4</A> <A href=18056_2.shtml class="pageshow">下一页</A> </div>我用火车头v8采集,当前页面采集没有问题,但分页设置时总采集不到,后来我看了一下典型页面的测试,分页链接取得错了,应该是http://www.abc.com/News/Html/20140107/18056_2.shtml,http://www.abc.com/News/Html/20140107/18056_3.shtml,
但实际火车头取得的分页是http://www.abc.com/18056_2.shtml、http://www.abc.com/18056_3.shtml怎样设置才能让分页链接取争取的链接呢?
请各位高手帮忙看一下。 分页部分设置不正确就采不到了。用手动填写分页规则采集 具体该怎么写呢? 该怎么写才好{:soso_e103:}
页:
[1]