如何采集文章列表"下一页"的分页地址?
搞了好几天才发现,原来火车头不能采集分页形式为"下一页"的网站,NND,累死我了.建议火车头把用"下一页"形式来获得文章列表页面的功能做好.
文章列表分页的代码是不规则的,只好用正则提取分页地址.
<div class="page">
文章列表分页:<a href="ahjdhxxx.html">下一页</a>
</div><!--}}}end:page -->
文章列表分页:<a href="xxahsdsdfxxx.html">下一页</a>
源地址
http://www.xxx.com/xasdfasdhsdsdfxxx.html
设置正则参数:
源代码开始:
<div class="page">
结束:
</div><!--}}}end:page -->
脚本规则:
<a href="[参数]">下一页
实际地址是:
http://www.xxx.com/[参数1]
为什么这样做无法提取分页地址呢???
[ 本帖最后由 cofcn 于 2008-2-26 14:27 编辑 ] http://bbs.locoy.com/viewthread.php?tid=22146&extra=&highlight=%D5%FD%D4%F2%CC%E1%C8%A1&page=1
这个帖子也是这样的问题,不过没写如何解决的 这种列表分页的采集方法,在动易等CMS里面,设置起来十分方便,希望火车头能加强一下这方面的功能.
貌似看起来很繁琐,还做不到ali22ls ali22ls 晕,找到原因了,原来,
火车头的分页,不支持UTF8 不是无法识别网址,就是提取的网址是乱码 为什么只能提取一个网址呢??
下一页的分页列表地址,是在提取出来的分页中依次提取下一页,火车头只提取当前页面的下一页的网址,不能批量提取吗?? 怎么连个回答的人也没有??ali28ls 你说的问题都可以解决,其实都相当的简单。至于不能UTF-8,你在采集网址时那里有编码选择,就可以了解决了。至于你用正则提取分页提不出来,我想一定是你的规则出问题。 给写出来一个规则啊
ali24ls
反正我这里中也测试不出来.
很简单,呵呵 8楼的真垃圾,你说的话,是人都会说,用不着你在这里做签名广告
页:
[1]
2