如何采集文章列表"下一页"的分页地址?

cofcn 发表于 2008-2-24 12:37:32

搞了好几天才发现,原来火车头不能采集分页形式为"下一页"的网站,NND,累死我了.

建议火车头把用"下一页"形式来获得文章列表页面的功能做好.
文章列表分页的代码是不规则的,只好用正则提取分页地址.

<div class="page">
文章列表分页:<a href="ahjdhxxx.html">下一页</a>
</div>

文章列表分页:<a href="xxahsdsdfxxx.html">下一页</a>
源地址
http://www.xxx.com/xasdfasdhsdsdfxxx.html
设置正则参数:
源代码开始：
<div class="page">
结束：
</div>
脚本规则：
<a href="[参数]">下一页
实际地址是：
http://www.xxx.com/[参数1]

为什么这样做无法提取分页地址呢???

[ 本帖最后由 cofcn 于 2008-2-26 14:27 编辑 ]

cofcn 发表于 2008-2-24 12:39:19

http://bbs.locoy.com/viewthread.php?tid=22146&extra=&highlight=%D5%FD%D4%F2%CC%E1%C8%A1&page=1
这个帖子也是这样的问题,不过没写如何解决的

cofcn 发表于 2008-2-24 14:05:47

这种列表分页的采集方法,在动易等CMS里面,设置起来十分方便,希望火车头能加强一下这方面的功能.

貌似看起来很繁琐,还做不到ali22ls ali22ls

cofcn 发表于 2008-2-24 14:12:18

晕,找到原因了,原来,
火车头的分页,不支持UTF8

cofcn 发表于 2008-2-24 14:13:43

不是无法识别网址,就是提取的网址是乱码

cofcn 发表于 2008-2-24 14:31:46

为什么只能提取一个网址呢??
下一页的分页列表地址,是在提取出来的分页中依次提取下一页,火车头只提取当前页面的下一页的网址,不能批量提取吗??

cofcn 发表于 2008-2-24 14:33:27

怎么连个回答的人也没有??ali28ls

fireye 发表于 2008-2-24 15:08:15

你说的问题都可以解决，其实都相当的简单。至于不能UTF-8，你在采集网址时那里有编码选择，就可以了解决了。至于你用正则提取分页提不出来，我想一定是你的规则出问题。

cofcn 发表于 2008-2-24 15:52:51

给写出来一个规则啊
ali24ls
反正我这里中也测试不出来.

很简单,呵呵

cofcn 发表于 2008-2-24 16:46:05

8楼的真垃圾,你说的话,是人都会说,用不着你在这里做签名广告

页: [1] 2

火车采集器软件交流官方论坛's Archiver

如何采集文章列表"下一页"的分页地址?