火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 7362|回复: 10

如何采集文章列表"下一页"的分页地址?

[复制链接]
发表于 2008-2-24 12:37:32 | 显示全部楼层 |阅读模式
搞了好几天才发现,原来火车头不能采集分页形式为"下一页"的网站,NND,累死我了.

建议火车头把用"下一页"形式来获得文章列表页面的功能做好.
文章列表分页的代码是不规则的,只好用正则提取分页地址.

<div class="page">
文章列表分页:<a href="ahjdhxxx.html">下一页</a>
</div><!--}}}end:page -->

文章列表分页:<a href="xxahsdsdfxxx.html">下一页</a>
源地址
http://www.xxx.com/xasdfasdhsdsdfxxx.html
设置正则参数:
源代码开始:
    <div class="page">
结束:
    </div><!--}}}end:page -->
脚本规则:
<a href="[参数]">下一页
实际地址是:
http://www.xxx.com/[参数1]

为什么这样做无法提取分页地址呢???

[ 本帖最后由 cofcn 于 2008-2-26 14:27 编辑 ]
 楼主| 发表于 2008-2-24 12:39:19 | 显示全部楼层
http://bbs.locoy.com/viewthread. ... E1%C8%A1&page=1
这个帖子也是这样的问题,不过没写如何解决的
 楼主| 发表于 2008-2-24 14:05:47 | 显示全部楼层
这种列表分页的采集方法,在动易等CMS里面,设置起来十分方便,希望火车头能加强一下这方面的功能.

貌似看起来很繁琐,还做不到
 楼主| 发表于 2008-2-24 14:12:18 | 显示全部楼层
晕,找到原因了,原来,
火车头的分页,不支持UTF8
 楼主| 发表于 2008-2-24 14:13:43 | 显示全部楼层
不是无法识别网址,就是提取的网址是乱码
 楼主| 发表于 2008-2-24 14:31:46 | 显示全部楼层
为什么只能提取一个网址呢??
下一页的分页列表地址,是在提取出来的分页中依次提取下一页,火车头只提取当前页面的下一页的网址,不能批量提取吗??
 楼主| 发表于 2008-2-24 14:33:27 | 显示全部楼层
怎么连个回答的人也没有??
发表于 2008-2-24 15:08:15 | 显示全部楼层
你说的问题都可以解决,其实都相当的简单。至于不能UTF-8,你在采集网址时那里有编码选择,就可以了解决了。至于你用正则提取分页提不出来,我想一定是你的规则出问题。
 楼主| 发表于 2008-2-24 15:52:51 | 显示全部楼层
给写出来一个规则啊

反正我这里中也测试不出来.

很简单,呵呵
 楼主| 发表于 2008-2-24 16:46:05 | 显示全部楼层
8楼的真垃圾,你说的话,是人都会说,用不着你在这里做签名广告
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-18 22:33

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表