火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 1835|回复: 2

分页采集时遇到了困难

[复制链接]
发表于 2009-5-3 13:42:02 | 显示全部楼层 |阅读模式
本帖最后由 ourvip 于 2009-5-3 13:46 编辑

要采集的目标地址:http://oxford.icxo.com/htmlnews/2009/05/01/1378001_0.htm
可以看出还有的2页地址分别为
http://oxford.icxo.com/htmlnews/2009/05/01/1378001_1.htm
http://oxford.icxo.com/htmlnews/2009/05/01/1378001_2.htm
不难看出起变量主要是下划线"_"后面的那个数字在变动
如果只是采集这一页还好办,但是我要采集这个栏目下面所有的文章就不知道该怎么写这个采集规则了。
主要是在这几个地方有困惑:
1.   /2009/05/01/1378001_0.htm
     这里的2009; 05; 01是年月日的目录,以及这个1378001在其他文章页是不同的,它可能是2008、2007年;03、08、10月;03、05、08、22日;以及那个文章也的数字都是不确定的。
2.   这个分页的采集如果用参数1,参数2等这些来采集的话,是不能成功的。


不知道有没有朋友采集过类似的,如果有,烦请讲讲,谢谢了。
我用的火车头是2009sp1免费版。
发表于 2009-5-3 14:07:01 | 显示全部楼层
网址必须包含 /htmlnews/2   就可以了~
 楼主| 发表于 2009-5-3 14:38:19 | 显示全部楼层
本帖最后由 ourvip 于 2009-5-3 14:39 编辑
网址必须包含 /htmlnews/2   就可以了~
专业收费采集 发表于 2009-5-3 14:07

谢谢你的帮助,采集文章页时可以在按照你说的那么设置,而且我也是这么设置的。但我说的是文章页自身比较长,对方已经设置了第一页,第二页,第N页,这个分页该如何采集呢?
不知道我有没有说清楚!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

企业微信|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-26 00:49

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表