ourvip 发表于 2009-5-3 13:42:02

分页采集时遇到了困难

本帖最后由 ourvip 于 2009-5-3 13:46 编辑

要采集的目标地址:http://oxford.icxo.com/htmlnews/2009/05/01/1378001_0.htm
可以看出还有的2页地址分别为
http://oxford.icxo.com/htmlnews/2009/05/01/1378001_1.htm
http://oxford.icxo.com/htmlnews/2009/05/01/1378001_2.htm
不难看出起变量主要是下划线"_"后面的那个数字在变动
如果只是采集这一页还好办,但是我要采集这个栏目下面所有的文章就不知道该怎么写这个采集规则了。
主要是在这几个地方有困惑:
1.   /2009/05/01/1378001_0.htm
   这里的2009; 05; 01是年月日的目录,以及这个1378001在其他文章页是不同的,它可能是2008、2007年;03、08、10月;03、05、08、22日;以及那个文章也的数字都是不确定的。
2.   这个分页的采集如果用参数1,参数2等这些来采集的话,是不能成功的。


不知道有没有朋友采集过类似的,如果有,烦请讲讲,谢谢了。
我用的火车头是2009sp1免费版。

专业收费采集 发表于 2009-5-3 14:07:01

网址必须包含 /htmlnews/2   就可以了~

ourvip 发表于 2009-5-3 14:38:19

本帖最后由 ourvip 于 2009-5-3 14:39 编辑

网址必须包含 /htmlnews/2   就可以了~
专业收费采集 发表于 2009-5-3 14:07
谢谢你的帮助,采集文章页时可以在按照你说的那么设置,而且我也是这么设置的。但我说的是文章页自身比较长,对方已经设置了第一页,第二页,第N页,这个分页该如何采集呢?
不知道我有没有说清楚!
页: [1]
查看完整版本: 分页采集时遇到了困难