火车尾巴 发表于 2007-11-15 09:06:08

[已解决]关于2级深度采集论坛某版面的问题

我采一个论坛的一个版面的内容,而且只采这个版面的每个贴子的一楼内容,不采回复。

此版面的链接为http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=0
其中最后的st为分页码,即第一页为0,第二页为30,第三页60,.......,步长为30.
共从0到1350,即1350/30=45页,每一页共30个主题,主题的第一楼链接为
http://www.xx.com/forum/index.php?showtopic=xxx&st=0
最后的st=0为此主题的第一楼,

我使用了2级深度,批量(从0到1350,步长为30)进行采集,数据是能采下来。但是有一个怪现象:
即采分页时总是从头循环,如
http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=0
http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=1350
http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=0
http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=30
http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=1350
http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=0
http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=30
http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=60
http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=1350
http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=0
http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=30
http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=60
http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=90
http://www.xx.com/forum/index.php?showforum=37&prune_day=100&sort_by=Z-A&sort_key=last_post&st=1350
............................................

这样循环。

页采内容页也是类似这样重复的循环。

http://www.xx.com/forum/index.php?showtopic=25452&st=0
http://www.xx.com/forum/index.php?showtopic=25453&st=0
http://www.xx.com/forum/index.php?showtopic=25452&st=0
http://www.xx.com/forum/index.php?showtopic=25453&st=0
http://www.xx.com/forum/index.php?showtopic=25454&st=0
http://www.xx.com/forum/index.php?showtopic=25452&st=0
http://www.xx.com/forum/index.php?showtopic=25453&st=0
http://www.xx.com/forum/index.php?showtopic=25454&st=0
http://www.xx.com/forum/index.php?showtopic=25455&st=0
................................


请问一下,我哪里设置错了???怎么老是这样要重复的。

[ 本帖最后由 火车尾巴 于 2007-11-15 13:55 编辑 ]

rq204 发表于 2007-11-15 10:21:18

1级深度才对。

火车尾巴 发表于 2007-11-15 12:51:39

把采集深度改为1了。
不再重复了。
但还是有问题。

批量增加采集页数,
我要采到1350,那么 数字变化范围不是从 0到1350吗?步长为30
即这样变化 0,30,60,90,......,1350
可实际采集过程中,最后采集的数字大于1350,而且还在不断的采,好象要把论坛的所有页面都要有下来。。。

难道火车头不能识别 最后的数字1350吗?不能停止???

rq204 发表于 2007-11-15 13:17:07

1350/30

火车尾巴 发表于 2007-11-15 13:52:47

原帖由 rq204 于 2007-11-15 13:17 发表 http://bbs.locoy.com/images/common/back.gif
1350/30
原来如此,原来那个地方是页数。汗,我原来填了1350,现在改为45就好了。现在只采45页,达到我的目的了。谢谢,解决了我的问题。
:ali12ls
页: [1]
查看完整版本: [已解决]关于2级深度采集论坛某版面的问题