火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2613|回复: 2

关于重复采集的问题

[复制链接]
发表于 2009-10-29 14:07:19 | 显示全部楼层 |阅读模式
本帖最后由 ywzheng 于 2009-10-29 14:12 编辑

PW论坛的列表页为 URL/thread.php?fid=2&page=1
然后火车头进行自动分析 得出网址为  URL/read.php?tid=56841
那在采集的时候就会出现如下问题
首先 URL/read.php?tid=56841页面采集一次
然后分析分页 分页里比如有10个分页,分别是 URL/read.php?tid=56841&fpage=0&toread=&page=1 等等
这个时候URL/read.php?tid=56841和URL/read.php?tid=56841&fpage=0&toread=&page=1实际上是同一个页面...............
重复的问题发生了...
请高手指点下如何解决
发表于 2009-10-29 14:14:10 | 显示全部楼层
不得包含 fpage toread等字符串。保证采集到的URL唯一。
 楼主| 发表于 2009-10-29 14:38:58 | 显示全部楼层
谢谢管理员,按你的提示,更改了下思路,现在好像已经可以不重复了

谢谢
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-17 06:13

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表