火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3248|回复: 7

列出网址速度快了,问题也来了!

[复制链接]
发表于 2010-5-25 12:06:27 | 显示全部楼层 |阅读模式
采集设置过滤重复网址,出现以下问题

设在系统设置里面设置 连续重复了多少网址路过采集网址   20
问题出来了!
那么 当采集列表页 中包含超过20个重复网址的时候,即使有新的内容网址,也不采集,
也就是说,当列表页有50 个网址, 其中20个是重复,注意,重复网址在新的网址下面, 这个时候是采集不到新的内容页地址的。

想问下, 新的采集地址的规则是先过滤重复再采集,而不是每次采集重新打开列表页,并自上而下分析列表页?这也太搞了吧?有个列表页是不断增长的,我该设置重复网址为多少?
 楼主| 发表于 2010-5-25 12:08:14 | 显示全部楼层
忘记说了下, 版本是最新20100513版本, 列表页地址测试时可以列出已经更新的内容页地址,但采集时,列出20个重复后就跳过采集。
 楼主| 发表于 2010-5-27 11:14:53 | 显示全部楼层
  没有人理……
 楼主| 发表于 2010-6-3 22:42:58 | 显示全部楼层
晕,真不知道客服干嘛了,也不测试下
发表于 2010-6-4 15:58:12 | 显示全部楼层
选项里面有个改重复网址的, 把设置改一下, 改成50,100, 或者设成不限.
 楼主| 发表于 2010-6-24 10:00:10 | 显示全部楼层
这个还用你说啊
我采集的一个列表页面,一共有9000多条网址,越改越垃圾的火车居然要我设置重复网址设置为9000才能采集到更新的网址,郁闷,分析网页居然从下往上分析的,什么逻辑嘛。
发表于 2010-6-24 10:43:04 | 显示全部楼层
回复 6# iiwork


    采集器采集网址是从源码开始到源码结束。有可能您采集的网站网址列表次序和源码中的不一样,那样的话可能显示的结果和实际看到的不一样。请仔细分析。
 楼主| 发表于 2010-6-24 21:06:13 | 显示全部楼层
那不能每个任务都先过滤重复,然后再采集新的地址吧,
再说了用火车头不是一天两天了,出现这种问题我都是去看过源代码的,列表区域源代码不变,顺序是新的前,旧在后的,按火车的操作应该是先采集到新的网址,然后再过滤重复的,
真是郁闷,难道是我电脑上的程序出了问题?
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 05:00

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表