iiwork 发表于 2010-5-25 12:06:27

列出网址速度快了,问题也来了!

采集设置过滤重复网址,出现以下问题

设在系统设置里面设置 连续重复了多少网址路过采集网址   20
问题出来了!
那么 当采集列表页 中包含超过20个重复网址的时候,即使有新的内容网址,也不采集,
也就是说,当列表页有50 个网址, 其中20个是重复,注意,重复网址在新的网址下面, 这个时候是采集不到新的内容页地址的。

想问下, 新的采集地址的规则是先过滤重复再采集,而不是每次采集重新打开列表页,并自上而下分析列表页?这也太搞了吧?有个列表页是不断增长的,我该设置重复网址为多少?

iiwork 发表于 2010-5-25 12:08:14

忘记说了下, 版本是最新20100513版本, 列表页地址测试时可以列出已经更新的内容页地址,但采集时,列出20个重复后就跳过采集。

iiwork 发表于 2010-5-27 11:14:53

ali75ls没有人理……

iiwork 发表于 2010-6-3 22:42:58

晕,真不知道客服干嘛了,也不测试下

avdoo 发表于 2010-6-4 15:58:12

选项里面有个改重复网址的, 把设置改一下, 改成50,100, 或者设成不限.

iiwork 发表于 2010-6-24 10:00:10

这个还用你说啊
我采集的一个列表页面,一共有9000多条网址,越改越垃圾的火车居然要我设置重复网址设置为9000才能采集到更新的网址,郁闷,分析网页居然从下往上分析的,什么逻辑嘛。

rq204 发表于 2010-6-24 10:43:04

回复 6# iiwork


    采集器采集网址是从源码开始到源码结束。有可能您采集的网站网址列表次序和源码中的不一样,那样的话可能显示的结果和实际看到的不一样。请仔细分析。

iiwork 发表于 2010-6-24 21:06:13

那不能每个任务都先过滤重复,然后再采集新的地址吧,
再说了用火车头不是一天两天了,出现这种问题我都是去看过源代码的,列表区域源代码不变,顺序是新的前,旧在后的,按火车的操作应该是先采集到新的网址,然后再过滤重复的,
真是郁闷,难道是我电脑上的程序出了问题?
页: [1]
查看完整版本: 列出网址速度快了,问题也来了!