123jj 发表于 2018-1-9 12:17:09

不能过滤重复网址

如图,已经设置好了,由于目标站反爬,只能用代理ip先爬列表,以免遗漏所以就不断循环去爬列表,最大限度地爬取文章页地址,但是在循环爬取列表的过程中,重复的文章页地址也一起存起来了,根本没有过滤掉重复的地址,导致后来爬内容的时候,好多都是重复的而且也浪费时间,网址库目录下也只有一个db3文件,没有其他了,不知道是如何去重复的,麻烦解答一下,谢谢!


leweizxl 发表于 2018-1-9 13:29:43

是否设置了 发布后删除数据

123jj 发表于 2018-1-9 19:04:26

leweizxl 发表于 2018-1-9 13:29
是否设置了 发布后删除数据

我看了一下,没有设置这个,我重复采集列表页,就会把重复的文章页地址也收进来,没有过滤掉。。。:Q

leweizxl 发表于 2018-1-10 08:49:22

123jj 发表于 2018-1-9 19:04
我看了一下,没有设置这个,我重复采集列表页,就会把重复的文章页地址也收进来,没有过滤掉。。。

...

几点几版本是最新的吗

123jj 发表于 2018-1-10 10:18:36

leweizxl 发表于 2018-1-10 08:49
几点几版本是最新的吗



9.6版的

123jj 发表于 2018-1-10 10:36:08

leweizxl 发表于 2018-1-10 08:49
几点几版本是最新的吗

刚刚更新到最新的1212版试了一下,还是不行。。。

leweizxl 发表于 2018-1-10 13:21:56

123jj 发表于 2018-1-10 10:36
刚刚更新到最新的1212版试了一下,还是不行。。。

设置重复跳过1

123jj 发表于 2018-1-10 14:19:52

leweizxl 发表于 2018-1-10 13:21
设置重复跳过1

也设置过了,还是不行,都不知道是怎么回事,请问网址库文件夹里面是不是有个pageurl的文件夹的?我这边没有的

leweizxl 发表于 2018-1-11 09:45:54

123jj 发表于 2018-1-10 14:19
也设置过了,还是不行,都不知道是怎么回事,请问网址库文件夹里面是不是有个pageurl的文件夹的?我这边 ...

具体问题 请联系企业QQ800019423在线咨询下
页: [1]
查看完整版本: 不能过滤重复网址