不能过滤重复网址
如图,已经设置好了,由于目标站反爬,只能用代理ip先爬列表,以免遗漏所以就不断循环去爬列表,最大限度地爬取文章页地址,但是在循环爬取列表的过程中,重复的文章页地址也一起存起来了,根本没有过滤掉重复的地址,导致后来爬内容的时候,好多都是重复的而且也浪费时间,网址库目录下也只有一个db3文件,没有其他了,不知道是如何去重复的,麻烦解答一下,谢谢!是否设置了 发布后删除数据 leweizxl 发表于 2018-1-9 13:29
是否设置了 发布后删除数据
我看了一下,没有设置这个,我重复采集列表页,就会把重复的文章页地址也收进来,没有过滤掉。。。:Q
123jj 发表于 2018-1-9 19:04
我看了一下,没有设置这个,我重复采集列表页,就会把重复的文章页地址也收进来,没有过滤掉。。。
...
几点几版本是最新的吗 leweizxl 发表于 2018-1-10 08:49
几点几版本是最新的吗
9.6版的
leweizxl 发表于 2018-1-10 08:49
几点几版本是最新的吗
刚刚更新到最新的1212版试了一下,还是不行。。。 123jj 发表于 2018-1-10 10:36
刚刚更新到最新的1212版试了一下,还是不行。。。
设置重复跳过1 leweizxl 发表于 2018-1-10 13:21
设置重复跳过1
也设置过了,还是不行,都不知道是怎么回事,请问网址库文件夹里面是不是有个pageurl的文件夹的?我这边没有的 123jj 发表于 2018-1-10 14:19
也设置过了,还是不行,都不知道是怎么回事,请问网址库文件夹里面是不是有个pageurl的文件夹的?我这边 ...
具体问题 请联系企业QQ800019423在线咨询下
页:
[1]