火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 7371|回复: 8

不能过滤重复网址

[复制链接]
发表于 2018-1-9 12:17:09 | 显示全部楼层 |阅读模式
如图,已经设置好了,由于目标站反爬,只能用代理ip先爬列表,以免遗漏所以就不断循环去爬列表,最大限度地爬取文章页地址,但是在循环爬取列表的过程中,重复的文章页地址也一起存起来了,根本没有过滤掉重复的地址,导致后来爬内容的时候,好多都是重复的而且也浪费时间,网址库目录下也只有一个db3文件,没有其他了,不知道是如何去重复的,麻烦解答一下,谢谢!


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2018-1-9 13:29:43 | 显示全部楼层
是否设置了 发布后删除数据
 楼主| 发表于 2018-1-9 19:04:26 | 显示全部楼层
leweizxl 发表于 2018-1-9 13:29
是否设置了 发布后删除数据

我看了一下,没有设置这个,我重复采集列表页,就会把重复的文章页地址也收进来,没有过滤掉。。。

发表于 2018-1-10 08:49:22 | 显示全部楼层
123jj 发表于 2018-1-9 19:04
我看了一下,没有设置这个,我重复采集列表页,就会把重复的文章页地址也收进来,没有过滤掉。。。

...

几点几版本  是最新的吗
 楼主| 发表于 2018-1-10 10:18:36 | 显示全部楼层
leweizxl 发表于 2018-1-10 08:49
几点几版本  是最新的吗



9.6版的

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2018-1-10 10:36:08 | 显示全部楼层
leweizxl 发表于 2018-1-10 08:49
几点几版本  是最新的吗

刚刚更新到最新的1212版试了一下,还是不行。。。
发表于 2018-1-10 13:21:56 | 显示全部楼层
123jj 发表于 2018-1-10 10:36
刚刚更新到最新的1212版试了一下,还是不行。。。

设置重复跳过  1
 楼主| 发表于 2018-1-10 14:19:52 | 显示全部楼层
leweizxl 发表于 2018-1-10 13:21
设置重复跳过  1

也设置过了,还是不行,都不知道是怎么回事,请问网址库文件夹里面是不是有个pageurl的文件夹的?我这边没有的
发表于 2018-1-11 09:45:54 | 显示全部楼层
123jj 发表于 2018-1-10 14:19
也设置过了,还是不行,都不知道是怎么回事,请问网址库文件夹里面是不是有个pageurl的文件夹的?我这边 ...

具体问题 请联系企业QQ800019423在线咨询下
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 16:01

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表