火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 8258|回复: 8

每次任务采集数,网址是否重复等小功能的图解~~~

[复制链接]
发表于 2013-3-7 10:24:41 | 显示全部楼层 |阅读模式
1,是否检查网址重复,网址重复多少条 停止采集是在第一步设置的如下图



勾选 检查网址重复,采集器就会采集的时候判读下这个网址是否已经采集过了,默认已经采集过的采集器不会再次采集

下面有个“网址连续重复多少条后停止采集网址” 这个顾名思义 大家汉语还是能看懂吧 这里就不解释了


2,最大采集分页数,每次任务最大采集数,提取标签忽略大小写
是在规则第二步,采集内容规则 那里设置的 如下图




3,对不符合标签必须包含和不得包含的记录,是删除 还是标记为未采集
设置在第四步“文件保存及部分高级设置” 如下图




4,发布内容间隔时间,采集内容时间间隔时间

,设置在第四步“文件保存及部分高级设置” 如下图


这里说明下 这里的1000等于1秒

线程个数是指同一时间采集信息的条数

5,下载地址保存为文件
有的时候采集到的图片呀 文件呀 先不要下载而是保存起来放到迅雷里下载 这里就可以有个选项,把这些文件下载地址保存到一个文件里,在采集器里面是不会下载的,设置如下:


这个生成的“任务id.htm” 保存到,文件下载设置=》所有文件保存文件夹  这里你设置的文件夹中, 找到这个文件后用浏览器打开这个文件 就可以添加到迅雷里下载了。


5,如何设置内容过滤
点击内容过滤四个字
设置采集的结果不得包含什么词或者必须包含什么词

对数据不满足这里要求的处理参考上面第三点说明

6,发布结束后对数据的处理






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2013-3-7 13:08:45 | 显示全部楼层
支持一下~~~~~~~~~~~~~~~~~~~~
发表于 2013-4-20 01:26:46 | 显示全部楼层
支持下。    求大神赐教啊~~~
发表于 2013-7-22 16:02:35 | 显示全部楼层
支持下。先来占位学习
发表于 2013-7-23 14:09:43 | 显示全部楼层
发现那个过滤 不支持 分页
发表于 2013-11-21 19:44:15 | 显示全部楼层
支持一下
发表于 2013-11-28 20:25:26 | 显示全部楼层
路过 。。。。提示太短了
发表于 2014-5-5 13:20:24 | 显示全部楼层
学习了学习了学习了学习了学习了学习了
发表于 2014-12-25 17:17:18 | 显示全部楼层
新手加入,问题很多,向高手们一一学习了。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-22 05:27

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表