leejunji 发表于 2013-5-7 17:19:59

设置采集内容不得为空,必须包含,不得包含~~~

1,设置标签采集结果不得为空



编辑标签状态下 数据处理 最下面有个内容过滤 选择下

就看到右侧很多选项了“内容不得重复”“内容不得为空”“内容必须包含”“内容不得包含”

还有当内容长度不符合要求的时候时候过滤

这些都是很能看明白的东西吧



上图 不得包含和必须包含那里的“|”“↑” 解释说明 注意下


2,设置好了 你希望采集器如何处理这些不符合你要求的数据呢 看下图



在第四步“文件保存及部分高级设置” 右下角 ,看到了吧 2个选项

一个是删除 删除的话就是把这条信息删除掉,

一个是标记为未采集是把这数据标记为未采集下次运行任务的时候这条数据会被从新采集

这个的好处就是,当你是因为网速,或者别的原因采集不到数据的时候,

多运行又可以采集到,你就可以设置

为 未采集 等任务运行完了,你只要勾选采集内容 不要勾选采集网址

采集器就会把这些没有采集到的信息又从新采集一遍的

这样就保证数据的完整性,可以重复多次 我一般采集数据都会这样设置的,

希望你能明白我在说什么 不明白就算了

baronzou 发表于 2013-5-14 14:25:11

学习下 , 很不错

xuaner 发表于 2013-5-20 16:46:32

顶一下,哈,学习了

you0286 发表于 2013-9-1 19:30:06

蛮啰嗦的有图没重点
不过谢谢

worldboyy 发表于 2013-11-28 20:02:08

还好,奖励鲜花一个哦

xianyu879 发表于 2013-12-2 17:29:29

顶一下,我感觉好可以,学习了

liangweisee 发表于 2013-12-15 23:23:35

{:soso_e178:}谢谢楼主无私分享,好好学习了。

jy668 发表于 2014-4-19 22:36:21

顶一个,学习中....

我是武大郎 发表于 2014-4-22 19:06:57

没有发现这些问题,不过好奇害死猫,不得不看的帖子是好帖子

我是武大郎 发表于 2014-5-11 22:36:50

有没有机会大家一起交流下呢
页: [1] 2
查看完整版本: 设置采集内容不得为空,必须包含,不得包含~~~