火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4084|回复: 3

建议增加“清理空信息地址”功能

[复制链接]
发表于 2007-12-4 18:10:00 | 显示全部楼层 |阅读模式
门户网站的页面内容通常分类都不是很清晰,经常是一个物理页面信息出现在好几个逻辑列表里,导致写规则很难,一个任务里经常有很多没有匹配内容的“空信息地址”。这些地址被占着不释放,而其他可能与之匹配的新任务却得不到网址。

所以建议火车头增加一个清理的按钮。按钮规则就是,将所有未采集的信息删除,并且在总站地址库中也删除相同的URL,让其他任务可以得到这个地址而不被过滤。

这样就不会出现很多占茅坑不拉屎的URL地址了。
发表于 2007-12-5 11:45:27 | 显示全部楼层
如何确定这些地址是有用的地址而非无用的重复地址·
 楼主| 发表于 2007-12-6 09:57:45 | 显示全部楼层
以“未采集”为标志。
任务无法采集的地址就应该从总地址库中清除,也许下一个任务就能匹配这个地址的内容了。
发表于 2016-2-10 10:38:34 | 显示全部楼层
爪,以后学习下。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 16:25

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表