发新话题
打印

[3.2版] 建议增加“清理空信息地址”功能

建议增加“清理空信息地址”功能

门户网站的页面内容通常分类都不是很清晰,经常是一个物理页面信息出现在好几个逻辑列表里,导致写规则很难,一个任务里经常有很多没有匹配内容的“空信息地址”。这些地址被占着不释放,而其他可能与之匹配的新任务却得不到网址。

所以建议火车头增加一个清理的按钮。按钮规则就是,将所有未采集的信息删除,并且在总站地址库中也删除相同的URL,让其他任务可以得到这个地址而不被过滤。

这样就不会出现很多占茅坑不拉屎的URL地址了。

TOP

如何确定这些地址是有用的地址而非无用的重复地址·
DEDE二次开发、Asp+PHP程序、火车商业版销售、采集规则、发布模块、程序接口等.QQ:130775
图片采集程序出售美眉小说
四维空间
百部小说

TOP

以“未采集”为标志。
任务无法采集的地址就应该从总地址库中清除,也许下一个任务就能匹配这个地址的内容了。

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.166171 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-9-7 03:01 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档