建议增加“清理空信息地址”功能
门户网站的页面内容通常分类都不是很清晰,经常是一个物理页面信息出现在好几个逻辑列表里,导致写规则很难,一个任务里经常有很多没有匹配内容的“空信息地址”。这些地址被占着不释放,而其他可能与之匹配的新任务却得不到网址。所以建议火车头增加一个清理的按钮。按钮规则就是,将所有未采集的信息删除,并且在总站地址库中也删除相同的URL,让其他任务可以得到这个地址而不被过滤。
这样就不会出现很多占茅坑不拉屎的URL地址了。 如何确定这些地址是有用的地址而非无用的重复地址· 以“未采集”为标志。
任务无法采集的地址就应该从总地址库中清除,也许下一个任务就能匹配这个地址的内容了。 爪,以后学习下。。
页:
[1]