heidian 发表于 2007-12-4 18:10:00

建议增加“清理空信息地址”功能

门户网站的页面内容通常分类都不是很清晰,经常是一个物理页面信息出现在好几个逻辑列表里,导致写规则很难,一个任务里经常有很多没有匹配内容的“空信息地址”。这些地址被占着不释放,而其他可能与之匹配的新任务却得不到网址。

所以建议火车头增加一个清理的按钮。按钮规则就是,将所有未采集的信息删除,并且在总站地址库中也删除相同的URL,让其他任务可以得到这个地址而不被过滤。

这样就不会出现很多占茅坑不拉屎的URL地址了。

vus520 发表于 2007-12-5 11:45:27

如何确定这些地址是有用的地址而非无用的重复地址·

heidian 发表于 2007-12-6 09:57:45

以“未采集”为标志。
任务无法采集的地址就应该从总地址库中清除,也许下一个任务就能匹配这个地址的内容了。

lbjyuer 发表于 2016-2-10 10:38:34

爪,以后学习下。。
页: [1]
查看完整版本: 建议增加“清理空信息地址”功能