关于重复附件和重复文件的问题。
作为一个长期用采集更新的站点,难免会有这样的情形:在 新浪搜狐 网易采集同一个题材的图片。结果图片是一样的(文章内容不同),
这样无用的附件就会数量级增加。
建议老大 增加一个判断
同一个分组底下的任务,附件放在同一个表里面,当下载附件的时候,用md5校验附件和图片,确保唯一性。当发现重复的时候,用之前的文件名替换就是了。
如果做不到同一组里面这么处理,那么至少应该同一个任务里面的重复图片和附件能够用同一个
举个例子:我们在采集论坛数据的时候,有大量用表情回复的帖子。如果每个表情弄成一个附件,这样就太灾难性了。估计采集一个论坛,就会有成千上万个重复的表情。十分的痛苦啊。 爪,以后学习下。。
页:
[1]