pbdq 发表于 2013-9-2 11:19:31

关于重复附件和重复文件的问题。

作为一个长期用采集更新的站点,难免会有这样的情形:

在 新浪搜狐   网易采集同一个题材的图片。结果图片是一样的(文章内容不同),


这样无用的附件就会数量级增加。

建议老大 增加一个判断


同一个分组底下的任务,附件放在同一个表里面,当下载附件的时候,用md5校验附件和图片,确保唯一性。当发现重复的时候,用之前的文件名替换就是了。



如果做不到同一组里面这么处理,那么至少应该同一个任务里面的重复图片和附件能够用同一个


举个例子:我们在采集论坛数据的时候,有大量用表情回复的帖子。如果每个表情弄成一个附件,这样就太灾难性了。估计采集一个论坛,就会有成千上万个重复的表情。十分的痛苦啊。

lbjyuer 发表于 2016-2-10 12:41:56

爪,以后学习下。。
页: [1]
查看完整版本: 关于重复附件和重复文件的问题。