火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3706|回复: 1

关于重复附件和重复文件的问题。

[复制链接]
发表于 2013-9-2 11:19:31 | 显示全部楼层 |阅读模式
作为一个长期用采集更新的站点,难免会有这样的情形:

在 新浪  搜狐   网易采集同一个题材的图片。结果图片是一样的(文章内容不同),


这样无用的附件就会数量级增加。

建议老大 增加一个判断


同一个分组底下的任务,附件放在同一个表里面,当下载附件的时候,用md5校验附件和图片,确保唯一性。当发现重复的时候,用之前的文件名替换就是了。



如果做不到同一组里面这么处理,那么至少应该同一个任务里面的重复图片和附件能够  用同一个


举个例子:我们在采集论坛数据的时候,有大量用  表情回复的帖子。如果每个表情弄成一个附件,这样就太灾难性了。估计采集一个论坛,就会有成千上万个重复的表情。十分的痛苦啊。
发表于 2016-2-10 12:41:56 | 显示全部楼层
爪,以后学习下。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-4-5 09:11

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表