火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 8630|回复: 6

火车头采集下载图片的时候能不能检查重复图片或重名加(1),图片按照原路径建立目录

[复制链接]
发表于 2013-4-26 20:02:25 | 显示全部楼层 |阅读模式
第一,火车头采集下载图片的时候能不能检查重复图片

第三,图片按照原路径建立目录,存放

第二个如果毕竟困难,第一个能不能考虑下呢?
比如我采集一个商城,都是同一张图片 插入了很多商品。
如果我重新命名这个图片  就会导致下载很多次。

如果我不重新命名。火车头就缺少图片了。


如果火车头采集下载图片重复图片名字的,自动加(1),以上2个问题自然迎刃而解了。

http://bbs.locoy.com/spider-131252-1-1.html
 楼主| 发表于 2013-4-26 20:05:42 | 显示全部楼层
本帖最后由 caijihome 于 2013-4-26 20:07 编辑

不重新命名里面,很多类似情况
  1. http://www.baidu.com/123.jpg
  2. http://www.baidu.com/abc/123.jpg
  3. http://www.baidu.com/def/123.jpg
复制代码
重新命名吧,会发现 很多图片下载了几百次。 纠结


并不是所有网站 图片路径或命名 都那么规律的展现在我们面前。乱七八糟的情况 设计的时候应该考虑到了。
作为下载软件,这方面 都有考虑,唯独火车头还没有改进。
 楼主| 发表于 2013-4-26 20:11:55 | 显示全部楼层
重命名的时候。火车头采集下载图片的时候能不能检查重复图片,如果重复了。采集记录直接用第一个就可以了,以后则跳过下载,数据库则直接调用之前记录。这样是不是也可以优化速度, 节省空间硬盘呢?

不重命名的时候,能不能自动加(1)呢,不然好多图片都丢失了。
 楼主| 发表于 2013-4-26 20:14:28 | 显示全部楼层
希望改革,走捷径的办法我也有,都不是根本的解决办法。需要治根呀。
 楼主| 发表于 2013-4-26 21:02:58 | 显示全部楼层
随便举个例子,就采集淘宝。我今天采集了个类似淘宝的网站。

图片数据库里面记录是9W多条,实际下载仅下载了3W多。 我用的是  不重命名的方法。
经过处理之后发现9W里面 有4W多是不重复,可是火车头 竟然弄丢了 几千张图片。

于是我想重新改名字采集。可是 那样会有9W张图片,是多么严重的事情?
 楼主| 发表于 2013-4-26 21:15:14 | 显示全部楼层
我一般采集下载附件都不用火车头,问题太多了。希望火车头考虑下建议。谢谢。
发表于 2016-2-10 16:33:37 | 显示全部楼层
支持火车。。。。历史帖子回顾中。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-23 03:22

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表