火车头采集下载图片的时候能不能检查重复图片或重名加(1),图片按照原路径建立目录
第一,火车头采集下载图片的时候能不能检查重复图片第三,图片按照原路径建立目录,存放
第二个如果毕竟困难,第一个能不能考虑下呢?
比如我采集一个商城,都是同一张图片 插入了很多商品。
如果我重新命名这个图片就会导致下载很多次。
如果我不重新命名。火车头就缺少图片了。
如果火车头采集下载图片重复图片名字的,自动加(1),以上2个问题自然迎刃而解了。
http://bbs.locoy.com/spider-131252-1-1.html 本帖最后由 caijihome 于 2013-4-26 20:07 编辑
不重新命名里面,很多类似情况http://www.baidu.com/123.jpg
http://www.baidu.com/abc/123.jpg
http://www.baidu.com/def/123.jpg重新命名吧,会发现 很多图片下载了几百次。 纠结
并不是所有网站 图片路径或命名 都那么规律的展现在我们面前。乱七八糟的情况 设计的时候应该考虑到了。
作为下载软件,这方面 都有考虑,唯独火车头还没有改进。 重命名的时候。火车头采集下载图片的时候能不能检查重复图片,如果重复了。采集记录直接用第一个就可以了,以后则跳过下载,数据库则直接调用之前记录。这样是不是也可以优化速度, 节省空间硬盘呢?
不重命名的时候,能不能自动加(1)呢,不然好多图片都丢失了。 希望改革,走捷径的办法我也有,都不是根本的解决办法。需要治根呀。 随便举个例子,就采集淘宝。我今天采集了个类似淘宝的网站。
图片数据库里面记录是9W多条,实际下载仅下载了3W多。 我用的是不重命名的方法。
经过处理之后发现9W里面 有4W多是不重复,可是火车头 竟然弄丢了 几千张图片。
于是我想重新改名字采集。可是 那样会有9W张图片,是多么严重的事情? 我一般采集下载附件都不用火车头,问题太多了。希望火车头考虑下建议。谢谢。 支持火车。。。。历史帖子回顾中。
页:
[1]