【未解决】请教,某些情况下没有后缀名的图片怎么采集? 谢谢
比如这个。。。
http://static10.photo.sina.com.cn/bmiddle/4c9e52ab4468f5f554af9
这个图就没有后缀名,但是他能够显示,火车头下载不回来,一碰到这样的,如果要求下载图片,就会自动退出
如果用迅雷下载,可以下载回来,但是多了后缀名,发不出去的时候又对不上号仍然是叉叉。。。
采集案例对象:
http://blog.sina.com.cn/s/blog_4c9e52ab01008yl4.html
再多问一个,就是为什么我设定了迅雷下载500为一个单位,但是火车的迅雷下载列表不是按照正常的顺序来的,非要按照任务来排列呢?
并且,如果某任务某次下载的图片少了,就不出列表。。。。
如果我们跟踪某个页面的更新,某个页面每天更新的数量少,那我们采集回来的内容发上去了,图却跟不上。。。
以前大家都说火车头自带的下载器不好,要用迅雷,现在问题是列表少了,迅雷列表不出来,没法下。。。
建议火车改革一下,把迅雷列表设置为全局,而不是单个单个的任务,这样也很浪费朋友们的时间
还有一点 补充一下
就是这些没有后缀名的图片
火车会自动为其创建一个文件夹。。。汗S。。。
比如:/Image/20088210575066277801.cn/bmiddle/4a70bf8c00c15d85a92c0
这样的。。。好晕。。。。
该如何解决呢?
为什么 我的2008采集 经常会采集到乱码或者火星文呢?
按道理来讲 如果是乱码,那么火车头会自动过滤,已经设置内容或标题为空自动过滤,而我并没有设置转换为火星文
看图吧,这个是无缘无故的故障。。。
1.jpg (36.93 KB)
2008-8-21 11:17
2.jpg (16.79 KB)
2008-8-21 11:17
3.jpg (20.74 KB)
2008-8-21 11:17
4.jpg (8.45 KB)
2008-8-21 11:17
这两个问题都反馈过,无人问津。。。
原贴:
http://bbs.locoy.com/spider-29432-1-1.html
http://bbs.locoy.com/spider-29420-1-1.html