火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 22822|回复: 10

如何下载文章里面的图片

[复制链接]
发表于 2013-2-26 16:07:51 | 显示全部楼层 |阅读模式
本帖最后由 1033736011 于 2013-2-26 16:40 编辑

很多客户会采集文字信息,但是就是不会下载图片,现在我给大家说一下怎么下载图片。
比如我们要下载这篇文章的图片http://www.tourtx.cn/jingdian/sichuan/2009/0910/21770.html,首先采集到这篇文章的内容,,采集完内容之后我们开始处理图片的下载。
你如果直接点击下载图片肯定是不行的,因为采集器下载图片的格式必须是标准的这种<img src="参数"/>格式,其中参数表示完整的图片地址。
一般文章里面的图片都不是这种标准的格式,而且源代码里面的图片地址也不一定是完整的,比如上面这个例子,源代码里面图片的格式这样的<img height="345" alt="" width="600" border="0" src="..\..\..\uploads\090910\1_163419_1.jpg" />,所以我们要把这种不标准的格式替换成标准的图片格式,并且把源代码里面的图片地址补完整。,经过这个替换之后原来的图片的img格式就替换为采集器可以识别的标准格式了。
如果文章内容里面只有图片的部分地址,没有img格式,处理方法是一样的,比如上面的文章的图片地址可以从两个地址获取到,我们也可以从这个链接这里获取到,也可以这样内容替换,将这个<a target="_blank" href="..\..\..\uploads\参数\参数">替换为<img src="http://www.tourtx.cn/jingdian/uploads/[参数1]/[参数2]"/>,不管怎么处理。最终采集的时候是标准的img格式就可以了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2013-2-26 17:17:42 | 显示全部楼层
我要采集的是新浪新闻的图集:http://slide.news.sina.com.cn/c/slide_1_2841_30184.html/d/1


里面要采集的数据是这样子的:
<dl>
                <dt>贵州凯里希望小学建成4年后成垃圾回收站</dt>
                <dd>http://www.sinaimg.cn/dy/slidenews/1_img/2013_08/2841_233414_704921.jpg</dd>
                        <dd>http://www.sinaimg.cn/dy/slidenews/1_t160/2013_08/2841_233414_704921.jpg</dd>
                <dd>http://www.sinaimg.cn/dy/slidenews/1_t50/2013_08/2841_233414_704921.jpg</dd>
                <dd>2013年02月21日 07:24</dd>
                <dd>2月19日,贵州省黔东南苗族侗族自治州,老山希望小学一间教室里堆放着回收的垃圾。</dd>
                <dd><a href="http://comment4.news.sina.com.cn/comment/skin/default.html?channel=gn&newsid=slidenews-2841-233414">评论</a></dd>
                        <dd>233414</dd>
        </dl>



我要拼凑的最终的数据格式是这样子的:
/e/file/small.jpg::::::e/file/big.jpg::::::图片说明



现在,火车头没能将地址图片下载下来,并替换成本地的相对路径
成了这个样子
http://www.sian.com/small.jpg::: ... a.com/big.jpg::::::图片说明



最后我想说的是,我做的是帝国的图片集采集,搞了半天改帝国源代码,终于搞定接口的问题。
但是火车头让我有点失望了,请高手帮帮我{:soso_e183:}
 楼主| 发表于 2013-2-27 09:09:16 | 显示全部楼层

源代码里面所有的图片完整地址都有,很好采集,可以使用标签循环匹配来采集所有的图片

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2013-2-27 10:01:37 | 显示全部楼层
用正则参数就可以吧...
发表于 2013-3-11 18:53:37 | 显示全部楼层
这个教程很给力。。。支持
发表于 2013-5-18 10:16:03 | 显示全部楼层
还没写明怎么把图片下载自己的网站空间上啊
发表于 2013-6-2 02:45:52 | 显示全部楼层
本帖最后由 joeyoo 于 2013-6-2 02:47 编辑

请教图文下载好后发布到本地保存为html格式时为何这个html文件不显示图片(图片未加载?)只显示了文字部分?但是本地数据库里预览采集内容是有图片显示的完整图文?怎样使得本地保存的html文件显示已下载的文章图片呢?(注:我是用的是V7免费版)
发表于 2013-11-28 20:44:19 | 显示全部楼层
表示- -- -
发表于 2014-4-3 16:49:13 | 显示全部楼层
确实非常的实用,学习了,楼主也辛苦了。
发表于 2014-6-29 17:32:34 | 显示全部楼层
楼主好人一生平安
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 22:16

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表