1033736011 发表于 2013-2-26 16:07:51

如何下载文章里面的图片

本帖最后由 1033736011 于 2013-2-26 16:40 编辑

很多客户会采集文字信息,但是就是不会下载图片,现在我给大家说一下怎么下载图片。
比如我们要下载这篇文章的图片http://www.tourtx.cn/jingdian/sichuan/2009/0910/21770.html,首先采集到这篇文章的内容,,采集完内容之后我们开始处理图片的下载。
你如果直接点击下载图片肯定是不行的,因为采集器下载图片的格式必须是标准的这种<img src="参数"/>格式,其中参数表示完整的图片地址。
一般文章里面的图片都不是这种标准的格式,而且源代码里面的图片地址也不一定是完整的,比如上面这个例子,源代码里面图片的格式这样的<img height="345" alt="" width="600" border="0" src="..\..\..\uploads\090910\1_163419_1.jpg" />,所以我们要把这种不标准的格式替换成标准的图片格式,并且把源代码里面的图片地址补完整。,经过这个替换之后原来的图片的img格式就替换为采集器可以识别的标准格式了。
如果文章内容里面只有图片的部分地址,没有img格式,处理方法是一样的,比如上面的文章的图片地址可以从两个地址获取到,我们也可以从这个链接这里获取到,也可以这样内容替换,将这个<a target="_blank" href="..\..\..\uploads\参数\参数">替换为<img src="http://www.tourtx.cn/jingdian/uploads/[参数1]/[参数2]"/>,不管怎么处理。最终采集的时候是标准的img格式就可以了。

xuzhenjun130 发表于 2013-2-26 17:17:42

我要采集的是新浪新闻的图集:http://slide.news.sina.com.cn/c/slide_1_2841_30184.html/d/1

里面要采集的数据是这样子的:
<dl>
                <dt>贵州凯里希望小学建成4年后成垃圾回收站</dt>
                <dd>http://www.sinaimg.cn/dy/slidenews/1_img/2013_08/2841_233414_704921.jpg</dd>
                      <dd>http://www.sinaimg.cn/dy/slidenews/1_t160/2013_08/2841_233414_704921.jpg</dd>
                <dd>http://www.sinaimg.cn/dy/slidenews/1_t50/2013_08/2841_233414_704921.jpg</dd>
                <dd>2013年02月21日 07:24</dd>
                <dd>2月19日,贵州省黔东南苗族侗族自治州,老山希望小学一间教室里堆放着回收的垃圾。</dd>
                <dd><a href="http://comment4.news.sina.com.cn/comment/skin/default.html?channel=gn&newsid=slidenews-2841-233414">评论</a></dd>
                      <dd>233414</dd>
        </dl>


我要拼凑的最终的数据格式是这样子的:
/e/file/small.jpg::::::e/file/big.jpg::::::图片说明


现在,火车头没能将地址图片下载下来,并替换成本地的相对路径
成了这个样子
http://www.sian.com/small.jpg::::::http://www.sina.com/big.jpg::::::图片说明


最后我想说的是,我做的是帝国的图片集采集,搞了半天改帝国源代码,终于搞定接口的问题。
但是火车头让我有点失望了,请高手帮帮我{:soso_e183:}

1033736011 发表于 2013-2-27 09:09:16


源代码里面所有的图片完整地址都有,很好采集,可以使用标签循环匹配来采集所有的图片

zencarter 发表于 2013-2-27 10:01:37

用正则参数就可以吧...

新人long新 发表于 2013-3-11 18:53:37

这个教程很给力。。。支持

learn 发表于 2013-5-18 10:16:03

还没写明怎么把图片下载自己的网站空间上啊

joeyoo 发表于 2013-6-2 02:45:52

本帖最后由 joeyoo 于 2013-6-2 02:47 编辑

请教图文下载好后发布到本地保存为html格式时为何这个html文件不显示图片(图片未加载?)只显示了文字部分?但是本地数据库里预览采集内容是有图片显示的完整图文?怎样使得本地保存的html文件显示已下载的文章图片呢?(注:我是用的是V7免费版)

worldboyy 发表于 2013-11-28 20:44:19

表示- -- -:lol:lol:lol:lol

longyinyushi 发表于 2014-4-3 16:49:13

确实非常的实用,学习了,楼主也辛苦了。

lighryanking 发表于 2014-6-29 17:32:34

楼主好人一生平安
页: [1] 2
查看完整版本: 如何下载文章里面的图片