如何下载文章里面的图片
本帖最后由 1033736011 于 2013-2-26 16:40 编辑很多客户会采集文字信息,但是就是不会下载图片,现在我给大家说一下怎么下载图片。
比如我们要下载这篇文章的图片http://www.tourtx.cn/jingdian/sichuan/2009/0910/21770.html,首先采集到这篇文章的内容,,采集完内容之后我们开始处理图片的下载。
你如果直接点击下载图片肯定是不行的,因为采集器下载图片的格式必须是标准的这种<img src="参数"/>格式,其中参数表示完整的图片地址。
一般文章里面的图片都不是这种标准的格式,而且源代码里面的图片地址也不一定是完整的,比如上面这个例子,源代码里面图片的格式这样的<img height="345" alt="" width="600" border="0" src="..\..\..\uploads\090910\1_163419_1.jpg" />,所以我们要把这种不标准的格式替换成标准的图片格式,并且把源代码里面的图片地址补完整。,经过这个替换之后原来的图片的img格式就替换为采集器可以识别的标准格式了。
如果文章内容里面只有图片的部分地址,没有img格式,处理方法是一样的,比如上面的文章的图片地址可以从两个地址获取到,我们也可以从这个链接这里获取到,也可以这样内容替换,将这个<a target="_blank" href="..\..\..\uploads\参数\参数">替换为<img src="http://www.tourtx.cn/jingdian/uploads/[参数1]/[参数2]"/>,不管怎么处理。最终采集的时候是标准的img格式就可以了。 我要采集的是新浪新闻的图集:http://slide.news.sina.com.cn/c/slide_1_2841_30184.html/d/1
里面要采集的数据是这样子的:
<dl>
<dt>贵州凯里希望小学建成4年后成垃圾回收站</dt>
<dd>http://www.sinaimg.cn/dy/slidenews/1_img/2013_08/2841_233414_704921.jpg</dd>
<dd>http://www.sinaimg.cn/dy/slidenews/1_t160/2013_08/2841_233414_704921.jpg</dd>
<dd>http://www.sinaimg.cn/dy/slidenews/1_t50/2013_08/2841_233414_704921.jpg</dd>
<dd>2013年02月21日 07:24</dd>
<dd>2月19日,贵州省黔东南苗族侗族自治州,老山希望小学一间教室里堆放着回收的垃圾。</dd>
<dd><a href="http://comment4.news.sina.com.cn/comment/skin/default.html?channel=gn&newsid=slidenews-2841-233414">评论</a></dd>
<dd>233414</dd>
</dl>
我要拼凑的最终的数据格式是这样子的:
/e/file/small.jpg::::::e/file/big.jpg::::::图片说明
现在,火车头没能将地址图片下载下来,并替换成本地的相对路径
成了这个样子
http://www.sian.com/small.jpg::::::http://www.sina.com/big.jpg::::::图片说明
最后我想说的是,我做的是帝国的图片集采集,搞了半天改帝国源代码,终于搞定接口的问题。
但是火车头让我有点失望了,请高手帮帮我{:soso_e183:}
源代码里面所有的图片完整地址都有,很好采集,可以使用标签循环匹配来采集所有的图片 用正则参数就可以吧... 这个教程很给力。。。支持 还没写明怎么把图片下载自己的网站空间上啊 本帖最后由 joeyoo 于 2013-6-2 02:47 编辑
请教图文下载好后发布到本地保存为html格式时为何这个html文件不显示图片(图片未加载?)只显示了文字部分?但是本地数据库里预览采集内容是有图片显示的完整图文?怎样使得本地保存的html文件显示已下载的文章图片呢?(注:我是用的是V7免费版) 表示- -- -:lol:lol:lol:lol 确实非常的实用,学习了,楼主也辛苦了。 楼主好人一生平安
页:
[1]
2