高手们如何采集新浪BLOG的图片
图片是防盗连的老是无法采集 本帖最后由 qianglong 于 2010-7-17 22:01 编辑
呵呵我曾经采集过,规则没了,但是 有个思路 送你
网站图片原文件内 的显示 是这样的:
<img src="http://simg.sinajs.cn/blog7style/images/common/sg_trans.gif" real_src ="http://static10.photo.sina.com.cn/middle/466ae5dct8901851166e9&690" WIDTH="690" HEIGHT="388"ALT="便秘和世界杯喇叭"TITLE="便秘和世界杯喇叭" />
你再多找扎 其他的 你就会发现
src=http://simg.sinajs.cn/blog7style/images/common/sg_trans.gif
不是 图片的地址,而火车采集器认为 这个就是图片地址 所以采集不到
而:
real_src =http://static10.photo.sina.com.cn/middle/466ae5dct8901851166e9&690
才是 图片地址
你 需要在采集规则是这么替换一下: 把:
src="http://simg.sinajs.cn/blog7style/images/common/sg_trans.gif" real_
这 个排除掉试试 可以写个接口来采 做好规则免费版的就可以采了,以前采过的 有一个小问题就是下载的图片没有后缀名,
无法直接显示和浏览,
需要配合批量改名软件进行更正,
不过如果换成绝对路径没事,
绝对路径还是指向新浪的 发现了,
在采集内容规则中-》内容页标签编辑框 有一个文件保存格式,可以加上后缀名就行了。
保存成本地html文件还是不能显示是因为在文件保存及部分高级设置中
文件链接前缀选项默认是“/”
把它删除就好了。
页:
[1]