bandits 发表于 2010-7-17 18:45:33

高手们如何采集新浪BLOG的图片

图片是防盗连的

老是无法采集

qianglong 发表于 2010-7-17 21:57:50

本帖最后由 qianglong 于 2010-7-17 22:01 编辑

呵呵我曾经采集过,规则没了,但是 有个思路 送你

网站图片原文件内 的显示 是这样的:
<img src="http://simg.sinajs.cn/blog7style/images/common/sg_trans.gif" real_src ="http://static10.photo.sina.com.cn/middle/466ae5dct8901851166e9&amp;690" WIDTH="690" HEIGHT="388"ALT="便秘和世界杯喇叭"TITLE="便秘和世界杯喇叭" />

你再多找扎 其他的 你就会发现
src=http://simg.sinajs.cn/blog7style/images/common/sg_trans.gif
不是 图片的地址,而火车采集器认为 这个就是图片地址 所以采集不到
而:
real_src =http://static10.photo.sina.com.cn/middle/466ae5dct8901851166e9&amp;690
才是 图片地址

你 需要在采集规则是这么替换一下: 把:

src="http://simg.sinajs.cn/blog7style/images/common/sg_trans.gif" real_


这 个排除掉试试

aven 发表于 2010-7-18 17:11:25

可以写个接口来采

zjyk1984 发表于 2010-7-18 18:29:47

做好规则免费版的就可以采了,以前采过的

真的金龙 发表于 2010-7-29 13:47:35

有一个小问题就是下载的图片没有后缀名,
无法直接显示和浏览,
需要配合批量改名软件进行更正,
不过如果换成绝对路径没事,
绝对路径还是指向新浪的

真的金龙 发表于 2010-8-1 11:07:10

发现了,
在采集内容规则中-》内容页标签编辑框 有一个文件保存格式,可以加上后缀名就行了。
保存成本地html文件还是不能显示是因为在文件保存及部分高级设置中
文件链接前缀选项默认是“/”
把它删除就好了。
页: [1]
查看完整版本: 高手们如何采集新浪BLOG的图片