【求助】图片无后缀,探测不到真实地址
不知道大家又没遇到过这种情况:采集内容地址如下:
http://peng.qq.com/webplat/info/news_version3/5946/14627/20200/20201/20204/20208/m13674/201604/453358.shtml
内容源代码中的图片地址显示如下:
<img src="//shp.qpic.cn/inewsnopic/721991418/892723d89a0e192bdc403cc6caa38ed7/0" alt=""/>
注意,图片的地址中没有图片后缀哦~↑↑↑↑
火车头采集后,提示:添加图片下载时出错:http://peng.qq.com/shp.qpic.cn/inewsnopic/721991418/892723d89a0e192bdc403cc6caa38ed7/0,错误信息:没有探测到文件真实地址Void O11lO1OO101l11l(System.String)
求教,遇到这种情况如何解决?感谢!
您的问题并不是后缀的问题是您获取的图片地址不正确 请用替换处理将图片链接手动补全一下 leweizxl 发表于 2017-2-13 09:33
您的问题并不是后缀的问题是您获取的图片地址不正确 请用替换处理将图片链接手动补全一下 ...
谢谢!!大意了! 你解决了吗?我还是不懂,分享一下解决步骤;
在网页内容中下载图片,那个替换规则怎么写的?我写不出来。
在网页端的源码 图片地址前有 // 就是因为这个杠杠 才会有前面爬取的网址出现,
相对路径下载不了,绝对路径的都可以很容易就爬到。
你解决了吗?我还是不懂,分享一下解决步骤;
在网页内容中下载图片,那个替换规则怎么写的?我写不出来。
在网页端的源码 图片地址前有 // 就是因为这个杠杠 才会有前面爬取的网址出现,
相对路径下载不了,绝对路径的都可以很容易就爬到。 scdog_8515 发表于 2017-2-16 10:58
你解决了吗?我还是不懂,分享一下解决步骤;
在网页内容中下载图片,那个替换规则怎么写的?我写不出来。 ...
我的问题和你的不一样,我的是因为采集站点的域名变化了,我没注意
页:
[1]