火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4055|回复: 4

所有版本的通病,下载图片正则的问题

[复制链接]
发表于 2013-5-26 14:14:28 | 显示全部楼层 |阅读模式
<img src = "http://www.xxx.com/sdfd/dfdf"   />  包含这样的地址,技术有试过下载到的是什么玩意儿吗?

下载图片 正则都没有写对吧?

preg_match_all("/src\s*=\s*(\"|\'|\ |){1,}([^>]*\.(jpg|gif|jpeg|png))/isU",$str,$img_array);  当然格式还可以加,希望技术能修正下。
发表于 2013-5-27 10:16:07 | 显示全部楼层
火车头是C#写的吧,我也承认图片有问题
发表于 2013-6-4 11:16:20 | 显示全部楼层
采集器内部提取图片地址,用的不是正则。如果某些不标准的html代码,可能会提取不成功。如果在提取前的代码有问题,可以先使用数据处理修正一下。
发表于 2013-7-3 11:43:23 | 显示全部楼层
这个是一个老问题啦。

比如新浪网的图片,就经常出现问题。

当然,我用了投机取巧的方法,直接在后面增加 #.jpg
发表于 2016-2-10 15:56:20 | 显示全部楼层
和你们一块学习。。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-4-12 13:22

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表