所有版本的通病,下载图片正则的问题
<img src = "http://www.xxx.com/sdfd/dfdf" />包含这样的地址,技术有试过下载到的是什么玩意儿吗?下载图片 正则都没有写对吧?
preg_match_all("/src\s*=\s*(\"|\'|\ |){1,}([^>]*\.(jpg|gif|jpeg|png))/isU",$str,$img_array);当然格式还可以加,希望技术能修正下。 火车头是C#写的吧,我也承认图片有问题 采集器内部提取图片地址,用的不是正则。如果某些不标准的html代码,可能会提取不成功。如果在提取前的代码有问题,可以先使用数据处理修正一下。 这个是一个老问题啦。
比如新浪网的图片,就经常出现问题。
当然,我用了投机取巧的方法,直接在后面增加 #.jpg 和你们一块学习。。。
页:
[1]