iiwork 发表于 2013-5-26 14:14:28

所有版本的通病,下载图片正则的问题

<img src = "http://www.xxx.com/sdfd/dfdf"   />包含这样的地址,技术有试过下载到的是什么玩意儿吗?

下载图片 正则都没有写对吧?

preg_match_all("/src\s*=\s*(\"|\'|\ |){1,}([^>]*\.(jpg|gif|jpeg|png))/isU",$str,$img_array);当然格式还可以加,希望技术能修正下。

caijihome 发表于 2013-5-27 10:16:07

火车头是C#写的吧,我也承认图片有问题

rq204 发表于 2013-6-4 11:16:20

采集器内部提取图片地址,用的不是正则。如果某些不标准的html代码,可能会提取不成功。如果在提取前的代码有问题,可以先使用数据处理修正一下。

pbdq 发表于 2013-7-3 11:43:23

这个是一个老问题啦。

比如新浪网的图片,就经常出现问题。

当然,我用了投机取巧的方法,直接在后面增加 #.jpg

lbjyuer 发表于 2016-2-10 15:56:20

和你们一块学习。。。
页: [1]
查看完整版本: 所有版本的通病,下载图片正则的问题