bhzj52 发表于 2014-9-29 08:17:08

正则表达式写复杂一点火车采集器就采集不出东西的问题


<img( *\w+="[^"]+"|[^<])* src="http://photo(\d+)\.hexun\.com/p/(\d+)/(\d+)/(\d+)/(.*\.jpg)".*?>
测试采集很久都采集不出东西
<img[^<]* src="http://photo(\d+)\.hexun\.com/p/(\d+)/(\d+)/(\d+)/(.*\.jpg)".*?>
却很快

但是二者都是经过regex match tracer测试快速匹配成功的。

采集的网址是:http://wangning868.blog.hexun.com/95562313_d.html

调皮的小五郎 发表于 2014-9-29 16:21:44


http://www.zxmh.net/html/book10/


第一次距离楼主这么近

303718 发表于 2014-9-29 16:29:11

要加content这种的如(?<content>?)
页: [1]
查看完整版本: 正则表达式写复杂一点火车采集器就采集不出东西的问题