正则表达式写复杂一点火车采集器就采集不出东西的问题
<img( *\w+="[^"]+"|[^<])* src="http://photo(\d+)\.hexun\.com/p/(\d+)/(\d+)/(\d+)/(.*\.jpg)".*?>
测试采集很久都采集不出东西
<img[^<]* src="http://photo(\d+)\.hexun\.com/p/(\d+)/(\d+)/(\d+)/(.*\.jpg)".*?>
却很快
但是二者都是经过regex match tracer测试快速匹配成功的。
采集的网址是:http://wangning868.blog.hexun.com/95562313_d.html
http://www.zxmh.net/html/book10/
第一次距离楼主这么近 要加content这种的如(?<content>?)
页:
[1]