正则表达式问题
采集一个网站,分页的第一页和后面的页模板不一样比如第一页内容开始部分是:
<div class="text_body">
结束部分是:
</div>(*)<div class="from_ad">
第二页的开始部分是:
<div id=text><!-- 正文 -->
结束部分是:
</div>(*)<div align="right">
用正则匹配这两种情况,怎么写呀?
现在只能采集第一页,后面的都是空的。
万分感谢
[ 本帖最后由 fatfox 于 2007-10-25 19:53 编辑 ] <div (class="text_body">|id=text><!\-\- 正文 \-\->)(?<content>.*?)</div>
试一下 老大,不行,这个第一页也显示不出来了 原来正则是这个功能:( 好久了都没有明白:ali1ls 也可以这样 <div (class="text_body">|id=text><!\-\- 正文 \-\->)(?<content>.*?)</div>.*(<div class="from_ad">|<div align="right"> ) <div (class="text_body">|id=text><!\-\- \x20?正文\x20?\-\->)(?<content>.*?)</div> 几位老大,谢谢大家,可是还是不行,用了正则第一页也采不到了,测试页面如下
http://www.webjx.com/htmldata/2006-03-08/1141820728.html 帮帮忙吧 :hug: 火车的正规好像没几个能用上的
页:
[1]
2