fatfox 发表于 2007-10-25 19:48:47

正则表达式问题

采集一个网站,分页的第一页和后面的页模板不一样

比如第一页内容开始部分是:
<div class="text_body">
结束部分是:
</div>(*)<div class="from_ad">


第二页的开始部分是:
<div id=text><!-- 正文 -->


结束部分是:
</div>(*)<div align="right">

用正则匹配这两种情况,怎么写呀?

现在只能采集第一页,后面的都是空的。

万分感谢

[ 本帖最后由 fatfox 于 2007-10-25 19:53 编辑 ]

火车头 发表于 2007-10-26 07:03:24

<div (class="text_body">|id=text><!\-\- 正文 \-\->)(?<content>.*?)</div>

试一下

fatfox 发表于 2007-10-26 07:28:30

老大,不行,这个第一页也显示不出来了

hutaodewang 发表于 2007-10-26 08:13:38

原来正则是这个功能:( 好久了都没有明白:ali1ls

rq204 发表于 2007-10-26 10:13:41

也可以这样 <div (class="text_body">|id=text><!\-\- 正文 \-\->)(?<content>.*?)</div>.*(<div class="from_ad">|<div align="right"> )

KarLeo 发表于 2007-10-26 10:16:32

<div (class="text_body">|id=text><!\-\- \x20?正文\x20?\-\->)(?<content>.*?)</div>

fatfox 发表于 2007-10-26 11:32:40

几位老大,谢谢大家,可是还是不行,用了正则第一页也采不到了,测试页面如下

http://www.webjx.com/htmldata/2006-03-08/1141820728.html

fatfox 发表于 2007-10-26 20:32:00

帮帮忙吧

yxsh 发表于 2007-10-26 20:33:55

:hug:

pan7825 发表于 2007-10-26 20:35:13

火车的正规好像没几个能用上的
页: [1] 2
查看完整版本: 正则表达式问题