火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 5772|回复: 11

正则表达式问题

[复制链接]
发表于 2007-10-25 19:48:47 | 显示全部楼层 |阅读模式
采集一个网站,分页的第一页和后面的页模板不一样

比如第一页内容开始部分是:
<div class="text_body">

结束部分是:
</div>(*)<div class="from_ad">



第二页的开始部分是:
<div id=text><!-- 正文 -->



结束部分是:
</div>(*)<div align="right">


用正则匹配这两种情况,怎么写呀?

现在只能采集第一页,后面的都是空的。

万分感谢

[ 本帖最后由 fatfox 于 2007-10-25 19:53 编辑 ]
发表于 2007-10-26 07:03:24 | 显示全部楼层
<div (class="text_body">|id=text><!\-\- 正文 \-\->)(?<content>.*?)</div>

试一下
 楼主| 发表于 2007-10-26 07:28:30 | 显示全部楼层
老大,不行,这个第一页也显示不出来了
发表于 2007-10-26 08:13:38 | 显示全部楼层
原来正则是这个功能 好久了都没有明白
发表于 2007-10-26 10:13:41 | 显示全部楼层
也可以这样 <div (class="text_body">|id=text><!\-\- 正文 \-\->)(?<content>.*?)</div>.*(<div class="from_ad">|<div align="right"> )
发表于 2007-10-26 10:16:32 | 显示全部楼层
<div (class="text_body">|id=text><!\-\- \x20?正文\x20?\-\->)(?<content>.*?)</div>
 楼主| 发表于 2007-10-26 11:32:40 | 显示全部楼层
几位老大,谢谢大家,可是还是不行,用了正则第一页也采不到了,测试页面如下

http://www.webjx.com/htmldata/2006-03-08/1141820728.html
 楼主| 发表于 2007-10-26 20:32:00 | 显示全部楼层
帮帮忙吧
发表于 2007-10-26 20:33:55 | 显示全部楼层
发表于 2007-10-26 20:35:13 | 显示全部楼层
火车的正规好像没几个能用上的
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-19 08:57

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表