火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2851|回复: 8

求一条正则采集规则

[复制链接]
 楼主| 发表于 2008-11-5 15:33:01 | 显示全部楼层
相当于正则结合多模板采集
发表于 2008-11-5 16:11:23 | 显示全部楼层

晕你也求助呀!

   我看看
 楼主| 发表于 2008-11-5 17:54:07 | 显示全部楼层
知之为知之,不知则问之
发表于 2008-11-5 21:33:43 | 显示全部楼层


关键是我也不会.
发表于 2008-11-6 08:55:19 | 显示全部楼层
要不你用最笨的办法?

第一套方案:

采集:

从  <div class="PostContent">  到 p>

删除  <br />(*)</

删除  </

当然,这里认为只有 <br></p>这样的标识符,没有<font>这样的标识符,否则就错。



提供第二套方案:

采集 从 <div class="PostContent">  到 </div>

删除  <br />(*)</p>
删除 </p>(*)</p>
删除 <p>

这样过滤可能效果要好一点。
发表于 2008-11-6 12:47:09 | 显示全部楼层
老大,这个问题挺简单的哈!!

你没给出网址,我就简单在本地构造了两个页面,源码分别如下

index1.html
  1. <html>
  2. <head>
  3. <meta http-equiv="Content-Type" content="text/html; charset=gbk">
  4. <title></title>
  5. </head>
  6. <body  >
  7. <div class="PostContent">
  8. <p>段落1</p>
  9. <p>段落2</p>
  10. </div>
  11. </body>
  12. </html>
复制代码
index2.html



  1. <html>
  2. <head>
  3. <meta http-equiv="Content-Type" content="text/html; charset=gbk">
  4. <title></title>
  5. </head>
  6. <body  >
  7. <div class="PostContent">
  8. <p>段落11111<br />
  9. 段落22222<br />
  10. 段落33333</p>
  11. </div>
  12. </body>
  13. </html>
复制代码


测试结果如下两图

第一种


第二种






规则看图中的吧,我也不打了。

吼吼!!!!!













本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x

评分

1

查看全部评分

发表于 2008-11-6 13:13:56 | 显示全部楼层
其实楼主的意思是只要第一段,由于<br />和</p>都是第一段结束的标识符。所以只要二者中有一个出现即可。

既然楼上熟悉正则,不妨写一个 以 <div class="PostContent">  开头, 以  <br /> 或 </p> 结束的表达式最好。

只不过我不太熟悉,不知道怎么表达罢了。
发表于 2008-11-6 13:25:00 | 显示全部楼层
原帖由 sushy 于 2008-11-6 13:13 发表
其实楼主的意思是只要第一段,由于和都是第一段结束的标识符。所以只要二者中有一个出现即可。

既然楼上熟悉正则,不妨写一个 以   开头, 以   或  结束的表达式最好。

只不过我不太熟悉,不知道怎么表达罢了 ...




你说的这种情况更简单,
不过楼主好像不是你那意思,
发表于 2008-11-6 21:36:18 | 显示全部楼层
老大太有大家风度了
支持火车头
注册了个比交牛X的ID
老大不删了就太谢了
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-23 13:49

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表