火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2665|回复: 5

正则提取问题!

[复制链接]
发表于 2013-3-14 23:09:54 | 显示全部楼层 |阅读模式
举例:

          <th>你好</th>
              <td>
                <div class="param_content">
                 ..........
                 ..........
               </div>


我想先 找到你好位置,然后获取 后面 <div></div>里的内容

你好 文字 不固定  也可能是  您好     这里用或 (你好|您好)

测试
(?<content>(你好|您好)[\s\S]*)
格式:正则前字符串(?<content>[\w\W]*?)正则后字符串,其中content是程序用来引用的。

现在判断不了 你好 和 您好    您好 后面的括号 被认为是  正则的 结尾符号了

按我的情况 该如何写,求高手指点!!
发表于 2013-3-14 23:20:27 | 显示全部楼层
那你还不如用这种
  1. 好</th>(*)<div class="param_content">[参数]</div>
复制代码
 楼主| 发表于 2013-3-14 23:24:59 | 显示全部楼层
303718 发表于 2013-3-14 23:20
那你还不如用这种

首先感谢您的回复,可能我举例有点问题
那个位置 每个字都不相同的, 可能是 你好  可能是 请问 这类的,最后一个字 不一样的。我只是举例正好 末尾那个字一样了。。
这样的 怎么写
发表于 2013-3-15 00:02:15 | 显示全部楼层
如果有长有短又不同只好用别的HTML标签来做开始结束标记了
 楼主| 发表于 2013-3-15 12:40:04 | 显示全部楼层
303718 发表于 2013-3-15 00:02
如果有长有短又不同只好用别的HTML标签来做开始结束标记了

是的 有长有短。。。别的HTML标签就相同。。。看来我只能把 所有的情况都写成一个标签,符合的采集到内容,不符合的采集为空。。。  怎么能忽略采集为空的标签? 发布的时候。
 楼主| 发表于 2013-3-15 12:40:45 | 显示全部楼层
caijiao123 发表于 2013-3-15 10:53
帮不上忙,帮顶顶。。。

顶顶更健康
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-21 14:03

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表