火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2966|回复: 4

帮忙指导一下(?<content>[\s\S]*?)的具体用法,高手们都要收费。

[复制链接]
发表于 2014-11-7 22:24:40 | 显示全部楼层 |阅读模式
我在采集一个论坛,标题、内容、作者都可以采下来,现在我想从内容里提取出QQ号码

比如内容是”我的QQ:6419822 phone:0574-55846546“

我在正则表达式里该怎么写(?<content>[\s\S]*?)

我的思路是取出至少5位以上的数字,用^\d{n,}$,但是这个怎么和(?<content>)结合?

用过
QQ(?<content>^\d{n,}$)

(QQ?<content>^\d{n,}$)
都不行
 楼主| 发表于 2014-11-8 00:03:23 | 显示全部楼层
搞了2个多小时,终于搞好了,答案是:[.\n]*QQ\D*(?<content>\d*)
 楼主| 发表于 2014-11-8 00:08:10 | 显示全部楼层
还有BUG,如果内容中有”QQ“字样,会出现正确结果,如果没有,就会出现不想要的一大串正文内容,请大神们继续指点,我先休息了。
发表于 2014-11-8 09:08:11 | 显示全部楼层
这种不是很规律的代码,需要插件处理下,一般可以先结合正文截取一段前后有html标记的内容或者一段内容,然后再使用正则匹配,这样处理的精度会高点!直接处理效果会很差















『采集超市』专注于火车头规则、插件、模块、接口等周边产品开发!为企业和个人提供全方位的采集发布方案!
联系QQ:
官方网站:www.locoymall.com

 楼主| 发表于 2014-11-10 20:22:54 | 显示全部楼层
采集超市 发表于 2014-11-8 09:08
这种不是很规律的代码,需要插件处理下,一般可以先结合正文截取一段前后有html标记的内容或者一段内容,然 ...

我已经把楼层分割,应该相当于截取了前后有HTML的内容,再使用正则,这种办法和你说的用插件没区别吧。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 07:00

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表