火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3598|回复: 7

怎么正则提取网页QQ号啊?不规则内容里 @lmj243,wxl08,kuhab...

[复制链接]
发表于 2016-12-14 16:28:21 | 显示全部楼层 |阅读模式
本帖最后由 014131 于 2016-12-14 17:08 编辑



网上只找到了正则提取邮箱的 (?<content>[\w\-\.]+@[\w\-\.]+\.\w+)


不知道QQ的是什么,提取论坛里帖子内容的,感谢大神!

-------------------------------
Q(?<content>\d{6,11}[0-9]?)

这样的话又无法提取全部
-------------------------------
(?<content>\d{6,11}[0-9]?)


这样又会采集到帖子ID

------------------------
(?<content>\d{9,11}[0-9]?)


哎,最后只好过滤少于8位数的QQ了,而且只适合帖子ID数少于9位的



发表于 2016-12-14 17:02:44 | 显示全部楼层
用纯正则替换处理一下
 楼主| 发表于 2016-12-14 17:07:12 | 显示全部楼层
leweizxl 发表于 2016-12-14 17:02
用纯正则替换处理一下

我这样又获取不到内容

<div class="t_fsz">(?<content>\d{9,11}[0-9]?)</td>

<div class="t_fsz"> 是内容区域
发表于 2016-12-14 17:11:41 | 显示全部楼层
014131 发表于 2016-12-14 17:07
我这样又获取不到内容

(?\d{9,11}[0-9]?)

用纯正则处理吧
 楼主| 发表于 2016-12-14 17:29:56 | 显示全部楼层

就是不懂写规则才问的
发表于 2016-12-15 09:07:50 | 显示全部楼层
 楼主| 发表于 2016-12-15 16:39:05 | 显示全部楼层
leweizxl 发表于 2016-12-15 09:07
http://faq.locoy.com/q-696.html

这样没用  每个人回复的内容都不一样  QQ插入位置也都不一样,

最难的是会提取到提诶里面的ID当成QQ号  ...

网上找很久居然这样的软件都没有,以大部分都是提取邮箱的  
发表于 2016-12-15 16:41:28 | 显示全部楼层
014131 发表于 2016-12-15 16:39
这样没用  每个人回复的内容都不一样  QQ插入位置也都不一样,

最难的是会提取到提诶里面的ID当成QQ号   ...

把id也用正则提取一下  用替换
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 22:13

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表