014131 发表于 2016-12-14 16:28:21

怎么正则提取网页QQ号啊?不规则内容里 @lmj243,wxl08,kuhab...

本帖最后由 014131 于 2016-12-14 17:08 编辑



网上只找到了正则提取邮箱的 (?<content>[\w\-\.]+@[\w\-\.]+\.\w+)


不知道QQ的是什么,提取论坛里帖子内容的,感谢大神!

-------------------------------
Q(?<content>\d{6,11}?)

这样的话又无法提取全部
-------------------------------
(?<content>\d{6,11}?)


这样又会采集到帖子ID

------------------------
(?<content>\d{9,11}?)


哎,最后只好过滤少于8位数的QQ了,而且只适合帖子ID数少于9位的



leweizxl 发表于 2016-12-14 17:02:44

用纯正则替换处理一下

014131 发表于 2016-12-14 17:07:12

leweizxl 发表于 2016-12-14 17:02
用纯正则替换处理一下

我这样又获取不到内容

<div class="t_fsz">(?<content>\d{9,11}?)</td>

<div class="t_fsz"> 是内容区域

leweizxl 发表于 2016-12-14 17:11:41

014131 发表于 2016-12-14 17:07
我这样又获取不到内容

(?\d{9,11}?)


用纯正则处理吧

014131 发表于 2016-12-14 17:29:56

leweizxl 发表于 2016-12-14 17:11
用纯正则处理吧

就是不懂写规则才问的 {:2_138:}

leweizxl 发表于 2016-12-15 09:07:50

014131 发表于 2016-12-14 17:29
就是不懂写规则才问的

http://faq.locoy.com/q-696.html

014131 发表于 2016-12-15 16:39:05

leweizxl 发表于 2016-12-15 09:07
http://faq.locoy.com/q-696.html

这样没用每个人回复的内容都不一样QQ插入位置也都不一样,

最难的是会提取到提诶里面的ID当成QQ号...

网上找很久居然这样的软件都没有,以大部分都是提取邮箱的{:2_138:}

leweizxl 发表于 2016-12-15 16:41:28

014131 发表于 2016-12-15 16:39
这样没用每个人回复的内容都不一样QQ插入位置也都不一样,

最难的是会提取到提诶里面的ID当成QQ号   ...

把id也用正则提取一下用替换
页: [1]
查看完整版本: 怎么正则提取网页QQ号啊?不规则内容里 @lmj243,wxl08,kuhab...