怎么正则提取网页QQ号啊?不规则内容里 @lmj243,wxl08,kuhab...
本帖最后由 014131 于 2016-12-14 17:08 编辑网上只找到了正则提取邮箱的 (?<content>[\w\-\.]+@[\w\-\.]+\.\w+)
不知道QQ的是什么,提取论坛里帖子内容的,感谢大神!
-------------------------------
Q(?<content>\d{6,11}?)
这样的话又无法提取全部
-------------------------------
(?<content>\d{6,11}?)
这样又会采集到帖子ID
------------------------
(?<content>\d{9,11}?)
哎,最后只好过滤少于8位数的QQ了,而且只适合帖子ID数少于9位的
用纯正则替换处理一下 leweizxl 发表于 2016-12-14 17:02
用纯正则替换处理一下
我这样又获取不到内容
<div class="t_fsz">(?<content>\d{9,11}?)</td>
<div class="t_fsz"> 是内容区域 014131 发表于 2016-12-14 17:07
我这样又获取不到内容
(?\d{9,11}?)
用纯正则处理吧 leweizxl 发表于 2016-12-14 17:11
用纯正则处理吧
就是不懂写规则才问的 {:2_138:} 014131 发表于 2016-12-14 17:29
就是不懂写规则才问的
http://faq.locoy.com/q-696.html leweizxl 发表于 2016-12-15 09:07
http://faq.locoy.com/q-696.html
这样没用每个人回复的内容都不一样QQ插入位置也都不一样,
最难的是会提取到提诶里面的ID当成QQ号...
网上找很久居然这样的软件都没有,以大部分都是提取邮箱的{:2_138:} 014131 发表于 2016-12-15 16:39
这样没用每个人回复的内容都不一样QQ插入位置也都不一样,
最难的是会提取到提诶里面的ID当成QQ号 ...
把id也用正则提取一下用替换
页:
[1]