自由心 发表于 2014-11-14 11:52:12

正则提取内容为空,截图求助

研究了很久,解决不了,求助版主和浏览帖子的各位老师
我想从网址   http://lhb.hermes.hexun.com/lhb.aspx?date=2006-08-14   中采集日期“2006-08-14 ”
用了如下的正则提取,结果[标签:日期]采集到的内容为空。
http://lhb.hermes.hexun.com/lhb.aspx?date=(?<content>[\s\S]*?)$
我错在哪里呢,请版主和各位老师指导


kuhabe 发表于 2014-11-14 12:01:10

date=(?<content>[\s\S]*?)$

自由心 发表于 2014-11-14 12:43:53

我用的是8.4免费版本

自由心 发表于 2014-11-14 12:44:26

顶起,请懂的老师详细点指导

采集超市 发表于 2014-11-14 13:22:38

自由心 发表于 2014-11-14 12:44 static/image/common/back.gif
顶起,请懂的老师详细点指导

很简单,勾选在网址中匹配,其它的不需要勾选













http://bbs.locoy.com/data/attachment/forum/201410/29/160107b3uz3c86316c18mk.png
『采集超市』专注于火车头规则、插件、模块、接口等周边产品开发!为企业和个人提供全方位的采集发布方案!
联系QQ: http://www.3464.com/tools/qqonline/Images/QQOnline/6_online.gif
官方网站:www.locoymall.com
http://bbs.locoy.com/data/attachment/forum/201310/21/002539x2g25ntt59yx85xt.gif

jian115 发表于 2015-2-5 23:46:26

来学学习的:Q:Q:Q

jian115 发表于 2015-2-5 23:50:09

因为时间标签很多,所以需要写个通配的格式,来循环匹配

时间格式   2013-06-06 22:14

正规正则表达式 格式 \d{4}-\d{2}-\d{2} \d{2}:\d{2}

这里不要问 为什么会这样写,如果看不明白的,可以看下正则的标准语法,

教程如下http://msdn.microsoft.com/zh-cn/library/ae5bf541(VS.80).aspx

在我们的采集器里 应该这样写 (?<content>\d{4}-\d{2}-\d{2} \d{2}:\d{2})

把我们的表达式 (?<content>[\s\S]*?) 里面的[\s\S]*? 替换成自己的表达式即可。这样结果就返回了 我们设置的正则格式的结果
页: [1]
查看完整版本: 正则提取内容为空,截图求助