正则提取内容为空,截图求助
研究了很久,解决不了,求助版主和浏览帖子的各位老师我想从网址 http://lhb.hermes.hexun.com/lhb.aspx?date=2006-08-14 中采集日期“2006-08-14 ”
用了如下的正则提取,结果[标签:日期]采集到的内容为空。
http://lhb.hermes.hexun.com/lhb.aspx?date=(?<content>[\s\S]*?)$
我错在哪里呢,请版主和各位老师指导
date=(?<content>[\s\S]*?)$ 我用的是8.4免费版本 顶起,请懂的老师详细点指导 自由心 发表于 2014-11-14 12:44 static/image/common/back.gif
顶起,请懂的老师详细点指导
很简单,勾选在网址中匹配,其它的不需要勾选
http://bbs.locoy.com/data/attachment/forum/201410/29/160107b3uz3c86316c18mk.png
『采集超市』专注于火车头规则、插件、模块、接口等周边产品开发!为企业和个人提供全方位的采集发布方案!
联系QQ: http://www.3464.com/tools/qqonline/Images/QQOnline/6_online.gif
官方网站:www.locoymall.com
http://bbs.locoy.com/data/attachment/forum/201310/21/002539x2g25ntt59yx85xt.gif 来学学习的:Q:Q:Q 因为时间标签很多,所以需要写个通配的格式,来循环匹配
时间格式 2013-06-06 22:14
正规正则表达式 格式 \d{4}-\d{2}-\d{2} \d{2}:\d{2}
这里不要问 为什么会这样写,如果看不明白的,可以看下正则的标准语法,
教程如下http://msdn.microsoft.com/zh-cn/library/ae5bf541(VS.80).aspx
在我们的采集器里 应该这样写 (?<content>\d{4}-\d{2}-\d{2} \d{2}:\d{2})
把我们的表达式 (?<content>[\s\S]*?) 里面的[\s\S]*? 替换成自己的表达式即可。这样结果就返回了 我们设置的正则格式的结果
页:
[1]