申请会员
登录
搜索
帮助
火车采集器|信息数据采集论坛
»
采集器讨论区
» 火车中正则的怪异之处 难以理解
‹‹ 上一主题
|
下一主题 ››
发新话题
发布投票
发布商品
发布悬赏
发布活动
发布辩论
发布视频
打印
[2008版]
火车中正则的怪异之处 难以理解
xdaoke
注册会员
UID
73202
帖子
22
活跃度
31 点
火车车厢
0 节
注册时间
2007-11-4
个人空间
发短消息
加为好友
当前离线
1楼
大
中
小
发表于 2008-10-9 12:40
只看该作者
火车中正则的怪异之处 难以理解
(<title>)(?<content>[^\b]{19}?)
用这个来采集标题,懂点正则的人会以为 取得标题的19字节
其实不是
当标题中有中文或双字节等字符时,火车会当成1个字节来对待
这样的结果是,截取了19个 unicode字符,字节长度却不确定了
我觉得这样很不实用,
是否有别的替代办法?
讨论:
http://blog.i-digi.net/?p=16
UID
73202
帖子
22
精华
0
积分
31
活跃度
31 点
火车车厢
0 节
阅读权限
10
在线时间
150 小时
注册时间
2007-11-4
最后登录
2008-11-21
查看详细资料
TOP
e7show
注册会员
UID
75685
帖子
5
活跃度
16 点
火车车厢
51 节
注册时间
2007-12-6
个人空间
发短消息
加为好友
当前离线
2楼
大
中
小
发表于 2008-10-9 13:12
只看该作者
我也有这样的感觉,弄不懂火车里的正则。
我用正则测试器通过了为什么还是采集不到数据呢
要从网页里提取 像这样规律的字符串 ,我写了三个正则表达式正确通过正则测试,但是不知道为什么用火车头就是采集不到我想要的数据
字符串举例 特点 2个或者3个汉字,一个空格,六个无论大小写的英文字符,两位数的数字
比如 丁大丁 tkipCS21
[\u4E00-\u9FA5]{2,3}[ ][A-Za-z]{6}\d{2}
(\W{2,3}[ ][A-Z|a-z]{6}\d{2})
\W{2,3} [A-Z|a-z]{6}\d{2}
这三个正则 都用表达式验证工具验证过了 但是按照下面两个 方式 写在 正则匹配内容的框里就不行 也不知道为什么
开始代码(?<content>正则表达式)结束代码
或
开始代码(?<content>正则表达式?)结束代码
标签仍然得不到我想要的字符串
UID
75685
帖子
5
精华
0
积分
16
活跃度
16 点
火车车厢
51 节
阅读权限
10
在线时间
45 小时
注册时间
2007-12-6
最后登录
2008-10-28
查看详细资料
TOP
xyz5200
风火车车手
金牌会员
代采,代写规则模块
UID
63888
帖子
1024
活跃度
1189 点
火车车厢
33 节
注册时间
2007-8-9
个人空间
发短消息
加为好友
当前离线
3楼
大
中
小
发表于 2008-10-9 13:33
只看该作者
开始代码(?<content>正则表达式?)结束代码
我也试过这个,也是没有结果。
QQ空间代码
qzone明星空间站
火车头提供公益广告
UID
63888
帖子
1024
精华
0
积分
1189
活跃度
1189 点
火车车厢
33 节
阅读权限
70
在线时间
710 小时
注册时间
2007-8-9
最后登录
2008-11-21
查看详细资料
TOP
xdaoke
注册会员
UID
73202
帖子
22
活跃度
31 点
火车车厢
0 节
注册时间
2007-11-4
个人空间
发短消息
加为好友
当前离线
4楼
大
中
小
发表于 2008-10-9 14:56
只看该作者
回复 2楼 的帖子
火车的正则不认空格的 [ ]不行
替代 :[\s]
UID
73202
帖子
22
精华
0
积分
31
活跃度
31 点
火车车厢
0 节
阅读权限
10
在线时间
150 小时
注册时间
2007-11-4
最后登录
2008-11-21
查看详细资料
TOP
‹‹ 上一主题
|
下一主题 ››
论坛管理及公告
论坛记事、活动、培训区
火车采集器交流与讨论
程序发布
悬赏求助区
采集器讨论区
原1.X版本子讨论区
原2.0版本子讨论区
使用教程区
模块资源区
原1.2.0/1.2.1版本模块保留区
站点任务规则资源区
原1.X版本规则保留区
原2.0版本规则保留区
BUG报告
采集器资源求购区
程序建议区
各种CMS,论坛讨论区(与3.2发布同时开设)
Discuz! | & Supsite
PHPWind & VeryCMS
PHPCMS
DedeCMS
Powereasy动易
Foosun风讯
HBCMS
Dvbbs & DvPHP
WordPress 等Blog程序
Joomla等国外程序
ECMS帝国
新云程序
站长交流区
建站交流
网站赚钱
SEO技术交流
网站系统经验分享
火车域名注册
控制面板首页
编辑个人资料
积分交易
积分记录
公众用户组
个人空间管理
基本概况
流量统计
客户软件
发帖量记录
版块排行
主题排行
发帖排行
积分排行
交易排行
在线时间
管理团队
管理统计
Powered by
Discuz!
6.0.0
© 2001-2007
Comsenz Technology Ltd
Processed in 0.446838 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-11-23 21:25
皖ICP备06000549
清除 Cookies
-
联系我们
-
火车采集器官方站
-
静态归档
>
界面风格
----------
默认风格
喝彩奥运
深邃永恒
粉妆精灵
诗意田园
春意盎然