xdaoke 发表于 2008-10-9 12:40:49

火车中正则的怪异之处 难以理解

(<title>)(?<content>[^\b]{19}?)
用这个来采集标题,懂点正则的人会以为 取得标题的19字节
其实不是
当标题中有中文或双字节等字符时,火车会当成1个字节来对待

这样的结果是,截取了19个 unicode字符,字节长度却不确定了

我觉得这样很不实用,

是否有别的替代办法?

讨论:http://blog.i-digi.net/?p=16

e7show 发表于 2008-10-9 13:12:10

我也有这样的感觉,弄不懂火车里的正则。

我用正则测试器通过了为什么还是采集不到数据呢
要从网页里提取 像这样规律的字符串 ,我写了三个正则表达式正确通过正则测试,但是不知道为什么用火车头就是采集不到我想要的数据

字符串举例   特点2个或者3个汉字,一个空格,六个无论大小写的英文字符,两位数的数字

   比如      丁大丁 tkipCS21

[\u4E00-\u9FA5]{2,3}[ ]{6}\d{2}

                  (\W{2,3}[ ]{6}\d{2})

                     \W{2,3} {6}\d{2}

这三个正则 都用表达式验证工具验证过了但是按照下面两个 方式 写在 正则匹配内容的框里就不行 也不知道为什么
开始代码(?<content>正则表达式)结束代码

开始代码(?<content>正则表达式?)结束代码   

标签仍然得不到我想要的字符串

xyz5200 发表于 2008-10-9 13:33:11

开始代码(?<content>正则表达式?)结束代码

我也试过这个,也是没有结果。

xdaoke 发表于 2008-10-9 14:56:25

回复 2楼 的帖子

火车的正则不认空格的 [ ]不行
替代 :[\s]
页: [1]
查看完整版本: 火车中正则的怪异之处 难以理解