火车中正则的怪异之处难以理解

xdaoke 发表于 2008-10-9 12:40:49

(<title>)(?<content>[^\b]{19}?)
用这个来采集标题，懂点正则的人会以为取得标题的19字节
其实不是
当标题中有中文或双字节等字符时，火车会当成1个字节来对待

这样的结果是，截取了19个 unicode字符，字节长度却不确定了

我觉得这样很不实用，

是否有别的替代办法？

讨论：http://blog.i-digi.net/?p=16

e7show 发表于 2008-10-9 13:12:10

我也有这样的感觉，弄不懂火车里的正则。

我用正则测试器通过了为什么还是采集不到数据呢
要从网页里提取像这样规律的字符串 ,我写了三个正则表达式正确通过正则测试,但是不知道为什么用火车头就是采集不到我想要的数据

字符串举例特点2个或者3个汉字,一个空格,六个无论大小写的英文字符,两位数的数字

比如    丁大丁 tkipCS21

[\u4E00-\u9FA5]{2,3}[ ]{6}\d{2}

               (\W{2,3}[ ]{6}\d{2})

                  \W{2,3} {6}\d{2}

这三个正则都用表达式验证工具验证过了但是按照下面两个方式写在正则匹配内容的框里就不行也不知道为什么
开始代码(?<content>正则表达式)结束代码
或
开始代码(?<content>正则表达式?)结束代码

标签仍然得不到我想要的字符串

xyz5200 发表于 2008-10-9 13:33:11

开始代码(?<content>正则表达式?)结束代码

我也试过这个，也是没有结果。

xdaoke 发表于 2008-10-9 14:56:25

回复 2楼的帖子

火车的正则不认空格的 [ ]不行
替代：[\s]

页: [1]

火车采集器软件交流官方论坛's Archiver