火车中正则的怪异之处 难以理解
(<title>)(?<content>[^\b]{19}?)用这个来采集标题,懂点正则的人会以为 取得标题的19字节
其实不是
当标题中有中文或双字节等字符时,火车会当成1个字节来对待
这样的结果是,截取了19个 unicode字符,字节长度却不确定了
我觉得这样很不实用,
是否有别的替代办法?
讨论:http://blog.i-digi.net/?p=16
我也有这样的感觉,弄不懂火车里的正则。
我用正则测试器通过了为什么还是采集不到数据呢要从网页里提取 像这样规律的字符串 ,我写了三个正则表达式正确通过正则测试,但是不知道为什么用火车头就是采集不到我想要的数据
字符串举例 特点2个或者3个汉字,一个空格,六个无论大小写的英文字符,两位数的数字
比如 丁大丁 tkipCS21
[\u4E00-\u9FA5]{2,3}[ ]{6}\d{2}
(\W{2,3}[ ]{6}\d{2})
\W{2,3} {6}\d{2}
这三个正则 都用表达式验证工具验证过了但是按照下面两个 方式 写在 正则匹配内容的框里就不行 也不知道为什么
开始代码(?<content>正则表达式)结束代码
或
开始代码(?<content>正则表达式?)结束代码
标签仍然得不到我想要的字符串 开始代码(?<content>正则表达式?)结束代码
我也试过这个,也是没有结果。
回复 2楼 的帖子
火车的正则不认空格的 [ ]不行替代 :[\s]
页:
[1]