火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3177|回复: 3

火车中正则的怪异之处 难以理解

[复制链接]
发表于 2008-10-9 12:40:49 | 显示全部楼层 |阅读模式
(<title>)(?<content>[^\b]{19}?)
用这个来采集标题,懂点正则的人会以为 取得标题的19字节
其实不是
当标题中有中文或双字节等字符时,火车会当成1个字节来对待

这样的结果是,截取了19个 unicode字符,字节长度却不确定了

我觉得这样很不实用,

是否有别的替代办法?

讨论:http://blog.i-digi.net/?p=16
发表于 2008-10-9 13:12:10 | 显示全部楼层

我也有这样的感觉,弄不懂火车里的正则。

我用正则测试器通过了为什么还是采集不到数据呢
要从网页里提取 像这样规律的字符串 ,我写了三个正则表达式正确通过正则测试,但是不知道为什么用火车头就是采集不到我想要的数据

  字符串举例   特点  2个或者3个汉字,一个空格,六个无论大小写的英文字符,两位数的数字

   比如      丁大丁 tkipCS21

[\u4E00-\u9FA5]{2,3}[ ][A-Za-z]{6}\d{2}

                  (\W{2,3}[ ][A-Z|a-z]{6}\d{2})

                     \W{2,3} [A-Z|a-z]{6}\d{2}

这三个正则 都用表达式验证工具验证过了  但是按照下面两个 方式 写在 正则匹配内容的框里就不行 也不知道为什么
开始代码(?<content>正则表达式)结束代码

开始代码(?<content>正则表达式?)结束代码   

标签仍然得不到我想要的字符串
发表于 2008-10-9 13:33:11 | 显示全部楼层
开始代码(?<content>正则表达式?)结束代码

我也试过这个,也是没有结果。
 楼主| 发表于 2008-10-9 14:56:25 | 显示全部楼层

回复 2楼 的帖子

火车的正则不认空格的 [ ]不行
替代 :[\s]
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-23 12:26

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表