火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2539|回复: 7

如何用纯正刚规则在文中找到这句代码?(?<content>[\s\S]*?)

[复制链接]
发表于 2013-12-16 15:38:08 | 显示全部楼层 |阅读模式
<option class="optionlevels optionlevel_2 " value="322" depth="2" type_id="29" selected>

这是网站源代码的一部分。这个页面上有相同结构的分类若干,只有有select的这句,有了这句话才有唯一性,英文都是不变的,数字都是会变的,实际我最后要得到322这个数字

请不要使用参数那个形式,用通配第几个也是没有用的,第几个不确定。请看下,如何用(?<content>[\s\S]*?)实现采集,谢谢
发表于 2013-12-16 18:53:03 | 显示全部楼层
本帖最后由 kuhabe 于 2013-12-16 18:54 编辑

1
发表于 2013-12-16 20:15:02 | 显示全部楼层
这种要求高的可以考虑用插件解决就行的了
 楼主| 发表于 2013-12-17 08:59:30 | 显示全部楼层
<content>这种正则方式不能匹配匹配源文件的html代码么,匹配二个代码间的东东可以,(?<content>客服热线:\d*-\d*)匹配电话可以。请老大想想办法,谢谢!
 楼主| 发表于 2013-12-17 15:17:05 | 显示全部楼层
弄好了,感谢大家帮助!
 楼主| 发表于 2013-12-23 20:16:12 | 显示全部楼层
根本不需要插件,还是火车小小陈教会的,谢谢!
发表于 2014-1-2 11:53:24 | 显示全部楼层
楼主,请教下:

<title>这产品的价格是¥34.03 很便宜</title>

想提取价格,关于价格,我写了个正则¥/d{1,4}|¥/d{1,4}/./d{1,2}

怎么用这个公式呢: (?<content>[\s\S]*?)

是这样?
(?<content>¥\d{1,4}|¥\d{1,4}\.\d{1,2})

当中的content是用"<title>这产品的价格是¥34.03 很便宜</title>"替代?不然怎么限定是在这句话里提取?
 楼主| 发表于 2014-1-10 08:14:23 | 显示全部楼层
如果文中只有一个人民币符号,就不用再限制,如果要限制,¥前的内容就要指定数量范围;如果用纯正则替换,就可以在上面用前后截取,用title和/title当范围,再用纯正则替换。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-18 00:04

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表