火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 7576|回复: 12

请教一个正则表达式匹配问题

[复制链接]
发表于 2008-9-21 04:07:13 | 显示全部楼层 |阅读模式
  1. <meta name="keywords" content="布兰妮,新专辑,为防盗版,下功夫,新写真,曝光,布兰妮新专辑为防盗版下功夫 新写真曝光(组图)">
复制代码

上面这一段字符串,是系统关键词+标题组成,请教一下会正则的朋友,怎么样可以提取从 c:格式:正则前字符串(?<content>[\w\W]*?) 正则后字符串详细教程见:http://bbs.locoy.com/spider-19720-1-1.html


只需要采集:布兰妮,新专辑,为防盗版,下功夫,新写真,曝光,这一段.
曝光,布兰妮新专辑为防盗版下功夫 新写真曝光(组图)这一段是不需要的,他们之间的唯一分割符号就是最后一个,

为了这个东东,昨天晚上一晚上睡不着,都在想咋解决呢?
发表于 2008-9-21 04:10:40 | 显示全部楼层
一直不明白正则。。。都是用HTML来采集。。
 楼主| 发表于 2008-9-21 05:17:34 | 显示全部楼层
百度了一个多小时还没解决,先睡觉先,希望有能力的朋友帮帮忙
发表于 2008-9-21 07:04:50 | 显示全部楼层
没听懂问什么哦
发表于 2008-9-21 07:34:47 | 显示全部楼层
我也没有看明白。
发表于 2008-9-21 08:14:30 | 显示全部楼层

回复 1楼 的帖子

重说一下,不知你什么意思。要什么效果
发表于 2008-9-21 08:57:45 | 显示全部楼层
没有看到给一下具体的地址我抓个图给你看效果吧

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2008-9-21 11:03:00 | 显示全部楼层
收藏一下。等着答案。
发表于 2008-9-21 12:14:30 | 显示全部楼层
如果单纯的用标准正则

从<meta name="keywords" c>

匹配出 布兰妮,新专辑,为防盗版,下功夫,新写真,曝光  就是最后一个逗号前的内容

很简单,下面的写法就可以

\"(.*)[\,]

已测试绝对可用

如图片,是没有最后一个逗号的




放到火车里我试了一下

下面这样写是可以达到楼主的要求的


  1. keywords" content="(?(.*)[\,])
复制代码


但放到火车里匹配就会出现最后一个逗号

郁闷

[ 本帖最后由 aven 于 2008-9-21 12:20 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x

评分

1

查看全部评分

 楼主| 发表于 2008-9-21 12:15:59 | 显示全部楼层
飞越这个不成,这是截取整段的了,如果要整段的就不用正则了
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

企业微信|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-23 20:29

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表