火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 1685|回复: 4

一个正则的问题

[复制链接]
发表于 2010-1-13 22:58:03 | 显示全部楼层 |阅读模式
比如多网页采集
内容页A包含一个链接地址页B,
B格式如

下载地址:</strong><a href="http://xxx/files/19.html" target="_blank">xxx</a>

下载地址:<a target="_blank href="http://xxx/files/19.html" >xxx</a>

因为有两个形式不固定或许还有更多,但是只要采集到“下载地址:和</a>之间的网址部分就可以。

如何使用正则?

因为这个是多页面采集中的内容,还要采集此页面包含的具体网址。好像只能用正则吧,看了看,似乎一点不着边际!
看似很简单的内容,正则似乎很难。

哪位高手能指点一二,网上的那些所谓匹配网址的都不行,根本得不到这个网址。
 楼主| 发表于 2010-1-14 20:23:48 | 显示全部楼层
无人问津也!自己再饿补正则知识吧
发表于 2010-1-14 20:30:00 | 显示全部楼层
我只会参数正则.....

匹配: 下载地址(*)href="[参数]"

输出:  [参数1]
 楼主| 发表于 2010-1-14 20:50:24 | 显示全部楼层
用参数正则,因为这个地址比较有个性,所以
下载地址(*)<a href="http://dl.iplaysoft.com/files/[参数].html"(*)>(*)</a>

输出为
http://dl.iplaysoft.com/files/[参数1].html

测试成功!用纯正则还是需要再学习!弄好了再发贴上来!

介绍正则的几篇文章http://www.51dbt.com/article/website/huoche/index.html
发表于 2010-1-15 11:36:19 | 显示全部楼层
(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]

我这个可以正常匹配url



只是因为火车对纯正则的问题,放到火车里不一定可行

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-8-29 15:50

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表