一个正则的问题

bdtmgk 发表于 2010-1-13 22:58:03

比如多网页采集
内容页A包含一个链接地址页B，
B格式如

下载地址：</strong><a href="http://xxx/files/19.html" target="_blank">xxx</a>

下载地址：<a target="_blank href="http://xxx/files/19.html" >xxx</a>

因为有两个形式不固定或许还有更多，但是只要采集到“下载地址：和</a>之间的网址部分就可以。

如何使用正则？

因为这个是多页面采集中的内容，还要采集此页面包含的具体网址。好像只能用正则吧，看了看，似乎一点不着边际！
看似很简单的内容，正则似乎很难。

哪位高手能指点一二，网上的那些所谓匹配网址的都不行，根本得不到这个网址。

bdtmgk 发表于 2010-1-14 20:23:48

无人问津也！自己再饿补正则知识吧

都市乞丐 发表于 2010-1-14 20:30:00

我只会参数正则.....

匹配: 下载地址(*)href="[参数]"

输出:[参数1]

bdtmgk 发表于 2010-1-14 20:50:24

用参数正则，因为这个地址比较有个性，所以
下载地址(*)<a href="http://dl.iplaysoft.com/files/[参数].html"(*)>(*)</a>

输出为
http://dl.iplaysoft.com/files/[参数1].html

测试成功！用纯正则还是需要再学习！弄好了再发贴上来！

介绍正则的几篇文章http://www.51dbt.com/article/website/huoche/index.html

aven 发表于 2010-1-15 11:36:19

(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]

我这个可以正常匹配url

只是因为火车对纯正则的问题，放到火车里不一定可行

页: [1]

火车采集器软件交流官方论坛's Archiver

一个正则的问题