bdtmgk 发表于 2010-1-13 22:58:03

一个正则的问题

比如多网页采集
内容页A包含一个链接地址页B,
B格式如

下载地址:</strong><a href="http://xxx/files/19.html" target="_blank">xxx</a>

下载地址:<a target="_blank href="http://xxx/files/19.html" >xxx</a>

因为有两个形式不固定或许还有更多,但是只要采集到“下载地址:和</a>之间的网址部分就可以。

如何使用正则?

因为这个是多页面采集中的内容,还要采集此页面包含的具体网址。好像只能用正则吧,看了看,似乎一点不着边际!
看似很简单的内容,正则似乎很难。

哪位高手能指点一二,网上的那些所谓匹配网址的都不行,根本得不到这个网址。

bdtmgk 发表于 2010-1-14 20:23:48

无人问津也!自己再饿补正则知识吧

都市乞丐 发表于 2010-1-14 20:30:00

我只会参数正则.....

匹配: 下载地址(*)href="[参数]"

输出:[参数1]

bdtmgk 发表于 2010-1-14 20:50:24

用参数正则,因为这个地址比较有个性,所以
下载地址(*)<a href="http://dl.iplaysoft.com/files/[参数].html"(*)>(*)</a>

输出为
http://dl.iplaysoft.com/files/[参数1].html

测试成功!用纯正则还是需要再学习!弄好了再发贴上来!

介绍正则的几篇文章http://www.51dbt.com/article/website/huoche/index.html

aven 发表于 2010-1-15 11:36:19

(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]

我这个可以正常匹配url



只是因为火车对纯正则的问题,放到火车里不一定可行
页: [1]
查看完整版本: 一个正则的问题