一个正则的问题
比如多网页采集内容页A包含一个链接地址页B,
B格式如
下载地址:</strong><a href="http://xxx/files/19.html" target="_blank">xxx</a>
下载地址:<a target="_blank href="http://xxx/files/19.html" >xxx</a>
因为有两个形式不固定或许还有更多,但是只要采集到“下载地址:和</a>之间的网址部分就可以。
如何使用正则?
因为这个是多页面采集中的内容,还要采集此页面包含的具体网址。好像只能用正则吧,看了看,似乎一点不着边际!
看似很简单的内容,正则似乎很难。
哪位高手能指点一二,网上的那些所谓匹配网址的都不行,根本得不到这个网址。 无人问津也!自己再饿补正则知识吧 我只会参数正则.....
匹配: 下载地址(*)href="[参数]"
输出:[参数1] 用参数正则,因为这个地址比较有个性,所以
下载地址(*)<a href="http://dl.iplaysoft.com/files/[参数].html"(*)>(*)</a>
输出为
http://dl.iplaysoft.com/files/[参数1].html
测试成功!用纯正则还是需要再学习!弄好了再发贴上来!
介绍正则的几篇文章http://www.51dbt.com/article/website/huoche/index.html (https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]
我这个可以正常匹配url
只是因为火车对纯正则的问题,放到火车里不一定可行
页:
[1]