求助写个正则表达式
<li><a href="../index/p2p2.htm?392361292/8F50A31ADD75C9E32A779974B9ED4032C67D284F/CJ7.2008.BDRip.X264.CN.rmvb?6075?u?080401" target=_blank></a></li>想采集 6075?u?080401之间的那个u
不知道正则表达式如何写,请高手帮忙看看.先谢谢了. <li><a href="(*)6075?[参数]?(*)</li>
使用火车头的话 就这样了 <li><a href="(*)?(*)?(*)?[参数]?(*)</li>
如果 6075是变动的话 那也就只能这样了. 这样是也能采集到,
可我想同时采集
<li><a href="../index/p2p2.htm?392361292/8F50A31ADD75C9E32A779974B9ED4032C67D284F/CJ7.2008.BDRip.X264.CN.rmvb?6075?u?080401" target=_blank></a></li>
p2p2.htm?和?6075?之间的392361292/8F50A31ADD75C9E32A779974B9ED4032C67D284F/CJ7.2008.BDRip.X264.CN.rmvb
以及?6075和?080401之间的
U
不用正则可能不行吧? 盲目迷信正则
你就给出一个连接,那采集的办法很简单:
从
<li><a href="../index/p2p2.htm?392361292/8F50A31ADD75C9E32A779974B9ED4032C67D284F/CJ7.2008.BDRip.X264.CN.rmvb?6075?
到
?080401" target=_blank></a></li>
保证能采下来,至于其他的情况,那就不知道了。
所以如果你还想采集其他的情况,最好让别人看明白你想采集的这些内容的规律。贴一个太麻烦的话,你可以贴网址。 总的来看,正则肯定是能实现的,呵呵,虽然不敢说是万能。
事实上火车内部也是用正则在处理。 不好意思 斑竹
例子的网站地址是
http://www.tom365.com/movie_2004/html/6075.html
我是想采集
<ul class="mct">
<li><a href="../index/p2p2.htm?392361292/8F50A31ADD75C9E32A779974B9ED4032C67D284F/CJ7.2008.BDRip.X264.CN.rmvb?6075?u?080401" target=_blank></a></li><li><a href="../index/p2p2.htm?392358591/1A3AAA97AF418FDDD1ABD16661A0A5AB624308DC/CJ7.2008.BDRip.X264.HK.rmvb?6075?u?080401" target=_blank></a></li>
</ul>
之间的播放地址,
这个站的播放地址是由2个部分组成,格式为http://[服务器前缀].tom365.com:8088/[影片地址]
用上面的代码就是这样的组成
<li><a href="../index/p2p2.htm?影片地址?6075?服务器前缀?080401" target=_blank></a></li>
我的目的就是把这个服务器前缀和影片地址在一个标签中采集到,还请斑竹多多费心看看能不能做到.谢谢老大. 本帖最后由 sushy 于 2009-1-2 15:39 编辑
这样的话,你至少需要采集4个内容
="../index/p2p2.htm?392361292/8F50A31ADD75C9E32A779974B9ED4032C67D284F/CJ7.2008.BDRip.X264.CN.rmvb?6075?u?080401
正则匹配内容
<li><a href="../index/p2p2.htm?[参数]?[参数]?[参数]?[参数]" target=_blank>(*)</a></li>
组合结果
http://[参数3].tom365.com:8088/[参数1]
其实火车的正则很简单,匹配内容中的4个[参数]从前往后依次是[参数1],[参数2],[参数3],[参数4],你在组合结果中将其插入相应的位置即可。
假如你认为6075 和080401那两段用不上,你也可以这么写:
正则匹配内容
<li><a href="../index/p2p2.htm?[参数]?(*)?[参数]?(*)" target=_blank>(*)</a></li>
组合结果
http://[参数2].tom365.com:8088/[参数1] 真的很感谢老大的帮助,原来组合那里的参数的意思是这样的,一直都没弄明白.再次谢谢老大帮助.
页:
[1]
2