火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4314|回复: 11

求助写个正则表达式

[复制链接]
发表于 2009-1-2 13:51:44 | 显示全部楼层 |阅读模式
<li><a href="../index/p2p2.htm?392361292/8F50A31ADD75C9E32A779974B9ED4032C67D284F/CJ7.2008.BDRip.X264.CN.rmvb?6075?u?080401" target=_blank>[1]</a></li>

想采集 6075?u?080401  之间的那个u  

不知道正则表达式如何写,请高手帮忙看看.先谢谢了.
发表于 2009-1-2 14:03:52 | 显示全部楼层
<li><a href="(*)6075?[参数]?(*)</li>
使用火车头的话 就这样了
头像被屏蔽
发表于 2009-1-2 14:08:37 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2009-1-2 14:09:05 | 显示全部楼层
<li><a href="(*)?(*)?(*)?[参数]?(*)</li>
如果 6075  是变动的话 那也就只能这样了.
 楼主| 发表于 2009-1-2 14:28:58 | 显示全部楼层
这样是也能采集到,
可我想同时采集
<li><a href="../index/p2p2.htm?392361292/8F50A31ADD75C9E32A779974B9ED4032C67D284F/CJ7.2008.BDRip.X264.CN.rmvb?6075?u?080401" target=_blank>[1]</a></li>

p2p2.htm?和?6075?之间的392361292/8F50A31ADD75C9E32A779974B9ED4032C67D284F/CJ7.2008.BDRip.X264.CN.rmvb
以及?6075和?080401之间的
U
不用正则可能不行吧?
发表于 2009-1-2 14:45:04 | 显示全部楼层
盲目迷信正则

你就给出一个连接,那采集的办法很简单:

<li><a href="../index/p2p2.htm?392361292/8F50A31ADD75C9E32A779974B9ED4032C67D284F/CJ7.2008.BDRip.X264.CN.rmvb?6075?

?080401" target=_blank>[1]</a></li>

保证能采下来,至于其他的情况,那就不知道了。

所以如果你还想采集其他的情况,最好让别人看明白你想采集的这些内容的规律。贴一个太麻烦的话,你可以贴网址。
发表于 2009-1-2 14:51:35 | 显示全部楼层
总的来看,正则肯定是能实现的,呵呵,虽然不敢说是万能。
事实上火车内部也是用正则在处理。
 楼主| 发表于 2009-1-2 14:56:36 | 显示全部楼层
不好意思 斑竹
例子的网站地址是
http://www.tom365.com/movie_2004/html/6075.html

我是想采集
<ul class="mct">
        <li><a href="../index/p2p2.htm?392361292/8F50A31ADD75C9E32A779974B9ED4032C67D284F/CJ7.2008.BDRip.X264.CN.rmvb?6075?u?080401" target=_blank>[1]</a></li><li><a href="../index/p2p2.htm?392358591/1A3AAA97AF418FDDD1ABD16661A0A5AB624308DC/CJ7.2008.BDRip.X264.HK.rmvb?6075?u?080401" target=_blank>[2]</a></li>
        </ul>
之间的播放地址,
这个站的播放地址是由2个部分组成,格式为http://[服务器前缀].tom365.com:8088/[影片地址]
用上面的代码就是这样的组成
<li><a href="../index/p2p2.htm?影片地址?6075?服务器前缀?080401" target=_blank>[2]</a></li>

我的目的就是把这个服务器前缀和影片地址在一个标签中采集到,还请斑竹多多费心看看能不能做到.谢谢老大.
发表于 2009-1-2 15:33:34 | 显示全部楼层
本帖最后由 sushy 于 2009-1-2 15:39 编辑

这样的话,你至少需要采集4个内容
="../index/p2p2.htm?392361292/8F50A31ADD75C9E32A779974B9ED4032C67D284F/CJ7.2008.BDRip.X264.CN.rmvb?6075?u?080401

正则匹配内容
<li><a href="../index/p2p2.htm?[参数]?[参数]?[参数]?[参数]" target=_blank>(*)</a></li>

组合结果

http://[参数3].tom365.com:8088/[参数1]

其实火车的正则很简单,匹配内容中的4个[参数]从前往后依次是[参数1],[参数2],[参数3],[参数4],你在组合结果中将其插入相应的位置即可。

假如你认为6075 和080401那两段用不上,你也可以这么写:

正则匹配内容
<li><a href="../index/p2p2.htm?[参数]?(*)?[参数]?(*)" target=_blank>(*)</a></li>
组合结果
http://[参数2].tom365.com:8088/[参数1]
 楼主| 发表于 2009-1-2 18:53:17 | 显示全部楼层
真的很感谢老大的帮助,原来组合那里的参数的意思是这样的,一直都没弄明白.再次谢谢老大帮助.
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-16 16:18

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表