火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 5967|回复: 15

学好正则的结果是什么?

[复制链接]
发表于 2007-12-7 10:10:03 | 显示全部楼层 |阅读模式
是否学好正则在理论上就是可以采集任何一种资源???
发表于 2007-12-7 10:12:20 | 显示全部楼层
差不多!
比如,可以采集到 手机号,按13开头11位数的,邮箱地址什么的!
 楼主| 发表于 2007-12-7 10:13:11 | 显示全部楼层
那如果是被脚本隐藏的真实地址呢?

如:<SCRIPT language="javascript" type="text/javascript" >
<!--//
document.writeln('<object  width="100%" height="100%" classid=clsid:d27cdb6e-ae6d-11cf-96b8-444553540000 type="application/x-shockwave-flash">');
document.writeln('<PARAM   NAME="movie" VALUE="http://www.sfefs.com/player/player.swf?iid='+url+'">');

这类的地址,它是不是就是在“iid"后面隐藏了真实地址?用正则的方法是否可以得到?

[ 本帖最后由 lxfh985ii 于 2007-12-7 10:15 编辑 ]
发表于 2007-12-7 10:40:41 | 显示全部楼层
以上这个是用javascript 写的flash播放文件,它的文件地址是在 swf?iid='+url+'">');  的 url 中。如果你细心的搜索页面,肯定会发现有这样一个变量  var url=*******.swf  。这个就是你要的文件的地址。

正则只能在特定情况下使用,比如你需要截取某个字符串的前多少个字符。举例来说 “中国发现一颗恒星--搜狐新闻”和"冬季应该这样护理宝宝--搜狐亲子“ 这样两个title。如果你简单的replace,显然不能过滤掉 "搜狐新闻"和"搜狐亲子",这个时候用正则就可以解决问题,正则匹配"--"前面的字段就可以了。

当然,正则不是万能的。正则在验证的时候最有效。
 楼主| 发表于 2007-12-7 15:08:32 | 显示全部楼层
楼上的,你说的不错,但我并没有找到它的这个变量参数啊~~如果有,就出现了,我现在就是烦在如何分析出它的真实地址???在除了找软件之外,我在想如果用正则可以找到吗??
从以下代码中可以发现什么吗?
<!--//
document.writeln('<object  width="100%" height="100%" classid=clsid:d27cdb6e-ae6d-11cf-96b8-444553540000 type="application/x-shockwave-flash">');
document.writeln('<PARAM   NAME="movie" VALUE="http://www.ssdfe.com/player/player.swf?iid='+url+'">');
document.writeln('<PARAM   NAME="allowFullScreen" VALUE="true">');
document.writeln('<PARAM   NAME="allowScriptAccess" VALUE="sameDomain">');
document.writeln('<PARAM   NAME="flashvars" VALUE="id='+url+'">');
document.writeln('<PARAM   NAME="wmode" VALUE="transparent">');
document.writeln('<embed  src="http://www.ssdfe.com/player/player.swf?iid='+url+'" type="application/x-shockwave-flash" width="100%" height="100%" allowFullScreen="true" allowScriptAccess="sameDomain" flashvars="'+url+'"></embed>');
document.writeln('</OBJECT>');

//-->
发表于 2007-12-7 16:12:03 | 显示全部楼层
你复制的这一段仍然只是一个播放程序,并没有url的值。你把网页地址发过来,我帮你看看。
 楼主| 发表于 2007-12-7 16:21:31 | 显示全部楼层
是的,因为我好像在那里看到不URL的值~~
发表于 2007-12-7 16:23:18 | 显示全部楼层
<SCRIPT language=JavaScript>
<!--
url ="9712712";
//-->
</SCRIPT>

嘿嘿,你没有注意用搜索吧,我一眼就看到了,这个网页代码很简单的。
发表于 2007-12-7 16:24:49 | 显示全部楼层
晕,他们也采集的啊。采集土豆,呵呵。
发表于 2007-12-7 16:25:26 | 显示全部楼层
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-19 03:11

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表