xiongyujie37 发表于 2008-9-3 17:59:29

js里面的内容到底怎么采 给出实例 图文直播

拿智联招聘 开刀,呵呵!








地址:http://jobs.zhaopin.com/P2/CC2061/8291/J900/000/CC206182916J90000003000.htm?f=ss


<div class="companyTitle"><script language="JavaScript" src="http://company.zhaopin.com/P2/CC2061/8291/CC206182916_Name_1.js"></script></div>
                <table cellpadding="0" cellspacing="0" border="0" class="companyInfoTab">
                <tr><td width="1%" nowrap="nowrap" valign="top">公司行业:</td>
                        <td><script language="JavaScript" src="http://company.zhaopin.com/P2/CC2061/8291/CC206182916_Industry_1.js"></script></td></tr>
                <tr><td width="1%" nowrap="nowrap">公司类型:</td>
                        <td><script language="JavaScript" src="http://company.zhaopin.com/P2/CC2061/8291/CC206182916_Type_1.js"></script></td></tr>
                <tr><td width="1%" nowrap="nowrap">公司规模:</td>
                        <td><script language="JavaScript" src="http://company.zhaopin.com/P2/CC2061/8291/CC206182916_Size_1.js">




大家注意,最上面的 公司名称公司行业 公司类型公司规模 全部都是JS公司行业:



这段代码是他们的 JS


我的问题是,我们如何获得 JS嵌套的真实内容呢?能够采集到如图显示的内容呢?

[ 本帖最后由 xiongyujie37 于 2008-9-3 18:02 编辑 ]

ghostscat 发表于 2008-9-3 19:26:32

js的内容竟然只是
document.write ("500-999人");

根本谈上不加密...把js采集下来截取括号内的内容就行了,论坛里搜索吧,有个js采集下载的补丁

xiongyujie37 发表于 2008-9-3 20:53:30

朋友

还是这个页面,还是这个问题,头部和尾部都有一个大的嵌套 分别为


头部JS 地址

http://my.zhaopin.com/js/'+siteIDStr+'/head.js



尾部 JS 地址
http://my.zhaopin.com/js/'+siteIDStr+'/bottom.js

这样的链接,是无法访问,怎么采呢?

xyz5200 发表于 2008-9-3 20:55:14

哈哈。确是很剌手。

ghostscat 发表于 2008-9-3 22:33:22

var siteIDStr = 'zp';
if(domainStr.indexOf('.msn.')>-1) siteIDStr = 'msn';

var titleStr4Domain = (siteIDStr=='zp')?'职位搜索_智联招聘':'招聘_MSN中国';
document.title = document.title.replace('TitleStr4Domain',titleStr4Domain);
-->

把siteIDstr的值取出来
2008 php接口 这种地址怎么会取不到.

我没实际去做,只是理论。先忙自己的先

xiongyujie37 发表于 2008-9-3 22:47:30

正则表达式怎么写呢?困惑中。。。
页: [1]
查看完整版本: js里面的内容到底怎么采 给出实例 图文直播