itok 发表于 2008-10-27 23:34:51

请教高手

想采集http://www.abcd9598.cn 网站中的北美数据2008年7月

有几个特点
1.输入网址自动登录,每次自动生成新的网址,其实是将原网址后加了一串字符,登录时间长了没有操作则要求重新登录
2.采集网址列表内容采用java特殊方法
3.好像最终网址内容转向了其他网站

研究了好几个小时,还是没成功,请高手救命,操作如下,用wsockexpert分析ie登录数据
1.先登录,用wsockexpert分析ie数据,将新地址和分析得来的数据填入采集地址,比如


http://www.abcd9598.cn/ams/(dka1zmnk0ubpwy550roqwiyk)/t/fulltext/datalist.aspx?ftr_dbid=1&ftr_exp=2008.7/到港日期&ftr_page=(*)

如采3页,选0-2

手动填写链接地址规则,脚本规则href='' class='w9a' onclick='javascript:{window.open( "../../view/view.aspx?ftr_dbid=1&ftr_rcid=[参数]"
实际连接http://www.abcd9598.cn/ams/(dka1zmnk0ubpwy550roqwiyk)/view/view.aspx?ftr_dbid=1&ftr_rcid=[参数1]
文章内容网址包含填ftr_dbid=1,
标签定义方法: 标签名填 托运人, 开始字符串 填 [托运人] ,结束字符串<p>,其他按照这种格式填写,略

其中dka1zmnk0ubpwy550roqwiyk为该网站生成的新网址的一部份

2. 测试网址采集,1级网址3个。二级网址60个,与实际相符


3.选一个二级网址测试,发现该采集的数据是空的,不知是何原因,恳求高手协助,谢谢!
选一个二级网址如http://www.abcd9598.cn/ams/(dka1zmnk0ubpwy550roqwiyk)/view/view.aspx?ftr_dbid=1&ftr_rcid=2来浏览页面又可以打开,不知道是怎么回事?奇怪


急!

[ 本帖最后由 itok 于 2008-10-28 00:07 编辑 ]

sushy 发表于 2008-10-27 23:52:55

他可能是session控制的吧。这样的话,可能采集不到的哦。

itok 发表于 2008-10-28 00:24:13

原帖由 sushy 于 2008-10-27 23:52 发表 http://bbs.locoy.com/images/common/back.gif
他可能是session控制的吧。这样的话,可能采集不到的哦。
选一个二级网址如http://www.abcd9598.cn/ams/(dka1zmnk0ubpwy550roqwiyk)/view/view.aspx?ftr_dbid=1&ftr_rcid=2来浏览页面又可以打开,不知道是怎么回事?奇怪
页: [1]
查看完整版本: 请教高手