怎么样采集软件站?找不到真实的下载地址!
现在很多的软件站都是这样,点击进入下载列表,然后里面有好几个下载链接,看源码,没有真实的下载地址,只有链接的地址,输入链接地址后会转到那个真实的下载地址,这样的站点要怎么去采集?有没有什么有效的方法???[ 本帖最后由 chenfy 于 2008-9-16 12:33 编辑 ] 你说的“转”是指什么转? 早有意识到这个问题。但一直没有着手去做。 原帖由 soarb 于 2008-9-13 20:48 发表 http://bbs.locoy.com/images/common/back.gif
你说的“转”是指什么转?
比如:网址是http://bs.soft.com/soft/2008-01-20/。。。。。后面省略。但进入这个网址后一下就转到了http://www10.soft.com/soft/2008-01-20/。。。。。这样的真实地址,差别就在前面,但源码里又找不到这个地址。 我已经成功采集了,方法需要拐几个弯,但是速度确实非常飞快的,我现在采集一个2万条数据的下载站,从今天早上8点开始,到11:59分,已经成功采集它7GB的软件内容。我给楼主提供几个思路:
收集它的下载地址列表
把下载列表下载的文件与CMS的id建立起联系(这步稍难,我用的是批处理文件划分目录+PHP比较大小重命名文件的方法)
按照我的思路,楼主动动脑肯定应该能解决了,如果不想动脑,推荐买一套收费版火车头,客服会帮你解决的。 采集软件时,一般要使用多页采集,需要获取真实地址的,一定要使用收费版的火车采集器。
页:
[1]