怎么样采集软件站？找不到真实的下载地址！

chenfy 发表于 2008-9-13 19:45:54

现在很多的软件站都是这样，点击进入下载列表，然后里面有好几个下载链接，看源码，没有真实的下载地址，只有链接的地址，输入链接地址后会转到那个真实的下载地址，这样的站点要怎么去采集？有没有什么有效的方法？？？

[ 本帖最后由 chenfy 于 2008-9-16 12:33 编辑 ]

soarb 发表于 2008-9-13 20:48:53

你说的“转”是指什么转？

xyz5200 发表于 2008-9-13 22:58:07

早有意识到这个问题。但一直没有着手去做。

chenfy 发表于 2008-9-14 17:40:07

原帖由 soarb 于 2008-9-13 20:48 发表 http://bbs.locoy.com/images/common/back.gif
你说的“转”是指什么转？
比如：网址是http://bs.soft.com/soft/2008-01-20/。。。。。后面省略。但进入这个网址后一下就转到了http://www10.soft.com/soft/2008-01-20/。。。。。这样的真实地址，差别就在前面，但源码里又找不到这个地址。

francisngl 发表于 2008-9-16 12:02:43

我已经成功采集了，方法需要拐几个弯，但是速度确实非常飞快的，我现在采集一个2万条数据的下载站，从今天早上8点开始，到11：59分，已经成功采集它7GB的软件内容。我给楼主提供几个思路：

收集它的下载地址列表

把下载列表下载的文件与CMS的id建立起联系（这步稍难，我用的是批处理文件划分目录+PHP比较大小重命名文件的方法）

按照我的思路，楼主动动脑肯定应该能解决了，如果不想动脑，推荐买一套收费版火车头，客服会帮你解决的。

vus520 发表于 2008-9-16 12:32:21

采集软件时，一般要使用多页采集，需要获取真实地址的，一定要使用收费版的火车采集器。

页: [1]

火车采集器软件交流官方论坛's Archiver

怎么样采集软件站？找不到真实的下载地址！