飞机头 发表于 2007-11-10 09:16:50

到底怎样采集多个下载地址啊?

比如http://nj.onlinedown.net/soft/37369.htm

有很多下载地址,,该如何采集来...

[ 本帖最后由 飞机头 于 2007-11-10 11:41 编辑 ]

rq204 发表于 2007-11-10 13:12:21

你选个区域把下载的那些网址全采了不就可以了

飞机头 发表于 2007-11-10 14:55:49

具体如何办到啊...我只能获取但个地址....老大帮帮忙吧.论坛搜了好几圈了.也没看到什么教程..

vus520 发表于 2007-11-10 15:38:08

回复 1楼 的帖子

LZ, 我已经给你回复了!!!!!
我会出一个专门的教程!!!
这个采集其实很简单!!!一般的采集可以采集所有的地址,但是过滤项很多!!

这个页面完全可以使用 正则采集到!!!

这里给你简单的说一下先!!!

小齐 发表于 2007-11-10 17:27:30

原帖由 vus520 于 2007-11-10 15:38 发表 http://bbs.locoy.com/images/common/back.gif
LZ, 我已经给你回复了!!!!!
我会出一个专门的教程!!!
这个采集其实很简单!!!一般的采集可以采集所有的地址,但是过滤项很多!!

这个页面完全可以使用 正则采集到!!!

这里给你简单的说一下先!!!

过滤项--我还不懂。

飞机头 发表于 2007-11-11 09:18:19

如果简单的把所有地址都给采集来,我也能做到,但问题是我需要正则,这样采集下来的地址才能转换成{dede:link text='名字'}地址{/dede:link}这样的格式。

火车尾巴 发表于 2007-11-11 10:14:32

哦。呵呵,原来用dede呀。

火车尾巴 发表于 2007-11-11 10:20:53

给你个思路
准备20个下载链接的标签,准备20个显示下载文件名,准备20个采集的下载的文件名,准备一个自己提供下载的链接的前缀,采下来后,自己写个asp或php程序对access进行编程,进行循环处理
显示下载文件名1=下载的链接的前缀+采集下来的下载的文件名1
显示下载文件名2=下载的链接的前缀+采集下来的下载的文件名2
。。。。。。
显示下载文件名20=下载的链接的前缀+采集下来的下载的文件名20

飞机头 发表于 2007-11-11 11:47:46

楼上方法,看似专业,实际很笨啊。ali21ls

而且根本不符合我的要求,我的要求是得到软件名称和下载地址。转换成{dede:link text='软件名字'}软件地址{/dede:link}这样的格式,

其实通过正则过滤,转换输出结果,完全可以办到,

最简单的例子,就是
<a href="[参数]">[参数]</a> +标签循环我试过这种办法,完全可行,采集下来可以得到软件的名称和地址。但问题是如果页面有许多这样的连接,那么会采集下来一大堆无用的连接,我的意思是,怎样在一段我想要的区域中使用这个正则+循环匹配呢。

希望明白正则的朋友们,给于指点。ali24ls

vus520 发表于 2007-11-13 00:23:04

回复 9楼 的帖子

http://bbs.locoy.com/spider-19972-1-1.html
页: [1] 2
查看完整版本: 到底怎样采集多个下载地址啊?