到底怎样采集多个下载地址啊?
比如http://nj.onlinedown.net/soft/37369.htm有很多下载地址,,该如何采集来...
[ 本帖最后由 飞机头 于 2007-11-10 11:41 编辑 ] 你选个区域把下载的那些网址全采了不就可以了 具体如何办到啊...我只能获取但个地址....老大帮帮忙吧.论坛搜了好几圈了.也没看到什么教程..
回复 1楼 的帖子
LZ, 我已经给你回复了!!!!!我会出一个专门的教程!!!
这个采集其实很简单!!!一般的采集可以采集所有的地址,但是过滤项很多!!
这个页面完全可以使用 正则采集到!!!
这里给你简单的说一下先!!! 原帖由 vus520 于 2007-11-10 15:38 发表 http://bbs.locoy.com/images/common/back.gif
LZ, 我已经给你回复了!!!!!
我会出一个专门的教程!!!
这个采集其实很简单!!!一般的采集可以采集所有的地址,但是过滤项很多!!
这个页面完全可以使用 正则采集到!!!
这里给你简单的说一下先!!!
过滤项--我还不懂。 如果简单的把所有地址都给采集来,我也能做到,但问题是我需要正则,这样采集下来的地址才能转换成{dede:link text='名字'}地址{/dede:link}这样的格式。 哦。呵呵,原来用dede呀。 给你个思路
准备20个下载链接的标签,准备20个显示下载文件名,准备20个采集的下载的文件名,准备一个自己提供下载的链接的前缀,采下来后,自己写个asp或php程序对access进行编程,进行循环处理
显示下载文件名1=下载的链接的前缀+采集下来的下载的文件名1
显示下载文件名2=下载的链接的前缀+采集下来的下载的文件名2
。。。。。。
显示下载文件名20=下载的链接的前缀+采集下来的下载的文件名20 楼上方法,看似专业,实际很笨啊。ali21ls
而且根本不符合我的要求,我的要求是得到软件名称和下载地址。转换成{dede:link text='软件名字'}软件地址{/dede:link}这样的格式,
其实通过正则过滤,转换输出结果,完全可以办到,
最简单的例子,就是
<a href="[参数]">[参数]</a> +标签循环我试过这种办法,完全可行,采集下来可以得到软件的名称和地址。但问题是如果页面有许多这样的连接,那么会采集下来一大堆无用的连接,我的意思是,怎样在一段我想要的区域中使用这个正则+循环匹配呢。
希望明白正则的朋友们,给于指点。ali24ls
回复 9楼 的帖子
http://bbs.locoy.com/spider-19972-1-1.html
页:
[1]
2