11 12
发新话题
打印

[3.2版] 到底怎样采集多个下载地址啊?

到底怎样采集多个下载地址啊?

比如  http://nj.onlinedown.net/soft/37369.htm

有很多下载地址,,该如何采集来...

[ 本帖最后由 飞机头 于 2007-11-10 11:41 编辑 ]

TOP

你选个区域把下载的那些网址全采了不就可以了

TOP

具体如何办到啊...我只能获取但个地址....老大帮帮忙吧.论坛搜了好几圈了.也没看到什么教程..

TOP

回复 1楼 的帖子

LZ, 我已经给你回复了!!!!!
我会出一个专门的教程!!!
这个采集其实很简单!!!一般的采集可以采集所有的地址,但是过滤项很多!!

这个页面完全可以使用 正则采集到!!!

这里给你简单的说一下先!!!
火车采集器商业版 咨询、购买、售后支持等 :
火车采集器2008版系列教程正在陆续发布中 :  点击观看
提供高难度采集技术支持,完美实现全站转移,多栏目自动更新
火车采集器采集规则定制:[50元/条,质量保证]
火车采集器发布模块定制:[80元/条,质量保证]
火车采集器程序接口定制:[按程序难度议价,200起]
织梦图片集自动发布模块:[100元/个,自动分析图片代码、远程下载图片]
支持支付宝淘宝安全交易:Q Q: 130775 Mail:vu520@163.com ->查看更多联系方式

TOP

引用:
原帖由 vus520 于 2007-11-10 15:38 发表
LZ, 我已经给你回复了!!!!!
我会出一个专门的教程!!!
这个采集其实很简单!!!一般的采集可以采集所有的地址,但是过滤项很多!!

这个页面完全可以使用 正则采集到!!!

这里给你简单的说一下先!!!
过滤项--我还不懂。
我的QQ:27304751
wordpress 2.6

TOP

如果简单的把所有地址都给采集来,我也能做到,但问题是我需要正则,这样采集下来的地址才能转换成{dede:link text='名字'}地址{/dede:link}  这样的格式。

TOP

哦。呵呵,原来用dede呀。

TOP

给你个思路
准备20个下载链接的标签,准备20个显示下载文件名,准备20个采集的下载的文件名,准备一个自己提供下载的链接的前缀,采下来后,自己写个asp或php程序对access进行编程,进行循环处理
显示下载文件名1=下载的链接的前缀+采集下来的下载的文件名1
显示下载文件名2=下载的链接的前缀+采集下来的下载的文件名2
。。。。。。
显示下载文件名20=下载的链接的前缀+采集下来的下载的文件名20

TOP

楼上方法,看似专业,实际很笨啊。

而且根本不符合我的要求,我的要求是得到软件名称和下载地址。转换成  {dede:link text='软件名字'}软件地址{/dede:link}  这样的格式,

其实通过正则过滤,转换输出结果,完全可以办到,

最简单的例子,就是
<a href="[参数]">[参数]</a> +标签循环  我试过这种办法,完全可行,采集下来可以得到软件的名称和地址。但问题是如果页面有许多这样的连接,那么会采集下来一大堆无用的连接,我的意思是,怎样在一段我想要的区域中使用这个正则+循环匹配呢。

希望明白正则的朋友们,给于指点。

TOP

火车采集器商业版 咨询、购买、售后支持等 :
火车采集器2008版系列教程正在陆续发布中 :  点击观看
提供高难度采集技术支持,完美实现全站转移,多栏目自动更新
火车采集器采集规则定制:[50元/条,质量保证]
火车采集器发布模块定制:[80元/条,质量保证]
火车采集器程序接口定制:[按程序难度议价,200起]
织梦图片集自动发布模块:[100元/个,自动分析图片代码、远程下载图片]
支持支付宝淘宝安全交易:Q Q: 130775 Mail:vu520@163.com ->查看更多联系方式

TOP

 11 12
发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.199607 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-11-23 07:13 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档