火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 20788|回复: 53

规则教程第五U巧用黑客字典工具生成地址(申请车厢)

[复制链接]
发表于 2011-1-1 19:19:47 | 显示全部楼层 |阅读模式
本帖最后由 lypying 于 2011-1-12 12:49 编辑

难度:适中
适用人群:需要十万百万级数据采集的朋友
最近在做一个千万级的数据采集工作,在采集过程中积累了不少经验,不断的提高采集效率。下面就地址地址方面的经验与大家分享。
说些废话,一个人在出租房内也没什么意思,公务员考试都瘪瘪了。今天是元旦自己一个人弄了点昨天的剩菜,哎弄的这么可怜。估计三十也要自己吃泡面啦,在石家庄的朋友可以给个工作的,记得联系我。
好的 言归正传。
首先我们来说下网站,动态的网站无论是ASP还是PHP的之所以网站上有各种内容都是需要提交查询到数据库的。就算生成HTML也是有一定规则的,有的是拼音,有的是数字,放心很少有用汉字做传递参数和生成HTML的。本文只对生成有规律的数字的网站进行分析(日期或者自增)。因为数字一般都是递增或者递减的,很少有随机的。因为一般的网站程序数据库表里都有一个唯一的自增ID。不信可以打开你的任何网站数据库看看。通常都会有的,这个可以唯一确定表中的一行记录。
现在举个例子比如火车论坛的地址
http://bbs.locoy.com/spider-57895-1-1.html看下57895这个数字 大家在最后在个位十位改几个数字 看看是不是不同的主题。如果通过列表页获得 几十页几百页无所谓了,如果是几万页的列表效率会很慢,那么我们可以跳过生成列表页,直接生成内容页。采集使用0层采集直接采集内容页。这仅适用于有规律的数字组合。
我试过用火车自带的,多页生成,一个晚上大概8小时左右才生成了10万多个地址,这个速度完全达不到我想要的要求。

然后我又尝试用火车自带的,地址增生工具生成。

生成30W的地址,程序无响应。我的机器是双核T5500 1G内存。等了一个白天依旧无响应,所以决定用黑客字典工具生成。用了下生成50W的数据基本是秒生。大大提高了地址效率。
那么我们用黑客字典工具木头超级字典生成器就可以达到我们的要求。
上图 软件界面

在密码长度那设置好长度,比如火车的是5位数57895,就选择五位,然后点击下面的每位使用不同的字符集。


因为第一位是5,所以生成5一下的数字 第一位写自定义字符12345就可以 其他位数可以用0-9生成。
生成字典5W条基本就是秒生了。

好的现在在前面插入http://bbs.locoy.com/spider-后面插入-1-1.html即可。
回到字典生成工具
主菜单→修改模式

点修改这样前面就加好了,然后加后面。在第()位插入这个写99就可以,这个网址不可能有99位的所以就是直接插入到最后面

好了 这样就地址生成完成了

好了5W个地址基本上是几分钟的事情,可向用火车自带的软件去算要多久。生成后导入到火车软件就可以了。非常省时间,我生成一个60W的地址导入火车,结果程序卡死。目前还在卡,可见火车在处理大量数据的时候还需要加强。

附上字典生成工具,因为是黑客工具我用360杀了毒,没发现问题
游客,如果您要查看本帖隐藏内容请回复

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2011-1-2 10:35:38 | 显示全部楼层
好东西啊,
发表于 2011-1-3 14:01:34 | 显示全部楼层
谢谢了。很好的教材
发表于 2011-1-3 22:56:03 | 显示全部楼层
学习学习。。。突破啊!
发表于 2011-1-3 22:57:55 | 显示全部楼层
字典工具被NOD32报毒
发表于 2011-1-5 10:37:18 | 显示全部楼层
谢谢,学习一下,看看行不行
发表于 2011-1-8 08:40:03 | 显示全部楼层
貌似可以解决我的问题
发表于 2011-1-9 17:31:13 | 显示全部楼层
不知道这软件好不好用。
发表于 2011-1-11 19:11:07 | 显示全部楼层
学习了 多谢楼主分享
www.howtao.net
发表于 2011-1-20 20:27:41 | 显示全部楼层
感谢分享..看看 ...
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 02:05

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表