因为我知道的也不多呵呵我知道多少就写多少希望你能看懂个大概,然后自己在摸索。我采集成功几个网站。但后来想采集几个论坛全部不成功采集不到东西郁闷的很......嗨
1:下载本程序后请解压在本地自己的电脑里面。若是你的系统是WIN2000跟XP的话请去下载个.net framework 2.0下载地址:
http://www.microsoft.com/downloads/details.aspx?familyid=7ABD8C8F-287E-4C7E-9A4A-A4ECFF40FC8E&displaylang=zh-cn
没有下载那个安装到你的电脑点及老是提示错误的呵呵下载了安装好就可以进去了。进去后我们开始采集吧
2:如果你想采集那个网站那么在底下的[网页内地址采集地址采集]那里输入你想要采集的网站地址,比如我现在要采集天空软件园其中的国产软件。那么我就进入到这个国产软件的页面
http://www.skycn.com/sort/rjfl01_indate_DESC_1.html
同时我们也在软件这里输入你想采集这个页面的看下图。然后这样的话采集是不是一整个网页吗?网页上面有很多广告我们不需要的或者别的连接我们不要的。好那我们就在[采集两集连接]后面那两个框框那里输入网页固定区域的采集。天空这个页面呢。我们实在采集的是要程序标题跟连接那些,那些是从
软件分类
[ 按软件名称排序 ]这些文字这里开始我们就在
[页面内选定区域采集网地]从那后面的第一个框那里输入
按软件名称排序到后面那个框里面输入网页低部的标题结尾那个
国产软件那里好这样我们就选择了在这个区域这里采集了。接着我们在
清除已有的网地 连接连接地址中必须包含那个框框里面输入[soft]为什么输入这个呢你点一下那些软件标题的连接然后点属性会出来这样的地址
http://www.skycn.com/soft/3253.html我们选择soft这样就选择了标题连接的地址然后后面的框那里可以不添这样点采集连接或者点采集2级连接的时候就只采集到包含有soft文字在内的网页连接地址你们自己试试就知道了。
3:接着我们在
手动生成网址相似网址那里输入
http://www.skycn.com/sort/rjfl01_indate_DESC_1.html然后把里面的那个数字1改成(*)字如下
http://www.skycn.com/sort/rjfl01_indate_DESC_(*).html然后在
通配符范围那里第一个小框输入1第2个小框输入70那么等会采集到的网站地址就会是从
http://www.skycn.com/sort/rjfl01_indate_DESC_1.html到
http://www.skycn.com/sort/rjfl01_indate_DESC_70.html页也就是
手动生成网址相似网址那项是批量添加。呵呵
4:好现在我们若是在批量添加那里输入网站地址点后面的生成网站地址那么你会看到大页面的网站地址都进去了。接着在点一下上面的采集2级网站地址呵呵他会在大页面的网站地址那里出现个加号点一下进去你就会发现你要采集的那些标题连接都在里面了。呵呵你若是想一页一页的采集的话。那么直接在最顶上的
采集连接那里点一下呵呵那样就是你在[网页内地址采集地址采集]那里输入你想要采集的网站地址那页网址的连接内容了。底下那些批量的可以不管他你也可以不填呵呵
5:这些都完了后就点保存网址或者是保存2级网站地址。你自己还不明白的话自己摸索了反正你要保存一下不然没有办法采集的