因为建个小站 <a href="http://www.ccfer.org/">
www.ccfer.org</a> 才忽然想到自动采集。其实玩采集才三天时间,我并没有太多技术,略懂一点HTML语法。第一天玩的火车1.2.0,蛮好用的,DZ采了约2000条数据。因为是采集别人的东西,格式之类就没法苛求了,别人怎么样,论坛里的格式只会差不会好,重要的数据要有价值。
1.2最大的亮点,分页!基本上不需要多少操作,而且分的很漂亮,赞一个。第二天,掩饰不住尝到甜头的快乐,我继续采集着。我尝试着使用2.0。2.0的基本原理不变。也很容易上手。但是我基本上没有采集到多少数据,因为报错很多。
<br/><br/>
说说2.0比1.2的改进之处。
- 模块自助设计 增加了登陆前 变量 数量设置。举个例子。1.2版本在我看来是无法使用 DZ XSPACES的。XSPACES登陆需要三个hash值,而 1.2只能前置设置一个 变量 所以登陆后,发表日志 是无法成功的。这里请区别 资讯 与 日志 是不同的概念。
[list=2]
- 链接记录 对发过的链接有做出标志,所以相同链接不会重复发布。创意很好,但还不完赛。
需要改进的地方 我认为有不能简单的将多个站是否发布的数据仅仅放在一个表单里。一旦某个站链接发布标志需要清零,其他站也同时被清零了。这不利用多采集站点控制。最好每个站的链接发布标志单独控制。
[list=3]
- 链接变量 链接变量主要是针对JAVASCRIPT来应用的 。对于JS控制的链接,火车和小蜜蜂都不能很好的识别这缩小了采集器的应用范围。今天遇到这样一个实例
复制内容到剪贴板
代码:
<script>
document.write(linkCreateFn1("朝鲜可能第二次核试验", "<!--<img src='scimages/only.gif' border='0' margin='0' style='margin-top:0px;vertical-align:middle;'>-->", "http://www.ftchinese.com/sc/story.jsp?id=001007373&pos=0&loc=SECTION", "5px", "5px", "dgray", "BulletDGreySubtitle"));
</script>复制内容到剪贴板
代码:
http://www.ftchinese.com/sc/story.jsp?id=001007373&pos=0&loc=SECTION这段代码2.0是无法自动识别的。
<br>
实际上,小蜜蜂也只能识别一半,因为结果是,链接和标题的位置错误。我恨JS。
实际应用的时候我同时需要将复制内容到剪贴板
代码:
http://www.ftchinese.com/sc/story.jsp?id=001007373&pos=0&loc=SECTION置换成复制内容到剪贴板
代码:
http://www.ftchinese.com/sc/story.jsp?id=001007373这里复制内容到剪贴板
代码:
&pos=0中的0是变量,变量范围n,n为自然数。
现有的采集模块这个变量不管火车还是小蜜蜂都是无法实现的。
实际应用中,我使用小蜜蜂比火车多。小蜜蜂有几个亮点:
<br/>
<br/>
1 链接数据保持的比较好,这对所有的站长都是有帮助的。实际应用中,对链接重复发送是很忌讳的。所以,我真的很希望火车在这方面有一定的改进。
<br/>
<br/>
2 模拟浏览器发送数据,避免了COOKIES的影响。
<br/>
<br/>
3 相对比较稳定。
<br/>
<br/>
4 发布前,用户可以事先浏览到全部数据,清理无效数据、重复链接,改进规则。
<br/>
<br/>
火车好坐,规则难写。当然强大的软件支持也是必要的。蛮希望2.0能给大家一个惊喜。相对来说,火车更富有灵活性,更有应用前景。
<br/>
<br/>
采集事件挺有趣的事情,有兴趣的朋友不妨与我一同交流,我的联系方式是
<a href="http://www.ccfer.org/">
www.ccfer.org</a>,很高兴认识大家!
<br/>
<br/>
[
本帖最后由 onlyzzz 于 2006-10-19 08:09 编辑 ]