发新话题
打印

火车,想说爱你不容易

火车,想说爱你不容易

因为建个小站 <a href="http://www.ccfer.org/">www.ccfer.org</a> 才忽然想到自动采集。其实玩采集才三天时间,我并没有太多技术,略懂一点HTML语法。第一天玩的火车1.2.0,蛮好用的,DZ采了约2000条数据。因为是采集别人的东西,格式之类就没法苛求了,别人怎么样,论坛里的格式只会差不会好,重要的数据要有价值。


1.2最大的亮点,分页!基本上不需要多少操作,而且分的很漂亮,赞一个。第二天,掩饰不住尝到甜头的快乐,我继续采集着。我尝试着使用2.0。2.0的基本原理不变。也很容易上手。但是我基本上没有采集到多少数据,因为报错很多。
<br/><br/>


说说2.0比1.2的改进之处。




  • 模块自助设计 增加了登陆前 变量 数量设置。举个例子。1.2版本在我看来是无法使用 DZ XSPACES的。XSPACES登陆需要三个hash值,而 1.2只能前置设置一个 变量 所以登陆后,发表日志 是无法成功的。这里请区别 资讯日志 是不同的概念。

    [list=2]
  • 链接记录 对发过的链接有做出标志,所以相同链接不会重复发布。创意很好,但还不完赛。
    需要改进的地方 我认为有不能简单的将多个站是否发布的数据仅仅放在一个表单里。一旦某个站链接发布标志需要清零,其他站也同时被清零了。这不利用多采集站点控制。最好每个站的链接发布标志单独控制。

    [list=3]
  • 链接变量 链接变量主要是针对JAVASCRIPT来应用的 。对于JS控制的链接,火车和小蜜蜂都不能很好的识别这缩小了采集器的应用范围。今天遇到这样一个实例
    复制内容到剪贴板
    代码:
    <script>
    document.write(linkCreateFn1("朝鲜可能第二次核试验", "<!--<img src='scimages/only.gif' border='0' margin='0' style='margin-top:0px;vertical-align:middle;'>-->", "http://www.ftchinese.com/sc/story.jsp?id=001007373&pos=0&loc=SECTION", "5px", "5px", "dgray", "BulletDGreySubtitle"));
    </script>
    复制内容到剪贴板
    代码:
    http://www.ftchinese.com/sc/story.jsp?id=001007373&pos=0&loc=SECTION
    这段代码2.0是无法自动识别的。
    <br>
    实际上,小蜜蜂也只能识别一半,因为结果是,链接和标题的位置错误。我JS。

    实际应用的时候我同时需要将
    复制内容到剪贴板
    代码:
    http://www.ftchinese.com/sc/story.jsp?id=001007373&pos=0&loc=SECTION
    置换成
    复制内容到剪贴板
    代码:
    http://www.ftchinese.com/sc/story.jsp?id=001007373
    这里
    复制内容到剪贴板
    代码:
    &pos=0
    中的0是变量,变量范围n,n为自然数。
    现有的采集模块这个变量不管火车还是小蜜蜂都是无法实现的。


实际应用中,我使用小蜜蜂比火车多。小蜜蜂有几个亮点:

<br/>
<br/>
1 链接数据保持的比较好,这对所有的站长都是有帮助的。实际应用中,对链接重复发送是很忌讳的。所以,我真的很希望火车在这方面有一定的改进。
<br/>
<br/>
2 模拟浏览器发送数据,避免了COOKIES的影响。
<br/>
<br/>
3 相对比较稳定。
<br/>
<br/>
4 发布前,用户可以事先浏览到全部数据,清理无效数据、重复链接,改进规则。
<br/>
<br/>
火车好坐,规则难写。当然强大的软件支持也是必要的。蛮希望2.0能给大家一个惊喜。相对来说,火车更富有灵活性,更有应用前景。
<br/>
<br/>
采集事件挺有趣的事情,有兴趣的朋友不妨与我一同交流,我的联系方式是

<a href="http://www.ccfer.org/">www.ccfer.org</a>,很高兴认识大家!
<br/>
<br/>

[ 本帖最后由 onlyzzz 于 2006-10-19 08:09 编辑 ]

TOP

回复 #1 onlyzzz 的帖子



火车2。0在碰到&时会截取后面的参数,如果变量不是模块中所有的就会出错。
1。21就不会出现这种情况

TOP

到现在都还没成功发布一个:'(

TOP

我遇到的是重复采集问题......

TOP

有这么多人的期待,2.0正式版怎么都该好好做一下,大家期待,11.1左右<br>
顺便说一下,js的问题已得到解决

TOP

努力学习中!

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.260018 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-9-5 22:43 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档