找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4652|回复: 8

火车头用户兼一个程序员的建议

[复制链接]
发表于 2006-12-13 00:45:00 | 显示全部楼层 |阅读模式
看到第三版的火车头我很心痛。虽然功能越来越多,但是内存暴增,采集遗漏的问题非常突出。作为一个程序员,我实在忍受不了自己动手用delphi做了旅游市场的采集。


采集一定要分步骤。
第一步,目标采集网址最终内容页地址数组的生成。这点火车头做的很好没说的。
第二步。先把目标页下载下来,保存在本地硬盘上,拜托别和我说远程采集,服务器会断网,你自己拨号也会断,在网上什么事情都会发生。老老实实的保存到本地硬盘来吧。别说内存读取,都是没用的,保存到本地看得到的才是最重要的,今天这个数据网上会有,明天就会没得了。

火车头每次只能读取3000-5000内容页问题出在这里,得先保存到硬盘!!!别再一边读一边写数据库了。事实证明会出错。

第三步才是本地读取内容页把重要数据分离出来保存为数据库。
第四步发布到远程数据库上。这点火车头做的很好没说的。

错误就在互联网是不可预测的 一切得先下载下来才是正确之路。

我自己编就是用delphi编一个读取本地文件数据分离的程序。我文件下载用 offline explorer搞定了。offline explorer可以利用ie的cookie登录。 登录问题解决。

我的目的是不能少一篇文章。现在的火车头太不稳定。按照我的方法60000的数据没有出错过

参考意见。 可以当放屁。

希望作者能参考我的意见。
发表于 2006-12-13 13:28:26 | 显示全部楼层
建议不错,支持楼主!
发表于 2006-12-13 16:17:51 | 显示全部楼层
我不懂你们这专业,但我知道火车的发布页 有个选项可选择保存到本地数据库的哦
发表于 2006-12-13 17:59:20 | 显示全部楼层
呵呵………………火车在慢慢完善,有个过程!
发表于 2006-12-13 23:37:21 | 显示全部楼层
原帖由 ajim 于 2006-12-13 00:45 发表
看到第三版的火车头我很心痛。虽然功能越来越多,但是内存暴增,采集遗漏的问题非常突出。作为一个程序员,我实在忍受不了自己动手用delphi做了旅游市场的采集。


采集一定要分步骤。
第一步,目标采集网 ...


没错,OE很好用
 楼主| 发表于 2006-12-14 00:41:40 | 显示全部楼层

听到这话我就知道netdream一点不懂编程

听到这话我就知道netdream一点不懂编程.没话说了
发表于 2006-12-14 09:48:58 | 显示全部楼层
嗯 :$ ,向各位学习啦!
发表于 2006-12-14 12:08:54 | 显示全部楼层
不断进步!不懂不要紧,大家都是从不懂到懂的哦!支持火车头!
发表于 2006-12-14 12:17:49 | 显示全部楼层
呵呵, 谢谢鼓励!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表