火车头用户兼一个程序员的建议
看到第三版的火车头我很心痛。虽然功能越来越多,但是内存暴增,采集遗漏的问题非常突出。作为一个程序员,我实在忍受不了自己动手用delphi做了旅游市场的采集。采集一定要分步骤。
第一步,目标采集网址最终内容页地址数组的生成。这点火车头做的很好没说的。
第二步。先把目标页下载下来,保存在本地硬盘上,拜托别和我说远程采集,服务器会断网,你自己拨号也会断,在网上什么事情都会发生。老老实实的保存到本地硬盘来吧。别说内存读取,都是没用的,保存到本地看得到的才是最重要的,今天这个数据网上会有,明天就会没得了。
火车头每次只能读取3000-5000内容页问题出在这里,得先保存到硬盘!!!别再一边读一边写数据库了。事实证明会出错。
第三步才是本地读取内容页把重要数据分离出来保存为数据库。
第四步发布到远程数据库上。这点火车头做的很好没说的。
错误就在互联网是不可预测的 一切得先下载下来才是正确之路。
我自己编就是用delphi编一个读取本地文件数据分离的程序。我文件下载用 offline explorer搞定了。offline explorer可以利用ie的cookie登录。 登录问题解决。
我的目的是不能少一篇文章。现在的火车头太不稳定。按照我的方法60000的数据没有出错过
参考意见。 可以当放屁。
希望作者能参考我的意见。 建议不错,支持楼主! 我不懂你们这专业,但我知道火车的发布页 有个选项可选择保存到本地数据库的哦 呵呵………………火车在慢慢完善,有个过程! 原帖由 ajim 于 2006-12-13 00:45 发表
看到第三版的火车头我很心痛。虽然功能越来越多,但是内存暴增,采集遗漏的问题非常突出。作为一个程序员,我实在忍受不了自己动手用delphi做了旅游市场的采集。
采集一定要分步骤。
第一步,目标采集网 ...
没错,OE很好用
听到这话我就知道netdream一点不懂编程
听到这话我就知道netdream一点不懂编程.没话说了 嗯 :$ ,向各位学习啦! 不断进步!不懂不要紧,大家都是从不懂到懂的哦!支持火车头! 呵呵,:lol 谢谢鼓励!
页:
[1]