ajim 发表于 2006-12-13 00:45:00

火车头用户兼一个程序员的建议

看到第三版的火车头我很心痛。虽然功能越来越多,但是内存暴增,采集遗漏的问题非常突出。作为一个程序员,我实在忍受不了自己动手用delphi做了旅游市场的采集。


采集一定要分步骤。
第一步,目标采集网址最终内容页地址数组的生成。这点火车头做的很好没说的。
第二步。先把目标页下载下来,保存在本地硬盘上,拜托别和我说远程采集,服务器会断网,你自己拨号也会断,在网上什么事情都会发生。老老实实的保存到本地硬盘来吧。别说内存读取,都是没用的,保存到本地看得到的才是最重要的,今天这个数据网上会有,明天就会没得了。

火车头每次只能读取3000-5000内容页问题出在这里,得先保存到硬盘!!!别再一边读一边写数据库了。事实证明会出错。

第三步才是本地读取内容页把重要数据分离出来保存为数据库。
第四步发布到远程数据库上。这点火车头做的很好没说的。

错误就在互联网是不可预测的 一切得先下载下来才是正确之路。

我自己编就是用delphi编一个读取本地文件数据分离的程序。我文件下载用 offline explorer搞定了。offline explorer可以利用ie的cookie登录。 登录问题解决。

我的目的是不能少一篇文章。现在的火车头太不稳定。按照我的方法60000的数据没有出错过

参考意见。 可以当放屁。

希望作者能参考我的意见。

whoamixp 发表于 2006-12-13 13:28:26

建议不错,支持楼主!

netdream 发表于 2006-12-13 16:17:51

我不懂你们这专业,但我知道火车的发布页 有个选项可选择保存到本地数据库的哦

xyyfx 发表于 2006-12-13 17:59:20

呵呵………………火车在慢慢完善,有个过程!

superkan 发表于 2006-12-13 23:37:21

原帖由 ajim 于 2006-12-13 00:45 发表
看到第三版的火车头我很心痛。虽然功能越来越多,但是内存暴增,采集遗漏的问题非常突出。作为一个程序员,我实在忍受不了自己动手用delphi做了旅游市场的采集。


采集一定要分步骤。
第一步,目标采集网 ...

没错,OE很好用

ajim 发表于 2006-12-14 00:41:40

听到这话我就知道netdream一点不懂编程

听到这话我就知道netdream一点不懂编程.没话说了

netdream 发表于 2006-12-14 09:48:58

嗯 :$ ,向各位学习啦!

xyyfx 发表于 2006-12-14 12:08:54

不断进步!不懂不要紧,大家都是从不懂到懂的哦!支持火车头!

netdream 发表于 2006-12-14 12:17:49

呵呵,:lol 谢谢鼓励!
页: [1]
查看完整版本: 火车头用户兼一个程序员的建议