个人建议
火车头用了不长时间,但经过几个版本的使用,觉得占用内存的问题一直困绕着大家,为什么像新云这些在线的采集,反而可以用得还可以呢,我以自己的见角,提出一些修改的意见,希望大家各出其策,让火车头做得更好;1、我想采集的方式,都是用XML组件远程抓取,或者.net的,有更好的方式,不过不管怎样,减少主机资源是最重要的;
我理想的采集工具:
1、文字、图片、动画等媒体本地下载改名另存;(现在已经有这功能,但要增强);
2、对各种系统登录后获取cookie的问题如果可以,希望有朋友可以把各个版本的程序,去掉身份验证的,直接可以把数据传过去就保存到数据库,免得在cookie登录那里把很多人都吓跑了;
这两个是初用者最关心的;
接着就是人性化的问题,做采集的,都想一点,就可以把别人的站采得一干二净,哈哈!
在采集深度那里,能不能再深两到三层,可以减少N多的网址采集过程浪费的时间;
通过正则替换的方式,方便转为分类;不过我觉得现在的软件一个个设,很麻烦,既然有规则,就直接让人用文本一次设定就好用呀!我现在的解决办法,是打开数据库来搞,也是办法,哈哈
还有很多我想写的,可是又一时思路不清楚
还有,减轻内存占用,通过XML抓取,每次之后,马上释放一下行不行,还有同时下载的,能不能把探测到真实路径,存到数据库,然后用讯雷等软件下载,快的说呢,哈哈
还有。。。。
我看看大家的意见,再说。。。。
哈哈!!!
内存占用3.2重点解决了
页:
[1]