发新话题
打印

[3.2版] 给火车头未来2008版的建议!

给火车头未来2008版的建议!

在接触和使用火车头的这段时间,学习到了不少东西,但同时也发现了火车头一些不足的地方.希望2008版能解决以下几个问题

1.火车头本地数据库存储建议增加 sqlite 数据库 模式 (这和access一样不需要服务器的额外支持,而性能却是 access 的10倍,和mysql相当),这样可大大缓解大数据量时的速度瓶颈.ACC数据库在使用小数据量时还可以凑活,稍微多点感觉就不济了.虽然现在可以通过建立多任务来缓解,但毕竟不是长久之计.强大的火车头内核同样需要一个强健的数据库支持,所以急切希望新版可支持!

2. 目前的SP5 在采集分页时,多标签存在问题.只有 [内容] 标签可以采到分页内容..  除 [内容] 以外,新建的任何 标签名 的标签,都采不到分页内容!! 希望新版可以让其他标签也能循环采集到内容.

3. 如果需要采集一个大栏目下的全部二级栏目的分页列表时,采集地址的添加就显得比较麻烦了,需要每一个二级栏目都指定批量或正则才行.这些二级栏目往往非常多,但结构都是一样的.虽然通过导出再导入可以获得一部分地址,但遇到有的二级栏目下的列表有上百个分页时,这意味着需要导出导入几十次才可以获得全部列表.所以希望能只通过设置一到两个地址采集规则就能通用所有二级栏目下的列表采集.

4. 希望能加强对一些用了JS进行分页及内容(图片)输出的目标站采集自定义功能.

暂时在应用中就发现这几个问题,希望火车头能在新版中采纳,还有什么建议大家继续补充,一起来完善火车头.

[ 本帖最后由 sesxc 于 2008-4-12 10:45 编辑 ]
本帖最近评分记录
  • 火车头 火车车厢 +10 已部分采纳 2008-4-13 07:56
  • 沦陷今生 活跃度 +10 我很赞同,中肯的建议. 2008-4-12 10:21
  • 沦陷今生 火车车厢 +3 我很赞同,中肯的建议. 2008-4-12 10:21

TOP

第一个问题现在很多会员都反映呢?我用了几个月火车也感觉到了。
第二个问题,虽然我不了解火车的运行流程,但可以通过设置多页采集来解决这个问题。
第三个问题,是否用过2级目录采集列表呢?
第四,所方及是。

TOP

严重支持第一个提议。

TOP

234不错
我很色的IT社区
苑华皮具网店
删除悲伤情感
爱你99爱情
免费帮人做规则,要求在他网站上加个链接!

TOP

谢谢您的建议,火车头2008版已经在开发,您的部分建议我们也已经考虑到了

1。火车2008版已经开始支持sqlite数据库,据测试,是普通acc性能的10倍左右,开启了事务后性能甚至可达到100倍~~
2。多页和分页不能同时采集的问题会考虑解决
3、暂时还没好的办法
4、考虑支持

TOP

引用:
原帖由 火车头 于 2008-4-13 07:55 发表
谢谢您的建议,火车头2008版已经在开发,您的部分建议我们也已经考虑到了

1。火车2008版已经开始支持sqlite数据库,据测试,是普通acc性能的10倍左右,开启了事务后性能甚至可达到100倍~~
2。多页和分页不能同时 ...
呵呵,期待新版火车更上一层楼 ,另外能顺便透露下新版啥时候推出么?

TOP

1。火车2008版已经开始支持sqlite数据库,据测试,是普通acc性能的10倍左右,开启了事务后性能甚至可达到100倍~~


以前给老大你提过...嘿嘿,记得不
火车采集器系列教程第二期,陆续发布中。
已休息仨月,现对外接单,火车商业版、采集规则、发布模块、程序接口等.QQ:130775

搜狗图片采集程序出售美眉小说
四维空间
百部小说

TOP

晕~~LZ够牛的!俺兄弟??

TOP

sqlite的确是不错,不过它的缺点是好像目前国内虚拟主机商一般将它应用于UNIX服务器上,不能用于WINDOWS服务器上,虽然它支持WINDOWS。当然由于采集到本地,不是直接将数据库上传,所以不需要考虑这个的。

[ 本帖最后由 sushy 于 2008-4-25 18:02 编辑 ]

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.222370 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-7-26 01:55 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档 - WAP