|
|
在接触和使用火车头的这段时间,学习到了不少东西,但同时也发现了火车头一些不足的地方.希望2008版能解决以下几个问题
1.火车头本地数据库存储建议增加 sqlite 数据库 模式 (这和access一样不需要服务器的额外支持,而性能却是 access 的10倍,和mysql相当),这样可大大缓解大数据量时的速度瓶颈.ACC数据库在使用小数据量时还可以凑活,稍微多点感觉就不济了.虽然现在可以通过建立多任务来缓解,但毕竟不是长久之计.强大的火车头内核同样需要一个强健的数据库支持,所以急切希望新版可支持!
2. 目前的SP5 在采集分页时,多标签存在问题.只有 [内容] 标签可以采到分页内容.. 除 [内容] 以外,新建的任何 标签名 的标签,都采不到分页内容!! 希望新版可以让其他标签也能循环采集到内容.
3. 如果需要采集一个大栏目下的全部二级栏目的分页列表时,采集地址的添加就显得比较麻烦了,需要每一个二级栏目都指定批量或正则才行.这些二级栏目往往非常多,但结构都是一样的.虽然通过导出再导入可以获得一部分地址,但遇到有的二级栏目下的列表有上百个分页时,这意味着需要导出导入几十次才可以获得全部列表.所以希望能只通过设置一到两个地址采集规则就能通用所有二级栏目下的列表采集.
4. 希望能加强对一些用了JS进行分页及内容(图片)输出的目标站采集自定义功能.
暂时在应用中就发现这几个问题,希望火车头能在新版中采纳,还有什么建议大家继续补充,一起来完善火车头.
[ 本帖最后由 sesxc 于 2008-4-12 10:45 编辑 ] |
评分
-
2
查看全部评分
-
|