火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4384|回复: 4

数据库字段设置问题

[复制链接]
发表于 2010-12-14 10:44:38 | 显示全部楼层 |阅读模式
昨天建了一条任务测试一下locoyspder,数据库改为MySQL,现发现以下问题,望改正及参考。

1、数据库字段是根据标签名称定义的,也就是标签名是中文,数据库字段名也是中文。能否在新增标签时增加自行更改数据库字段及类型长度的选项,这样有助于提高数据库的性能和效率。

2、在标签的自定义固定格式的数据中,我选择了系统时间(格式:系统时间戳 unix_timestamp()),正常来说这个字段类型使用int(10),但查看了数据库发现是mediumtext类型,所以能否自动判断选择了什么类型的数据就自动设置字段类型或手工让用户自己选择,而不是统一使用mediumtext。当数据量大的时候,统一使用mediumtext的话性能会大打折扣。

3、执行任务时,因为locoyspider一开始是采集网址,而表结构却是这样的,
CREATE TABLE `data_content_7` (
   `ID` int(10) NOT NULL AUTO_INCREMENT,
   `已采` tinyint(1) DEFAULT '0',
   `已发` tinyint(1) DEFAULT '0',
   `户型` varchar(333) CHARACTER SET utf8 DEFAULT NULL,
   `详细信息` mediumtext CHARACTER SET utf8 NOT NULL,
   `电 话` mediumtext CHARACTER SET utf8 NOT NULL,
   `标题` mediumtext CHARACTER SET utf8 NOT NULL,
   `面积` mediumtext CHARACTER SET utf8 NOT NULL,
   `缩略图` varchar(1000) CHARACTER SET utf8 NOT NULL,
   `PageUrl` varchar(1000) CHARACTER SET utf8 NOT NULL,
   PRIMARY KEY (`ID`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1
因为采集网址时只插入PageUrl,而其他非空的字段没有默认值,这时就会导致写入采集网址数据出错。

3、新建数据库及表时,希望将字符集更改为utf8,而不是现在的latin1。

4、locoyspider 插入更新数据时SQL不知道有没有使用参数,有没有使用事务?

谢谢!
发表于 2010-12-14 12:34:16 | 显示全部楼层
1.目前采集器所使用的所有的数据库的保存方式均是如此,是使用标签名做字段名的,如果要使用英文的话,就需要字段也使用英文命名.
2.一般来说,程序很难确定用户采集的数据的长度,所以按最大的数据类型来保存.如果需要修改,目前只能直接操作数据库.
3.目前的保存和读取均是使用的utf-8,可能是创建表时没有指定编码.这块需要改进,但无多大影响.
4.没有使用事务.

感谢您的咨询.对于数据库方面,我们也在考虑使用文档数据库解决方案.目前的数据库可以满足一般应用,但在高并发或海量数据方面还需要改进.
发表于 2011-5-17 16:50:17 | 显示全部楼层
回复 2# rq204

请问  我把火车头生成的表单里默认生成的ID的主键去掉,换成别的字段名为主键,ID还是自增列
只能采集到一条数据,   是不是火车头不支持修改本地数据库的主键????
发表于 2011-5-17 17:22:02 | 显示全部楼层
回复 4# jinbeidu

采集器本身的必须数据库字段不支持修改
发表于 2016-2-8 17:34:27 | 显示全部楼层
爪,以后学习下。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-2 13:39

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表