|
火车采集器2010版经过开发人员的努力和测试会员的测试工作,已经基本完成了所有的开发目标(还有两个项目待优化)和修复了以前版本所知的bug.现在发布的公试版用户可以直接使用(建议不要将原有的任务全部转过来,因为还未发布升级程序,正式版发布后请将该版本的数据转移到正式版中).
在3.16日23:40后下载的新的版本,如果需要将旧的2010版的数据复制到新的2010测试版中,需要手工修改以下一个字段.
在user/config.mdb 表 Webpost里,将DistinctEncode类型改成文本.对于字段原来的数字,需要做如下修改
如 0 就是web发布配置编码列表中里的第一个编码 gb2312.1是utf-8,如此对应.或是您打开所以的发布配置,重新选择一下编码再保存即可.
该测试版本已停止下载,请下载最新版.
★★更新列表★★
添加的功能:
1.丰富的插件功能:新版中PHP插件和C#插件可以在采网址时,采内容时,采完内容后使用插件,而不限是什么插件.同时对对插件开发提供了更加详细的开发手册,可以方便用户实现自己的特殊要求.
2.任务运行日志:程序将对运行的日志进行保存,方便用户在自动更新时查看采集器的工作情况.
3.更多的数据保存方式.程序可以将数据保存在access,sqlite,mssql,mysql,oracle数据库中,更快的速度,更方便的管理.
4.更方便的升级及.程序对文件目录格式进行了重新设置,用户如果不使用升级程序,只需要复制几个文件夹就可以经松完成升级.
5.支持可选的加密狗授权方式.
6.命令行模式.可以使用参数启动程序执行任务.可以通过计划任务的来实验定时采集,在采集结束后退出程序
7.中文分词增加用户词库,可以添加用户排除的词库.可以只使用用户词库.
8.本地采集数据管理里加入了图片预览功能.
9.标签可以上下进行排序.生成CSV时,就按该排序生成csv文件.测试时,返回的结果也以标签的排序进行显示.
10.图片和flash下载排除功能.对于符合条件的文件不进行下载.
11.文件上传标签里可以针对多个标签进行文件上传.
12.采网址部分在使用2级网址时可以设置列表页包含区域。
13.循环采集时可以使用提取关键字,摘要等功能。
14.列表标签可以进行编辑,如排除和过滤,下载等。
优化的项目:
1.任务列表树加载速度提高.
2.系统配置即时更新,不需要手工重新加载配置.
3.采集数据不符合要求过滤掉后不会再下载图片和其它文件.
4.PHP插件处理数据不限数据大小.
5.支持64位操作系统.
6.数据库发布模块支持八条以上的语句
7.自动分词增加了一倍的词库,加载词库只需1,2秒.
8.商业版授权方式,如硬件小的更改不会提示已更换电脑,仍可继续使用.
9.采网址采内容时可以暂停,程序将保存原来的采集状态.
10.列表页不使用自定义网址也可以配置提取内容中第一张图片为缩略图.
修复的Bug:
1.有时双击列表无反应的bug.
2.保存特殊cookie时失败的bug.
3.无法处理韩文的Bug.
4.不添加新发布配置法删除原任务中发布配置的bug.
5.部分情况下程序直接退出的bug.
6.图片地址中出现&字符无法下载图片的bug.
7.部分文本编辑框中粘贴后光标位置错误的bug.
8,其它已知BUG。 |
|