火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 129936|回复: 310

3.2开发进程及用户功能提交专用帖

 关闭 [复制链接]
发表于 2007-4-30 18:19:31 | 显示全部楼层 |阅读模式
3.2测试版8.28日已在小范围进行内部测试

09-04已修复 bug列表

更新:
已解决
全局配置的最多运行的任务始终要多出一个运行的情况 完成√
查看源码工具独立出来运行可以在定义标签的时候自由复制代码 完成√
添加排除替换时无法添加换行,已修改去掉回车自动确认了 完成√
每替换一条内容多出一个换行 完成√
完善添加子目录时出现的bug  完成√
404 和 其他的下载文件bug 完成√
得到真实地址前需要判断一下 有的可以直接返回 完成√
下载过程中出现错误的文件 加入到数据库 可以重新下载未成功下载的文件  完成√
全局配置可以忽略大小写问题   完成√
发布时urlencode选择不起作用的问题    完成√
修正了自动关键词和自动摘要标签混合的问题   完成√
全局定义里用户客户端定义,发布成功标志 完成√
保存为txt使用标题名  完成√
代理问题 完成√
模块内没有[分类ID] 在保存配置时又必填分类ID的bug  完成√
全局设置里面的默认选项还未完成  完成√
保存为txt时去掉html代码的全局选项  完成√
保存为txt时去掉html代码  完成√
不能导出带有采集多页的站点任务规则  完成√

09-06日

本地自定义系统时间滞后8小时的问题   完成√
在采集过程中直接关闭任务出错的问题   完成√
提示框大于5000行后清空   完成√
[标签:XXX]直接在提交网址后面已参数的形式不传递的问题   完成√
加发布内容和采集内容线程数  完成√
修正[采集页地址]替换为标题的bug   完成√



(由于个人原因,3.2的开发一度中断一段时间,为保证功能,开发时间和稳定性,大致发布时间定在8月,希望大家见谅  --火车头 06-21)
之前抽出时间开始了V3.2的开发,3.2准备加入和改进的功能自己简单做了一个列表如下,希望大家帮忙看看,共同完善好V3.2
又是一次对以前工作的否定,3.2完全抛弃使用DevExpress,不再追求华丽的界面和一些不太实用的功能,回归1.X的界面和速度,并将稳定性提高一个新的层次

本次加入的 同时采集多页,分页自定义,用post方式获取列表,同时发布到多网站,采集网址,采集内容和发布内容完全分开
改进:内存回收机制,修复文件下载,对vista的支持,改进模块加入多用户发布支持,对有些网站做了user-agent限制无法登录的网站的采集

考虑加入一个注册成服务的单独小程序,读取任务后直接后台运行,系统架构已完成,完成了部分代码,以后开发进度直接在此列出,系统大家有什么好的建议直接提出

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2007-4-30 18:40:43 | 显示全部楼层
时间的采集上能不能多些功能
主要就是:可以组合 系统的年月日和时间,中间可以自定义连接方式

这个在joekoe cms4中遇到过问题:

在文章采集时候选用了系统时间,虽然和cms文章发表之后的格式相同,但是总是无法入库,查找之后发现是时间采集的问题,最后改成几个时间采集组合到一起的标签统一后入库,比较麻烦,能不能,将系统获取的时间,按照一定的格式让用户组合起来采集?
 楼主| 发表于 2007-4-30 18:44:20 | 显示全部楼层
原帖由 guowt 于 2007-4-30 18:40 发表
时间的采集上能不能多些功能
主要就是:可以组合 系统的年月日和时间,中间可以自定义连接方式

这个在joekoe cms4中遇到过问题:

在文章采集时候选用了系统时间,虽然和cms文章发表之后的格式相同,但是 ...



时间标签的确有这个问题,几个时间采集组合到一起的标签统一后入库,也在考虑改进,不知道你有没有什么很好的想法没,设计什么样的用户界面给用户操作?
发表于 2007-4-30 18:59:35 | 显示全部楼层
可以在时间采集的自定义格式中加一个选项

把系统时间分成几个标签(这个在3.1版本中的系统时间中就有划分,不过希望可以多一些),比如 :分成 单个 年,月,日,时,分,秒,最好再能有些现成的组合,比如按照常用的组合年月日(可以有几种)和时分秒。

界面的格式,我比较喜欢采集模块中编辑用的标签,一点就可以输入到编辑框

具体怎么个界面,带回做个图发上来
发表于 2007-4-30 19:05:03 | 显示全部楼层
图片做的不好,嘿嘿,见谅!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2007-4-30 19:11:14 | 显示全部楼层
还有一点就是在web入库的时候,获取网站cookie的时候,能不能在输入网站地址和设置登录名密码登陆之后直接获取,不要再打开一次内置浏览器登陆获取!

呵呵 ,技术方面不懂,不知道可以这么简单点实现不?
还有就是用session 的网站好像老是获取的不准确,每次都要用抓包软件获取,并且人工修改下才可以(我主要用于对joekoe cms4网站的数据采集入库,不知道其他的有没有这样的问题)
发表于 2007-4-30 20:04:06 | 显示全部楼层
导库,下载论坛附件,图片,希望在完善,并不一定要新版新功能。原有的功能全部完善了已经足够用了。。。
发表于 2007-4-30 22:03:11 | 显示全部楼层
还是1.X版本简洁,看起来舒服点啊
发表于 2007-4-30 22:04:41 | 显示全部楼层
希望能先采集到本地,再按需要再发布!


[ 本帖最后由 simin_61 于 2007-4-30 22:07 编辑 ]
发表于 2007-4-30 22:19:30 | 显示全部楼层
能不能把html标签排除改成标签保留,当然两个都有就更好了。标签书写大多不太规范,大写小写,有多余空格等等。用过小蜜蜂采集,它就是标签保留,比较好用。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-15 13:57

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表