查看完整版本: 3.2开发进程及用户功能提交专用帖

火车头 2007-4-30 18:19

3.2开发进程及用户功能提交专用帖

[b]3.2测试版8.28日已在小范围进行内部测试[/b]

[b]09-04已修复 bug列表[/b]

更新:
已解决
全局配置的最多运行的任务始终要多出一个运行的情况 完成√
查看源码工具独立出来运行可以在定义标签的时候自由复制代码 完成√
添加排除替换时无法添加换行,已修改去掉回车自动确认了 完成√
每替换一条内容多出一个换行 完成√
完善添加子目录时出现的bug  完成√
404 和 其他的下载文件bug 完成√
得到真实地址前需要判断一下 有的可以直接返回 完成√
下载过程中出现错误的文件 加入到数据库 可以重新下载未成功下载的文件  完成√
全局配置可以忽略大小写问题   完成√
发布时urlencode选择不起作用的问题    完成√
修正了自动关键词和自动摘要标签混合的问题   完成√
全局定义里用户客户端定义,发布成功标志 完成√
保存为txt使用标题名  完成√
代理问题 完成√
模块内没有[分类ID] 在保存配置时又必填分类ID的bug  完成√
全局设置里面的默认选项还未完成  完成√
保存为txt时去掉html代码的全局选项  完成√
保存为txt时去掉html代码  完成√
不能导出带有采集多页的站点任务规则  完成√

09-06日

本地自定义系统时间滞后8小时的问题   完成√
[b]在采集过程中直接关闭任务出错的问题[/b]   完成√
提示框大于5000行后清空   完成√
[b][标签:XXX]直接在提交网址后面已参数的形式不传递的问题[/b]   完成√
[b]加发布内容和采集内容线程数[/b]  完成√
修正[采集页地址]替换为标题的bug   完成√



[b](由于个人原因,3.2的开发一度中断一段时间,为保证功能,开发时间和稳定性,大致发布时间定在8月,希望大家见谅  --火车头 06-21)
[/b]之前抽出时间开始了V3.2的开发,3.2准备加入和改进的功能自己简单做了一个列表如下,希望大家帮忙看看,共同完善好V3.2
又是一次对以前工作的否定,3.2完全抛弃使用DevExpress,不再追求华丽的界面和一些不太实用的功能,回归1.X的界面和速度,并将稳定性提高一个新的层次

本次加入的 同时采集多页,分页自定义,用post方式获取列表,同时发布到多网站,采集网址,采集内容和发布内容完全分开
改进:内存回收机制,修复文件下载,对vista的支持,改进模块加入多用户发布支持,对有些网站做了user-agent限制无法登录的网站的采集

考虑加入一个注册成服务的单独小程序,读取任务后直接后台运行,系统架构已完成,完成了部分代码,以后开发进度直接在此列出,系统大家有什么好的建议直接提出

guowt 2007-4-30 18:40

时间的采集上能不能多些功能
主要就是:可以组合 系统的年月日和时间,中间可以自定义连接方式

这个在joekoe cms4中遇到过问题:

在文章采集时候选用了系统时间,虽然和cms文章发表之后的格式相同,但是总是无法入库,查找之后发现是时间采集的问题,最后改成几个时间采集组合到一起的标签统一后入库,比较麻烦,能不能,将系统获取的时间,按照一定的格式让用户组合起来采集?

火车头 2007-4-30 18:44

[quote]原帖由 [i]guowt[/i] 于 2007-4-30 18:40 发表
时间的采集上能不能多些功能
主要就是:可以组合 系统的年月日和时间,中间可以自定义连接方式

这个在joekoe cms4中遇到过问题:

在文章采集时候选用了系统时间,虽然和cms文章发表之后的格式相同,但是 ... [/quote]


时间标签的确有这个问题,几个时间采集组合到一起的标签统一后入库,也在考虑改进,不知道你有没有什么很好的想法没,设计什么样的用户界面给用户操作?

guowt 2007-4-30 18:59

可以在时间采集的自定义格式中加一个选项

把系统时间分成几个标签(这个在3.1版本中的系统时间中就有划分,不过希望可以多一些),比如 :分成 单个 年,月,日,时,分,秒,最好再能有些现成的组合,比如按照常用的组合年月日(可以有几种)和时分秒。

界面的格式,我比较喜欢采集模块中编辑用的标签,一点就可以输入到编辑框

具体怎么个界面,带回做个图发上来

guowt 2007-4-30 19:05

图片做的不好,嘿嘿,见谅!

guowt 2007-4-30 19:11

还有一点就是在web入库的时候,获取网站cookie的时候,能不能在输入网站地址和设置登录名密码登陆之后直接获取,不要再打开一次内置浏览器登陆获取!

呵呵 ,技术方面不懂,不知道可以这么简单点实现不?
还有就是用session 的网站好像老是获取的不准确,每次都要用抓包软件获取,并且人工修改下才可以(我主要用于对joekoe cms4网站的数据采集入库,不知道其他的有没有这样的问题)

pestxo 2007-4-30 20:04

导库,下载论坛附件,图片,希望在完善,并不一定要新版新功能。原有的功能全部完善了已经足够用了。。。

learry 2007-4-30 22:03

还是1.X版本简洁,看起来舒服点啊

simin_61 2007-4-30 22:04

希望能先采集到本地,再按需要再发布!
:lol

[[i] 本帖最后由 simin_61 于 2007-4-30 22:07 编辑 [/i]]

垃圾狗 2007-4-30 22:19

能不能把html标签排除改成标签保留,当然两个都有就更好了。标签书写大多不太规范,大写小写,有多余空格等等。用过小蜜蜂采集,它就是标签保留,比较好用。

play528 2007-4-30 23:06

3.x标签清除都是前后对应的 比如<td></td>,如果只有</td>就不清除了。这点比较奇怪。
还有希望在定义排出或替换规则时加入忽略大小写的功能

feezai 2007-4-30 23:38

希望能考虑以下功能:
1. 规则里面加入取消所有html标记的功能,比如采集某些摘要字段时很有用
2. 现在一次只能发布一个分类,如果能在发布前设定好分类的对应关系,就可以一次设定好,整站抓取了。

xjdata 2007-5-1 01:13

在采集入库一些 asp。呢的  程序的时候。 基本不能完成顺利入库功能。

因为很多  asp。net的程序 生成的id是32位的。 例如 aq4234-145r2q-q254354.
此类。 不知道火车有什么方式没有。

另外 感谢火车 这么好的软件

heidian 2007-5-1 08:46

采集和发布分开进行就是最大最期待的改进了。期待期待……

helps 2007-5-1 20:18

明确目标,想好什么是重点,
也就是大部分人所需要的功能,不要远离了群众
不要因为为了做得大而全,而得不偿失
只要能满足大部分人需求就是成功的产品,任何产品都不可能100%满足所有人需求

1.21为什么经典现在还有一堆人用就是因为:比其它版本稳定,BUG少,主要的采集功能已具备

其实,只要1.21加上3.1的Sql直接入库的功能就是一个新的成功产品了

一部分功能只少数特殊人群使用,可以开发成插件形式进行收费。
做好主要的功能,就可以发布了。

sharpboy 2007-5-2 12:57

代码区分大小写是否可以增加一个选项,
比如区分大小写 和不区分大小写.默认不区分就可以了.有个切换按钮就ok.
现在标题默认都是小写的title 有些是大写的就需要重写.

土鱼 2007-5-2 13:02

先占个位

mmqun 2007-5-2 14:29

界面简化,速度优化

这个是最主要的了

skyson 2007-5-2 22:35

希望能够解决循环标签分开
[url]http://bbs.locoy.com/viewthread.php?tid=7724&highlight=xml[/url]

solai 2007-5-2 22:42

分板块分别发贴或者可以有储存功能,把采集的一个类别对应到一个板块纪录下来
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: 3.2开发进程及用户功能提交专用帖
售前客服QQ: 火车采集器客服 rq204, 火车采集器客服 飞越无限火车采集器客服 孤魂火车采集器客服 尘缘, 联系电话:0551-3495249(技术合作问题) 023-58436018 (08:00-20:00-客服),0752-2553545(09:00-20:00-客服)