madact 发表于 2007-3-1 16:57:14

折腾了18小时的火车头3.01 反馈一下

可能有不对的地方,希望大家多多指教。

非常好用,但是也非常不稳定。

1:CPU占用高我倒是没注意,但是在“测试”采集内容的时候经常假死,至少40%的时候没有响应。

      有一次甚至连“更新”按钮就没了,没法保存了...

2:新建的站点不能选择编码,只能在站点下新建任务来选择编码,这样新建站点时的“内容规则”形同虚设,全是乱码。

3:“标签编辑框”中设置了正规则顾虑代码,有时在上级菜单即“编辑任务”的内容排除一栏中看不到,不是的是否有用。

4:新建任务时,多次遇到初始的默认标签重复2-3次(即新建任务时默认的“标题”“内容”作者”等)

5:好像相同代码,大小写不同会认为是不同代码。

6:建议在排除中加入“注释“,当排除内容较多时,仅靠排除代码根本不能可能知道排除了什么。自己都搞混了。

7:希望增加这个功能:本次采集失败的URL是否在下次采集时重新采集;重新采集N次后如还失效再删除
      因为遇到过有些网站是先生成列表,最后在生成内容页。

8:期待3.1赶快出来,不能采集图片实在...................

9:还遇到过发帖的内容不全,和采集的不一样,采集测试时的大量内容都不能发到DZ5上,不知道是什么问题。

10:偶尔遇到没设过滤规程时,采集不到HTML代码。

11: HTML标签排除的过滤javaseript代码功能有待加强,经常是是过滤了 <javascript>和</javascript>,中间的代码还在

12:采集地址批量/多页好像有问题
       例如:http://www.abc.com/150.html
                   http://www.abc.com/300.html
                   http://www.abc.com/450.html
       设置成:http://www.abc.com/<150,450,150,false.false>.html 时生成的网址居然是
               http://www.abc.com/22500.html
               http://www.abc.com/22650.html(以后150步长类推,无穷......)

       前面的 22 怎么来的? 为什么不是 150.html开始呢?为什么不再450.html停止?

13:建议增加任务的”克隆“功能,这样如果不定义站点规则也可以方便的增加任务。(任务复制黏贴不好用)

14:在站点下新建任务时,建议增加”是否从站点继承规则“。

[ 本帖最后由 madact 于 2007-3-1 17:06 编辑 ]
页: [1]
查看完整版本: 折腾了18小时的火车头3.01 反馈一下