折腾了18小时的火车头3.01 反馈一下

madact · 发表于 2007-3-1 16:57:14

可能有不对的地方，希望大家多多指教。

非常好用，但是也非常不稳定。

1：CPU占用高我倒是没注意，但是在“测试”采集内容的时候经常假死，至少40%的时候没有响应。

   有一次甚至连“更新”按钮就没了，没法保存了...

2：新建的站点不能选择编码，只能在站点下新建任务来选择编码，这样新建站点时的“内容规则”形同虚设，全是乱码。

3：“标签编辑框”中设置了正规则顾虑代码，有时在上级菜单即“编辑任务”的内容排除一栏中看不到，不是的是否有用。

4：新建任务时，多次遇到初始的默认标签重复2-3次（即新建任务时默认的“标题”“内容”作者”等）

5：好像相同代码，大小写不同会认为是不同代码。

6：建议在排除中加入“注释“，当排除内容较多时，仅靠排除代码根本不能可能知道排除了什么。自己都搞混了。

7：希望增加这个功能：本次采集失败的URL是否在下次采集时重新采集；重新采集N次后如还失效再删除
   因为遇到过有些网站是先生成列表，最后在生成内容页。

8：期待3.1赶快出来，不能采集图片实在...................

9：还遇到过发帖的内容不全，和采集的不一样，采集测试时的大量内容都不能发到DZ5上，不知道是什么问题。

10：偶尔遇到没设过滤规程时，采集不到HTML代码。

11： HTML标签排除的过滤javaseript代码功能有待加强，经常是是过滤了 <javascript>和</javascript>，中间的代码还在

12：采集地址批量/多页好像有问题
   例如：http://www.abc.com/150.html
               http://www.abc.com/300.html
               http://www.abc.com/450.html
   设置成：http://www.abc.com/<150,450,150,false.false>.html 时生成的网址居然是
               http://www.abc.com/22500.html
               http://www.abc.com/22650.html(以后150步长类推，无穷......)

   前面的 22 怎么来的? 为什么不是 150.html开始呢？为什么不再450.html停止？

13：建议增加任务的”克隆“功能，这样如果不定义站点规则也可以方便的增加任务。（任务复制黏贴不好用）

14：在站点下新建任务时，建议增加”是否从站点继承规则“。

[ 本帖最后由 madact 于 2007-3-1 17:06 编辑 ]

帐号		自动登录	找回密码
密码			加入会员