折腾了18小时的火车头3.01 反馈一下
可能有不对的地方,希望大家多多指教。非常好用,但是也非常不稳定。
1:CPU占用高我倒是没注意,但是在“测试”采集内容的时候经常假死,至少40%的时候没有响应。
有一次甚至连“更新”按钮就没了,没法保存了...
2:新建的站点不能选择编码,只能在站点下新建任务来选择编码,这样新建站点时的“内容规则”形同虚设,全是乱码。
3:“标签编辑框”中设置了正规则顾虑代码,有时在上级菜单即“编辑任务”的内容排除一栏中看不到,不是的是否有用。
4:新建任务时,多次遇到初始的默认标签重复2-3次(即新建任务时默认的“标题”“内容”作者”等)
5:好像相同代码,大小写不同会认为是不同代码。
6:建议在排除中加入“注释“,当排除内容较多时,仅靠排除代码根本不能可能知道排除了什么。自己都搞混了。
7:希望增加这个功能:本次采集失败的URL是否在下次采集时重新采集;重新采集N次后如还失效再删除
因为遇到过有些网站是先生成列表,最后在生成内容页。
8:期待3.1赶快出来,不能采集图片实在...................
9:还遇到过发帖的内容不全,和采集的不一样,采集测试时的大量内容都不能发到DZ5上,不知道是什么问题。
10:偶尔遇到没设过滤规程时,采集不到HTML代码。
11: HTML标签排除的过滤javaseript代码功能有待加强,经常是是过滤了 <javascript>和</javascript>,中间的代码还在
12:采集地址批量/多页好像有问题
例如:http://www.abc.com/150.html
http://www.abc.com/300.html
http://www.abc.com/450.html
设置成:http://www.abc.com/<150,450,150,false.false>.html 时生成的网址居然是
http://www.abc.com/22500.html
http://www.abc.com/22650.html(以后150步长类推,无穷......)
前面的 22 怎么来的? 为什么不是 150.html开始呢?为什么不再450.html停止?
13:建议增加任务的”克隆“功能,这样如果不定义站点规则也可以方便的增加任务。(任务复制黏贴不好用)
14:在站点下新建任务时,建议增加”是否从站点继承规则“。
[ 本帖最后由 madact 于 2007-3-1 17:06 编辑 ]
页:
[1]