今晚特意来提交BUG,以及建议火车改进的地方~
本帖最后由 idtown888 于 2009-3-11 05:44 编辑今晚闲来没事,把火车功能全部看了一遍。特意来提交BUG,以及建议火车改进的地方,希望火车越来越强大。
有些问题不专业,呵呵,多指教了。ali68ls
1)在添加网址时,我加了3000多个,我不知道有些重复的,结果,一直弹出窗口提示重复网址,无奈我只能结束火车头的进程。还有不知能否加个导出一级网址无重复的功能:)
2)采集下载地址,应该多加一个功能:链接不得包含,如:论坛表情这些就不必下载了。而有的图片链接不固定,或引用其它各种网站的。
3)发布内容时,设置标题为空就不发布了,但是如果发布几百个以后,再重新开始任务,一直提示,标题为空,再发几百个,又从头提示。。。效率有待提高。
4)列表页网址设置标签的问题,列表页有大类名,内容页只有小类名,所以列表页需要采集大类名作为标签,而大类名不与列表记录成对出现,如:大类名只出现在<title>里。
5)还是自定义列表页网址设置的标签问题,如果在内容里设置了循环增加新记录,结果该标签只能匹配到一条记录?
6)探测真实地址功能,不一定是要探测下载的,有时候也需要采集跳转后的真实网址。同样在采集一、二级网址时跳转也可优化。
而我在全局配置里,把 HTTP请求设置->自动跳转 勾选去掉后,便不能采集跳转页任何内容。
采集记录能否包含:二级列表页网址、一级列表页网址、内容页网址(均可选是否真实)
7)有朋友提到的,批量网址的问题,如:90008000.htm、90009000.htm、后接:90010000.htm、或接:900010000.htm。变数的位数,可能1-N位。90009999000.htm。采集网址也可设置变量,如:[任务参数1]
8)多页面采集,加一个测试网址的自动保存功能,可人性化一点。如能跨站就更好。:)
9)采集规则如果有设置多页面采集,则导出规则到其它机子就用不了。还有在列表树加个采集测试功能,测试网址数自定,这样就不必更改规则了。
10)发布模块中,多个登录随机值出现在发表页,而发表页一刷新,随机值就变。
11)分类名称及ID格式,在多级类中,格式会不一样,加一个替换功能。替换功能支持正则,呵呵。
12)在入库时,不知道如何处理“'”单引号的。我看到有时入库的单引号变成:“'”;而有的是:“\'”,这样就不统一了,如果与其它表字段关联就会出错。
13)发布时成功未知,关闭后重开火车又能发布成功。
14)这个有点难,多个域名或二级域名之间的发布模块问题。
15)最后当然是验证码了。登录时填两个或两次验证问题。
ali68ls ali68ls 本帖最后由 mayo888 于 2009-3-11 16:33 编辑
占位补充:
16)中文URL以及编码自动识别问题。还有扰码。
17)在编辑任务时,如果同时打开了MDB数据库,任务竟然可以保存,但更改了标签或任务名,任务就不能用了。
18)二级网址也可加个区域选定及[标签:XXX]。
19)发布模块POST数据截取不全?文件好像不能截取。
20)2008与2009采集规则兼容性问题。
21)本站与源站的分类/地区关联解决方案。例:供求网的公司与产品之关联解决方案。
22)采集与发布的同步问题。个别站需即时引用采集内容来发布。 感谢楼上的两位朋友,竟然这么早(国外的朋友除外)。
两位提供的Bug和建议,其中有一些确认为Bug,将在近期更新,一些功能也在开发范围内,当然,这些功能也在考虑程序的开发难度和整体性能,敬请期待。
感谢大家的支持,相信我们能做得更好。
5
本帖最后由 madact 于 2009-3-11 09:42 编辑补充
23) 列表循环应该再增加几个循环参数,采集过程中会有这样的列表
/20090310XX-YY-ZZZ.HTML (其中XX为24小时制时间,YY为分钟,ZZZ为随机数)
24)任意标签规则中“替换”和“过滤”应单独增加导入和导出。并且可选导入时是“覆盖原有规则”还是新增规则。
假设我定义了100个任务,当发现有替换规则需要更改时,总不能修改100次吧。
(一直不习惯在站点那里定义规则.....)
25) 希望增加是否区分大小写,及空格功能。
例<b>123</b> 和 <b> 123 </b>
实际效果是一样的,但是对采集规则有影响。 楼上几位很强大。。。把论坛上的BUG贴整理 一起发出来了 本帖最后由 mayo888 于 2009-5-23 14:35 编辑
哈哈,感谢VUS520版主关注了。
区分大小写,在写采集规则时,同样遇到此问题。我加个半全角吧。呵呵
页:
[1]