找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2782|回复: 5

今晚特意来提交BUG,以及建议火车改进的地方~

[复制链接]
发表于 2009-3-11 02:59:20 | 显示全部楼层 |阅读模式
本帖最后由 idtown888 于 2009-3-11 05:44 编辑

  今晚闲来没事,把火车功能全部看了一遍。特意来提交BUG,以及建议火车改进的地方,希望火车越来越强大。
  有些问题不专业,呵呵,多指教了。

  1)在添加网址时,我加了3000多个,我不知道有些重复的,结果,一直弹出窗口提示重复网址,无奈我只能结束火车头的进程。还有不知能否加个导出一级网址无重复的功能:)

  2)采集下载地址,应该多加一个功能:链接不得包含,如:论坛表情这些就不必下载了。而有的图片链接不固定,或引用其它各种网站的。

  3)发布内容时,设置标题为空就不发布了,但是如果发布几百个以后,再重新开始任务,一直提示,标题为空,再发几百个,又从头提示。。。效率有待提高。

  4)列表页网址设置标签的问题,列表页有大类名,内容页只有小类名,所以列表页需要采集大类名作为标签,而大类名不与列表记录成对出现,如:大类名只出现在<title>里。

  5)还是自定义列表页网址设置的标签问题,如果在内容里设置了循环增加新记录,结果该标签只能匹配到一条记录?

  6)探测真实地址功能,不一定是要探测下载的,有时候也需要采集跳转后的真实网址。同样在采集一、二级网址时跳转也可优化。
  而我在全局配置里,把 HTTP请求设置->自动跳转 勾选去掉后,便不能采集跳转页任何内容。
  采集记录能否包含:二级列表页网址、一级列表页网址、内容页网址(均可选是否真实)

  7)有朋友提到的,批量网址的问题,如:90008000.htm、90009000.htm、后接:90010000.htm、或接:900010000.htm。变数的位数,可能1-N位。90009999000.htm。采集网址也可设置变量,如:[任务参数1]

  8)多页面采集,加一个测试网址的自动保存功能,可人性化一点。如能跨站就更好。:)

  9)采集规则如果有设置多页面采集,则导出规则到其它机子就用不了。还有在列表树加个采集测试功能,测试网址数自定,这样就不必更改规则了。

  10)发布模块中,多个登录随机值出现在发表页,而发表页一刷新,随机值就变。

  11)分类名称及ID格式,在多级类中,格式会不一样,加一个替换功能。替换功能支持正则,呵呵。

  12)在入库时,不知道如何处理“'”单引号的。我看到有时入库的单引号变成:“&#39”;而有的是:“\'”,这样就不统一了,如果与其它表字段关联就会出错。

  13)发布时成功未知,关闭后重开火车又能发布成功。

  14)这个有点难,多个域名或二级域名之间的发布模块问题。

  15)最后当然是验证码了。登录时填两个或两次验证问题。

评分

1

查看全部评分

发表于 2009-3-11 05:13:51 | 显示全部楼层
本帖最后由 mayo888 于 2009-3-11 16:33 编辑

  占位补充:
  16)中文URL以及编码自动识别问题。还有扰码。

  17)在编辑任务时,如果同时打开了MDB数据库,任务竟然可以保存,但更改了标签或任务名,任务就不能用了。

  18)二级网址也可加个区域选定及[标签:XXX]。

  19)发布模块POST数据截取不全?文件好像不能截取。

  20)2008与2009采集规则兼容性问题。

  21)本站与源站的分类/地区关联解决方案。例:供求网的公司与产品之关联解决方案。

  22)采集与发布的同步问题。个别站需即时引用采集内容来发布。

评分

1

查看全部评分

发表于 2009-3-11 08:06:43 | 显示全部楼层
感谢楼上的两位朋友,竟然这么早(国外的朋友除外)。
两位提供的Bug和建议,其中有一些确认为Bug,将在近期更新,一些功能也在开发范围内,当然,这些功能也在考虑程序的开发难度和整体性能,敬请期待。

感谢大家的支持,相信我们能做得更好。
发表于 2009-3-11 09:37:23 | 显示全部楼层

5

本帖最后由 madact 于 2009-3-11 09:42 编辑

补充

23) 列表循环应该再增加几个循环参数,采集过程中会有这样的列表
      /20090310XX-YY-ZZZ.HTML   (其中XX为24小时制时间,YY为分钟,ZZZ为随机数)


24)任意标签规则中“替换”和“过滤”应单独增加导入和导出。并且可选导入时是“覆盖原有规则”还是新增规则。

       假设我定义了100个任务,当发现有替换规则需要更改时,总不能修改100次吧。
      (一直不习惯在站点那里定义规则.....)

25) 希望增加是否区分大小写,及空格功能。
     例<b>123</b> 和 <b>     123     </b>
     实际效果是一样的,但是对采集规则有影响。
发表于 2009-3-11 12:10:49 | 显示全部楼层
楼上几位很强大。。。把论坛上的BUG贴整理 一起发出来了
发表于 2009-3-11 13:09:04 | 显示全部楼层
本帖最后由 mayo888 于 2009-5-23 14:35 编辑

哈哈,感谢VUS520版主关注了。
区分大小写,在写采集规则时,同样遇到此问题。我加个半全角吧。呵呵
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表