发新话题
打印

2.0bug整理和功能完善贴

2.0bug整理和功能完善贴

既然火车开始完善2.0,那么我就把网友提交的bug和我自己遇到的问题缩到一贴中,希望对火车头有帮助。我把个人认为比较重要的标红
补一个:发布到utf8系统都是乱码,要不就是乱码要不就是标题空,用内置的文章测试可以,反正这个问题比较大

1、采集经常性的出错,有时虽然出错,不过仍然能采集,入图



2、dede发布时间为1970年问题,这个我个人认为不是火车采集器的问题,是因为采集的时间格式跟dede的格式不一致或者没设置时间标签所致,这个问题很多人提出,不过可以跳过。

3、辅助工具中的url解密不能用,这个我也遇到过:



4、修改任务网址规则是如果能还原原来的方式会好点,毕竟只改网址不方便,当然这个是对菜鸟人性化点;
5、清空数据库不应该全部清空所有,个人认为至少应该加一个清空单任务数据库;

6、未指定类错误,关于这点很大原因是因为没选择分类所致,提示是可以设定成相应的,否则很容易误导,或者会吓到人哦^_^

7、任务修改bug,当任务a被修改后保存成b是经常出现任务b的数据库不存在问题;

8、采集过程中,如果采集任务的网址比较多经常会出现一个很大的x,特别是内容不足的情况,出现后就不知道采集到哪了,而这样根本没办法控制重复采集,如图:



9、汉字解码问题,遇到带汉字的网址无法采集,解决办法是转码汉字后既可。所以2.0可以加个对汉字的解码功能,这样就可以解决这个问题;

10、增加排除标题标签、内容标签为空的入库。也就是如果设定的标签为空不入库,这个功能很重要,有写系统本身有这个功能,比如dz,但有些系统就没这功能了,比如dede;

11、&nbsp空格符过滤问题,这个是最常见的问题,因为很多系统都会把空格转换成这个符号,而在2.0中带有&的符号后面的内容就被阶段,这个跟post中的连接副&有关系,所以这个解决不难。1.2就没这个问题。

12、重复采集问题,这个问题最严重。既浪费资源有不好看。

13、很多提到ubb发贴bug,这个我没用过不知道。一般我都是自己转换,所以不存在这个问题;

14、2.0有倒序功能,不过不完善。默认的倒序只能整页倒序而不能单篇倒序。加入我采集的网址有10页,那么倒序采集就是从10的第一篇采集到1的最后一篇。需要增加的功能是从10页的最后一篇采集到1页的第一篇。这里顺便提下一个问题:在采集小说的时候经常会出现文章顺序不对,这个跟任务的线程有关系。如果能增加一个单线程采集就可以解决这个问题。目前按时间控制不方便的,因为你不知道一篇文章要采集多久,即使知道了有时候因为网速不同也会有所不同;

15、采集网址过滤问题,目前采集网址时只能用含有什么或什么而不能用and,我的解决办法是通过排除的或功能,这个不是很方便,建议价格and功能;

16、循环次数限定问题。目前的循环只能选择循环或不循环。选择循环就只能按默认的次数循环,这个不对,应该有个设定循环次数的功能,而且能超过默认的20次;

17、分页无法采集,这个功能如果没有的话,2.0的还不如1.2的,因为很多文章都不只一页的,说严重点,如果没采集分页功能2.0的还不谈不上半成品;

18、假如把“内容规则”里的默认的标签全部删除,只建立自己的标签时,采集不到数据。好象留着原来的默认标签就可以。

19、“特殊链接设置”功能很难用,不知道是版本问题还是我的问题。我按里面的提示建立,不过没成功过,这个功能还不如1.2版本的;



引用:
火车:收到,谢谢,bug正在一个一个处理中...

TOP

我正在学习

TOP

还有很多问题需要解决的,不过刚才整理了下问题太多了,头脑也就迷糊了,其他的问题等想起来再补上

TOP

正在学习 ing....

TOP

添加一个,已经给火车头说了

采缩略图问题
缩略图和内容不在同一页
内容规则中一个标签可单独对应一个网址规则

TOP

收到

TOP

支持楼主.

TOP

支持下``不错的BUG

TOP

顶,支持一下

TOP

火车看了偶就放心了^_^

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.134516 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-10-13 21:09 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档