火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2594|回复: 2

火车采集器V2009正式版SP2的两个BUG

[复制链接]
发表于 2009-5-28 03:00:28 | 显示全部楼层 |阅读模式
本帖最后由 janice 于 2009-5-28 03:10 编辑

火车采集器V2009正式版SP2的两个BUG,所有采集测试是以HTML单文件方式测试,这个才是最好的测试方式!所有网址采集深度均为0,都选择检测重复网址!

1.图片目录保存与限制问题

测试连接:
  1. http://www.moko.cc/wangyibing/girlvote.html
  2. http://www.moko.cc/xujiayi/girlvote.html
  3. http://www.moko.cc/qiqi430/girlvote.html
  4. http://www.moko.cc/dami/girlvote.html
  5. http://www.moko.cc/zxyu/girlvote.html
复制代码
需要更加多的测试连接,可以参考这里 http://www.moko.cc/logout_girlvote/index.html

这个测试所有图片都是这样的保存形式,
  1. http://www.moko.cc/girlvote/00aa/bb.jpg
复制代码
,aa代表某个的图片目录,bb代表数字1-N.jpg 顺序排列图片

当我们采集的时候,在内容选项里面选择了下载图片的时候,例如都把图片下载到,vote(vo\te)目录,这个时候采集任务就会出错,因为采集的时候无视了aa,因为采集的图片在每个投票页面的对象数据都是bb,可是这个bb虽然全部文件名相同,但是图片的内容是全部不相同的,所以采集回来的数据就只有最后一次的图片采集数据,并且会把之前采集的图片覆盖了。

暂时解决方法就是随机文件名,但是以火车采集器长期发展来说,图片文件名保存格式可以增加个目录参数,这个参数可以来自正规表达式或者是手动增加,总之可以自动识别到aa这样的格式,并且把图片保存在这个目录里面,而且检测到有已经存在的文件名,可以给用户选择覆盖或者是自动重新命名。

提议增加的功能:可以自定义图片的保存目录,例如以标题、标题+ID或者随机数字作为图片保存的目录,而不是像现在一样,全部放在同一个目录里面,下载图片的目录格式可以像这样:[标题,限制=100],标题当然是以页面的标题为目录名了,而且检测到重复标题名的时候可以自动增加ID,限制的意思就是限制每个目录最多只能放100个图片。

2.标题与检测重复网址

测试连接:
  1. http://www.moko.cc/weblogpostlist|getPostById.action?wKey=wangxinran&postId=27612&curPage=1
  2. http://www.moko.cc/weblogpostlist|getPostById.action?wKey=wangxinran&postId=28424&curPage=1
  3. http://www.moko.cc/weblogpostlist|getPostById.action?wKey=wangxinran&postId=29125&curPage=1
  4. http://www.moko.cc/weblogpostlist|getPostById.action?wKey=wangxinran&postId=29579&curPage=1
复制代码
由于MOKO!采用了防采集,所有标题都是这样的格式:
  1. <title>王心然's MOKO | MOKO.CC/wangxinran</title>
复制代码
首先选择采集第一条网址,均为全部+下载图片+HTML发布形式,采集完成第一条之后,再把其他的增加到原来的任务,这时候会有两种结果:

a.火车采集器会提示已经有相同的采集内容,不再进行采集,解决方法:不选择检测重复网址
b.火车采集器继续采集内容,但是会把新采集的内容,增加到之前已经发布的HTML文件的后面,而不是重新发布到新文件里面

有个疑问就是:火车采集器检测重复网址是以网址还是以标题作为检测重复的依据?现在的这个版本有时候不是以网址作为检测重复的依据!

之前火车采集器的高层已经提示过,可以把标题改为标题X这样来解决这个问题,可是用了这个方法之后,还是会把内容发布到同一个HTML文件里面,所以希望火车采集器可以有一个文件名生成的处理方法,可以避免把不同的内容发布到同一个HTML文件里面。例如增加个文件命名选项,可以用标题+ID或者标题+随机数字或者提取正规表达式里面的内容做HTML文件名。

大家可以试试上面提供的测试网址,是不是怎样设置都会把某些网址生成在同一个HTML文件里面!

我是很认真做测试的,希望火车采集器的高层可以重视一下和可以解决一下这个两问题。
 楼主| 发表于 2009-6-2 18:58:09 | 显示全部楼层
有没有人可以关注一下这两个问题?
发表于 2009-7-8 11:37:18 | 显示全部楼层
```````````````
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-15 09:51

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表