janice 发表于 2009-5-28 03:00:28

火车采集器V2009正式版SP2的两个BUG

本帖最后由 janice 于 2009-5-28 03:10 编辑

火车采集器V2009正式版SP2的两个BUG,所有采集测试是以HTML单文件方式测试,这个才是最好的测试方式!所有网址采集深度均为0,都选择检测重复网址!

1.图片目录保存与限制问题

测试连接:http://www.moko.cc/wangyibing/girlvote.html
http://www.moko.cc/xujiayi/girlvote.html
http://www.moko.cc/qiqi430/girlvote.html
http://www.moko.cc/dami/girlvote.html
http://www.moko.cc/zxyu/girlvote.html需要更加多的测试连接,可以参考这里 http://www.moko.cc/logout_girlvote/index.html

这个测试所有图片都是这样的保存形式,http://www.moko.cc/girlvote/00aa/bb.jpg,aa代表某个的图片目录,bb代表数字1-N.jpg 顺序排列图片

当我们采集的时候,在内容选项里面选择了下载图片的时候,例如都把图片下载到,vote(vo\te)目录,这个时候采集任务就会出错,因为采集的时候无视了aa,因为采集的图片在每个投票页面的对象数据都是bb,可是这个bb虽然全部文件名相同,但是图片的内容是全部不相同的,所以采集回来的数据就只有最后一次的图片采集数据,并且会把之前采集的图片覆盖了。

暂时解决方法就是随机文件名,但是以火车采集器长期发展来说,图片文件名保存格式可以增加个目录参数,这个参数可以来自正规表达式或者是手动增加,总之可以自动识别到aa这样的格式,并且把图片保存在这个目录里面,而且检测到有已经存在的文件名,可以给用户选择覆盖或者是自动重新命名。

提议增加的功能:可以自定义图片的保存目录,例如以标题、标题+ID或者随机数字作为图片保存的目录,而不是像现在一样,全部放在同一个目录里面,下载图片的目录格式可以像这样:[标题,限制=100],标题当然是以页面的标题为目录名了,而且检测到重复标题名的时候可以自动增加ID,限制的意思就是限制每个目录最多只能放100个图片。

2.标题与检测重复网址

测试连接:http://www.moko.cc/weblogpostlist|getPostById.action?wKey=wangxinran&postId=27612&curPage=1
http://www.moko.cc/weblogpostlist|getPostById.action?wKey=wangxinran&postId=28424&curPage=1
http://www.moko.cc/weblogpostlist|getPostById.action?wKey=wangxinran&postId=29125&curPage=1
http://www.moko.cc/weblogpostlist|getPostById.action?wKey=wangxinran&postId=29579&curPage=1由于MOKO!采用了防采集,所有标题都是这样的格式:<title>王心然's MOKO | MOKO.CC/wangxinran</title>首先选择采集第一条网址,均为全部+下载图片+HTML发布形式,采集完成第一条之后,再把其他的增加到原来的任务,这时候会有两种结果:

a.火车采集器会提示已经有相同的采集内容,不再进行采集,解决方法:不选择检测重复网址
b.火车采集器继续采集内容,但是会把新采集的内容,增加到之前已经发布的HTML文件的后面,而不是重新发布到新文件里面

有个疑问就是:火车采集器检测重复网址是以网址还是以标题作为检测重复的依据?现在的这个版本有时候不是以网址作为检测重复的依据!

之前火车采集器的高层已经提示过,可以把标题改为标题X这样来解决这个问题,可是用了这个方法之后,还是会把内容发布到同一个HTML文件里面,所以希望火车采集器可以有一个文件名生成的处理方法,可以避免把不同的内容发布到同一个HTML文件里面。例如增加个文件命名选项,可以用标题+ID或者标题+随机数字或者提取正规表达式里面的内容做HTML文件名。

大家可以试试上面提供的测试网址,是不是怎样设置都会把某些网址生成在同一个HTML文件里面!

我是很认真做测试的,希望火车采集器的高层可以重视一下和可以解决一下这个两问题。

janice 发表于 2009-6-2 18:58:09

有没有人可以关注一下这两个问题?ali59ls

yangliuai0 发表于 2009-7-8 11:37:18

```````````````
页: [1]
查看完整版本: 火车采集器V2009正式版SP2的两个BUG