火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2601|回复: 4

官方一定要关注一下!

[复制链接]
发表于 2009-7-19 12:08:21 | 显示全部楼层 |阅读模式
2009 sp2 的问题
首先火车采集器是一款很好的软件,使用很方便,2009sp2版功能更强大,更全面,不过在使用过程中,遇到以下问题,希望官方能够关注,如果能够修正的话,采集的效率应该会提升。

第一,采集页面测试 输入地址栏的问题,之前的版本是点击那个地址栏,便会怎么全选,而现在的版本不会,这个测试时很不方便,有时候一个采集规则并不是先测试网址采集,然后测试采集页面这样一气呵成的。建议恢复之前的功能。
第二,关于设置标签不得为空或者重复后,每次都重复采集的问题。 采集目标页面并不是总是规则的,另外可能因为需要排除某些采集页面而设置标签采集不得重复或者为空,造成一些页面无法采集,这个时候就出现两个问题:
        一是每次开始采集,一些无法采集或者不符合规则的页面都需要重复采集一次,网址多了很影响效率,时间一长,排除的采集网址可能达几千条,这个时候就会十几分钟都完成。可以想像,既然和排除掉了,那就是不需要的,或者没有改变采集规则,再采集还是为空,那么这个重复尝试采集便是多余的。建议设置是否继续采集未采集到内容的网址。实现起来就是在系统配置里面加一个判断,是,则按现在的模式存储采集网址,否,则存储采集网址并设为已采。
        二 内容重复,或者标题,内容等字段为空被排除后,内容图片,附件等继续下载,如果设置图片等附件时,即使标题或者内容为空时被排除,附件还是会下载,非常不必要,建议先分析页面,确定符合条件后再下载附件。
发表于 2009-7-19 15:45:11 | 显示全部楼层
1.取消原来全选的功能是和你理由相反的,是为了方便修改网址
2.这个你要是设置为删除,且要检测重重复,就不会重复采集.程序里有设置为删除和设置未采的功能,你可以在选项设置里设置.另外,新版中,下载放在排除之后进行处理.
 楼主| 发表于 2009-7-20 01:01:32 | 显示全部楼层
本帖最后由 iiwork 于 2009-7-20 01:09 编辑

我使用的是4-29版本,应该最新版本的,
至于 你说的检测重复 我是打勾的,在系统设置的采集设置也是选择删除,可是还是没有用的,这个就有点诡异了,

再看了一遍,这里所说的检测重复是指采集网址,

而我说的是采集内容的时候 ,如果采集内容标签有不符合的,便提示标签为空,或者重复,但是下次采集的时候 ,这个页面还会尝试采集一次,


也就是说,如果我采集1000个页面的内容,里面有200页面个是不符合要求的,那么,在再次启动任务采集的时候,这200个页面还会采集一次,并且里面的图片下午什么的,还会下载下来.


请测试一下吧!
 楼主| 发表于 2009-7-23 01:30:36 | 显示全部楼层
没有答案……
发表于 2009-7-23 09:55:44 | 显示全部楼层
全局设置 里,你将不符合条件的记录删除就可以了,以后就不会再采了
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 14:09

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表