能否加入“二次采集”的概念
这段时间采集了十万条左右的数据,发布之后偶然点开一条发现分页的地方有问题,目标数据分6页,没有重复,但是采集回来的数据前三页和后三页重复。之后看了几天发现没有问题,查了目标数据也没有问题,所以思考是不是数据量大了,加上网络条件等问题,难免会出现偏差,而这个采集错误可能是万分之一,也可能是千分之一百分之一。经常压缩视频的朋友都知道二次编码会使质量大幅度提高,所以我想是否可以加入二次采集的概念,对同一个任务分别采集两次,通过两次得到的数据对比,前后一致的载入数据库(或作一致标记),前后不一致的给予提醒(或作不一致标记)。这样对于采集质量较高的朋友可能比较有用。。。 二次校对功能吧. 二次校对功能吧.xyz5200 发表于 2009-4-5 13:23 http://bbs.locoy.com/images/common/back.gif
是的。。。 爪,以后学习下。。
页:
[1]