为什么我昨天采过的数据,今天又重复发布了部分?
昨天上午11点采集的这个页面中的数据
是该网站前天下午到昨天上午的更新内容
今天上午11点我再次采集这个页面
这时该页面的数据已经变为
昨天下午两点到今天上午的更新内容
和昨天上午采集的无重复呀
举例:6号上午11点采集该页面于 5号下午14点——6号11时 更新的数据
7号上午11点采集该页面于 6号下午——7号11时 更新的数据
说明: 两次采集发生时,该页面的内容都已经全部更新一遍了,不存在重复网址问题。
问题:发布的时候却重复发布了6号的内容。这是怎么回事呢?难道每次都要清空一次数据?有没有别的好办法?
{:4_181:}这么久了,还是没人
页:
[1]