ranger2002 发表于 2009-3-27 20:10:58

采集重复,希望引起重视

这个问题在BUG区看到了很多人都有这个问题,我也看了很多帖子。但解决的办法还是没有。

遇到的情况,现在时采集的时候会把昨天采集的内容重复采集,比如昨天发布了20个帖子,今天采集了30个帖子,然后今天一共会发布50个帖子(今天的30个+昨天的20个)。

首先说明。已经打开检测重复网址。另外请不要说清理数据库。原因很简单,采集的网址是每天都会采集的,别人的网址列表内容不可能一天全换成新内容。

其实这个在最老版本的火车头上没出现过,但老版本也有好几年历史了。以为新版本会更加完善,只是没想到问题却这么多。

其实感觉采集没什么问题,已经过滤到以前重复的,只是发布这里不知道为什么会把以前采集的数据都算上了。

PS:刚刚用“本地编辑采集数据”的功能看了下,原来以前发布的内容,在“发布”那个勾的地方没有勾上。这个是不是程序问题?因为以前发布的内容确实已经发布,但数据这块没确认你是否发布。希望作者能看看,谢谢。

rq204 发表于 2009-3-27 20:30:00

你用2009sp1试下。

ranger2002 发表于 2009-3-27 20:42:46

我就是用的sp1

ranger2002 发表于 2009-3-27 20:45:46

现在找到一个解决办法。每次更新前先在数据库里把以前的手动打上“发布”的勾后,然后在采集当天的内容。就不会出现采集以前采集过的内容了。看样子就在那个打勾的地方。

先前也想过避免出现错误提示(虽然提示错误,但内容还是能发布出来)的。但查看错误的时候看不出个所以然来。

如:
<br/>???,??????????????,<a href='viewthread.php?tid=441885' target='_blank'>???????</a>
<br/><a href=?>?????????</a>

在找帖子441885这个后,发现已经正确发布出来了,但不知道为什么还是报错。

rq204 发表于 2009-3-28 11:13:45

发布重复发你需要首先查看的是你发布时返回的是什么信息,如果不是成功发布,以后是会再发的。所以请确认你的模块是否正确。

Internet 发表于 2009-10-6 11:21:11

显示的发布不成功,其实已经发布成功了,但是数据库里面没有标成一发布,导致下次采集的时候出现重复内容
页: [1]
查看完整版本: 采集重复,希望引起重视