火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4652|回复: 5

采集重复,希望引起重视

[复制链接]
发表于 2009-3-27 20:10:58 | 显示全部楼层 |阅读模式
这个问题在BUG区看到了很多人都有这个问题,我也看了很多帖子。但解决的办法还是没有。

遇到的情况,现在时采集的时候会把昨天采集的内容重复采集,比如昨天发布了20个帖子,今天采集了30个帖子,然后今天一共会发布50个帖子(今天的30个+昨天的20个)。

首先说明。已经打开检测重复网址。另外请不要说清理数据库。原因很简单,采集的网址是每天都会采集的,别人的网址列表内容不可能一天全换成新内容。

其实这个在最老版本的火车头上没出现过,但老版本也有好几年历史了。以为新版本会更加完善,只是没想到问题却这么多。

其实感觉采集没什么问题,已经过滤到以前重复的,只是发布这里不知道为什么会把以前采集的数据都算上了。

PS:刚刚用“本地编辑采集数据”的功能看了下,原来以前发布的内容,在“发布”那个勾的地方没有勾上。这个是不是程序问题?因为以前发布的内容确实已经发布,但数据这块没确认你是否发布。希望作者能看看,谢谢。
发表于 2009-3-27 20:30:00 | 显示全部楼层
你用2009sp1试下。
 楼主| 发表于 2009-3-27 20:42:46 | 显示全部楼层
我就是用的sp1
 楼主| 发表于 2009-3-27 20:45:46 | 显示全部楼层
现在找到一个解决办法。每次更新前先在数据库里把以前的手动打上“发布”的勾后,然后在采集当天的内容。就不会出现采集以前采集过的内容了。看样子就在那个打勾的地方。

先前也想过避免出现错误提示(虽然提示错误,但内容还是能发布出来)的。但查看错误的时候看不出个所以然来。

如:
<br/>???,??????????????,<a href='viewthread.php?tid=441885' target='_blank'>???????</a>
<br/><a href=?>?????????</a>

在找帖子441885这个后,发现已经正确发布出来了,但不知道为什么还是报错。
发表于 2009-3-28 11:13:45 | 显示全部楼层
发布重复发你需要首先查看的是你发布时返回的是什么信息,如果不是成功发布,以后是会再发的。所以请确认你的模块是否正确。
发表于 2009-10-6 11:21:11 | 显示全部楼层
显示的发布不成功,其实已经发布成功了,但是数据库里面没有标成一发布,导致下次采集的时候出现重复内容
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-5 17:00

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表