火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 6127|回复: 11

请教+探讨 用什么方法来实现 全站 或者数据库 过滤相同重复标题的文章

[复制链接]
发表于 2008-9-21 02:25:29 | 显示全部楼层 |阅读模式
我们玩采集的,从A B C 等各个站采集信息发布到个人站,经常会碰到各采集对象之间的内容会有重复的,这样我们发布会本站就有多个重复标题和内容的数据,如果是采集目标站有重复内容,那就把我们自己害得很惨

车头只能够过滤掉重复的网站,这么大的数据量也没法分析重复标题

那我们用什么方法来防止这样的事情发生呢?

还在迷茫中。。。
发表于 2008-9-21 02:27:01 | 显示全部楼层
用dede就可以 嘻 有  重复文档检测 功能
 楼主| 发表于 2008-9-21 02:37:02 | 显示全部楼层
   WP 没有。。。  表晓得怎么办。。。
 楼主| 发表于 2008-9-21 02:37:48 | 显示全部楼层
DISCUZ 貌似也没有。。。
发表于 2008-9-21 07:38:32 | 显示全部楼层
好像基本上都没有
发表于 2008-9-21 08:16:17 | 显示全部楼层
改数据库中标题那个字段为索引,那样就不会重复了
发表于 2008-9-21 09:15:21 | 显示全部楼层
确实从数据库入手即可
 楼主| 发表于 2008-9-21 10:56:15 | 显示全部楼层
具体怎么操作呢  不太明白
发表于 2008-9-21 12:37:05 | 显示全部楼层
如果用接口很好实现

提交前 把采到的标题 在库中查询下

如果有则放弃,处理下一条

不过发布效率会比不检测慢一点
发表于 2008-9-21 12:43:43 | 显示全部楼层
用dede就可以 嘻 有  重复文档检测 功能
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-17 18:37

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表