xiongyujie37 发表于 2008-9-21 02:25:29

请教+探讨 用什么方法来实现 全站 或者数据库 过滤相同重复标题的文章

我们玩采集的,从A B C 等各个站采集信息发布到个人站,经常会碰到各采集对象之间的内容会有重复的,这样我们发布会本站就有多个重复标题和内容的数据,如果是采集目标站有重复内容,那就把我们自己害得很惨

车头只能够过滤掉重复的网站,这么大的数据量也没法分析重复标题

那我们用什么方法来防止这样的事情发生呢?

还在迷茫中。。。

sky 发表于 2008-9-21 02:27:01

用dede就可以 嘻 有重复文档检测 功能

xiongyujie37 发表于 2008-9-21 02:37:02

:Q   WP 没有。。。表晓得怎么办。。。

xiongyujie37 发表于 2008-9-21 02:37:48

DISCUZ 貌似也没有。。。

chenfy 发表于 2008-9-21 07:38:32

好像基本上都没有

rq204 发表于 2008-9-21 08:16:17

改数据库中标题那个字段为索引,那样就不会重复了:lol

沦陷今生 发表于 2008-9-21 09:15:21

:ali0ls 确实从数据库入手即可

xiongyujie37 发表于 2008-9-21 10:56:15

具体怎么操作呢不太明白

aven 发表于 2008-9-21 12:37:05

如果用接口很好实现

提交前 把采到的标题 在库中查询下

如果有则放弃,处理下一条

不过发布效率会比不检测慢一点

actin 发表于 2008-9-21 12:43:43

用dede就可以 嘻 有重复文档检测 功能
页: [1] 2
查看完整版本: 请教+探讨 用什么方法来实现 全站 或者数据库 过滤相同重复标题的文章