请教+探讨 用什么方法来实现 全站 或者数据库 过滤相同重复标题的文章
我们玩采集的,从A B C 等各个站采集信息发布到个人站,经常会碰到各采集对象之间的内容会有重复的,这样我们发布会本站就有多个重复标题和内容的数据,如果是采集目标站有重复内容,那就把我们自己害得很惨车头只能够过滤掉重复的网站,这么大的数据量也没法分析重复标题
那我们用什么方法来防止这样的事情发生呢?
还在迷茫中。。。 用dede就可以 嘻 有重复文档检测 功能 :Q WP 没有。。。表晓得怎么办。。。 DISCUZ 貌似也没有。。。 好像基本上都没有 改数据库中标题那个字段为索引,那样就不会重复了:lol :ali0ls 确实从数据库入手即可 具体怎么操作呢不太明白 如果用接口很好实现
提交前 把采到的标题 在库中查询下
如果有则放弃,处理下一条
不过发布效率会比不检测慢一点 用dede就可以 嘻 有重复文档检测 功能
页:
[1]
2