杨为青 发表于 2008-10-19 10:58:15

关于火车头判断重复数据

是不是我把采集地址和数据全删了就无法判断了。因为没有比对了

杨为青 发表于 2008-10-19 11:01:01

或者网站系统自动判断。如果是,是比对标题还是内容来判断重复。
      如果标题变了,如加个序号。是不是就判断不是重复内容你?

afanfan2007 发表于 2008-10-19 11:03:16

楼主正解:lol

杨为青 发表于 2008-10-19 11:08:34

如果数据是存放在数据库中。那数据库可以判断重复内容。
但是发到空间呢?

杨为青 发表于 2008-10-19 11:09:35

关系型数据库能过判断标题和内容的重复吗?或者重复95%就定为是重复内容

rq204 发表于 2008-10-19 11:27:10

按网址判断

chenfy 发表于 2008-10-19 11:40:50

对,因为你删除了地址库和数据库,已经把数据和地址全部给删除,采集的时候如果没有找到以前采集的地址就是按新的来算,所以,如果想更新,就别去删除地址库和数据库!!!

杨为青 发表于 2008-10-19 12:09:42

一直保留地址有点不现实。我通过接口发的时候提示发布错误:内容已存在
等于说采集了重复内容,但是没有把重复内容发出去。这样还是可以的!

沦陷今生 发表于 2008-10-19 12:19:25

可以在接口里写标题判断
页: [1]
查看完整版本: 关于火车头判断重复数据