关于火车头判断重复数据
是不是我把采集地址和数据全删了就无法判断了。因为没有比对了 或者网站系统自动判断。如果是,是比对标题还是内容来判断重复。如果标题变了,如加个序号。是不是就判断不是重复内容你? 楼主正解:lol 如果数据是存放在数据库中。那数据库可以判断重复内容。
但是发到空间呢? 关系型数据库能过判断标题和内容的重复吗?或者重复95%就定为是重复内容 按网址判断 对,因为你删除了地址库和数据库,已经把数据和地址全部给删除,采集的时候如果没有找到以前采集的地址就是按新的来算,所以,如果想更新,就别去删除地址库和数据库!!! 一直保留地址有点不现实。我通过接口发的时候提示发布错误:内容已存在
等于说采集了重复内容,但是没有把重复内容发出去。这样还是可以的! 可以在接口里写标题判断
页:
[1]