采集规则中标题标签选择该标签结果不能重复无效吗
采集规则中标题标签选择该标签结果不能重复无效吗.比如说我要采集个福利彩票站。他们每期预测页面地址不变.如果定义标签为该标签结果不能重复.采集的时候就会出现: 采内容--该条记录与数据库中某个标签字段重复,自动过滤该条结果.以后希望改成完全重复的标题就不采集.有变动的就采集.向060期开奖结果.下期成061开奖结果了.但是就变了个1程序就默认不采集了 你在采网址那里选不检测重复就可以了,这样的话新的内容出现后如果和原来的标签内容不一样,程序会采集并保存下来的. 又学会了一招 选择了.但是还是不行.软件是不是就匹配部分内容啊 个人感觉,可能是匹配算法设计的问题,我测试了,有些内容很多都不重复的,照样会被删除,我现在的方式就是标题设置不重复,内容不设置!长篇幅内容比对相似度比较难控制,容易有误差! 这个问题很严峻。。。。我发现好多都会出现这个问题。。。。
对于采集的网页相似程度本来就很高的~而出现这个情况太频繁了。。。
页:
[1]