jujin2 发表于 2009-6-17 16:06:34

采集规则中标题标签选择该标签结果不能重复无效吗

采集规则中标题标签选择该标签结果不能重复无效吗.比如说我要采集个福利彩票站。他们每期预测页面地址不变.如果定义标签为该标签结果不能重复.采集的时候就会出现: 采内容--该条记录与数据库中某个标签字段重复,自动过滤该条结果.以后希望改成完全重复的标题就不采集.有变动的就采集.向060期开奖结果.下期成061开奖结果了.但是就变了个1程序就默认不采集了

rq204 发表于 2009-6-17 17:04:26

你在采网址那里选不检测重复就可以了,这样的话新的内容出现后如果和原来的标签内容不一样,程序会采集并保存下来的.

宾阳之窗 发表于 2009-6-17 20:37:22

又学会了一招

jujin2 发表于 2009-6-17 23:30:38

选择了.但是还是不行.软件是不是就匹配部分内容啊

happysky001 发表于 2009-8-30 17:29:48

个人感觉,可能是匹配算法设计的问题,我测试了,有些内容很多都不重复的,照样会被删除,我现在的方式就是标题设置不重复,内容不设置!长篇幅内容比对相似度比较难控制,容易有误差!

suwubee 发表于 2009-9-18 00:43:25

这个问题很严峻。。。。

我发现好多都会出现这个问题。。。。

对于采集的网页相似程度本来就很高的~而出现这个情况太频繁了。。。
页: [1]
查看完整版本: 采集规则中标题标签选择该标签结果不能重复无效吗