火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4622|回复: 5

采集规则中标题标签选择该标签结果不能重复无效吗

[复制链接]
发表于 2009-6-17 16:06:34 | 显示全部楼层 |阅读模式
采集规则中标题标签选择该标签结果不能重复无效吗.比如说我要采集个福利彩票站。他们每期预测页面地址不变.如果定义标签为该标签结果不能重复.采集的时候就会出现: 采内容--该条记录与数据库中某个标签字段重复,自动过滤该条结果.以后希望改成完全重复的标题就不采集.有变动的就采集.向060期开奖结果.下期成061开奖结果了.但是就变了个1程序就默认不采集了
发表于 2009-6-17 17:04:26 | 显示全部楼层
你在采网址那里选不检测重复就可以了,这样的话新的内容出现后如果和原来的标签内容不一样,程序会采集并保存下来的.
发表于 2009-6-17 20:37:22 | 显示全部楼层
又学会了一招
 楼主| 发表于 2009-6-17 23:30:38 | 显示全部楼层
选择了.但是还是不行.软件是不是就匹配部分内容啊
发表于 2009-8-30 17:29:48 | 显示全部楼层
个人感觉,可能是匹配算法设计的问题,我测试了,有些内容很多都不重复的,照样会被删除,我现在的方式就是标题设置不重复,内容不设置!长篇幅内容比对相似度比较难控制,容易有误差!
发表于 2009-9-18 00:43:25 | 显示全部楼层
这个问题很严峻。。。。

我发现好多都会出现这个问题。。。。

对于采集的网页相似程度本来就很高的~而出现这个情况太频繁了。。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 11:32

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表