火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 5245|回复: 7

希望能增加标题是否重复的判断

[复制链接]
发表于 2007-12-21 20:43:56 | 显示全部楼层 |阅读模式
因为本人是利用标签循环匹配采集一个页面内的信息作为多条记录的,不过发现这样以前采集过的信息也会重新采集,虽然有些CMS能够利用自身程序来过滤,不过有些特殊发布就没有这个功能了,所以希望火车能增加个判断标题是否重复

顺便说下火车还真是好东西啊
发表于 2007-12-22 00:32:29 | 显示全部楼层
采集完以后再进行一次数据库操作,不就行了?
发表于 2007-12-22 10:23:17 | 显示全部楼层

回复 2楼 的帖子

治标
发表于 2007-12-23 20:01:46 | 显示全部楼层

回复 3楼 的帖子

如果想治本,火车基本上就没法开了!

小数据还都好,数据多了,一个个去匹配哟,这是常识问题!

哈哈 !!

评分

1

查看全部评分

发表于 2008-1-20 16:57:38 | 显示全部楼层

回复 4楼 的帖子

帝国程序都可以判断标题而发布,火车没法开就是怪事。我觉得火车做成标题判断或网址判断就好。
发表于 2008-1-24 13:50:46 | 显示全部楼层
现在各网站都是互相采集,如果只用网址判断重复贴,就会采集好多相同内容的贴回来

火车可以听听使用者的建议啊
发表于 2009-7-27 19:51:37 | 显示全部楼层
我和楼主遇到的问题一样,很多重复记录,于是我在数据库删除重复记录,然后出了怪事。发布的时候竟然无视数据里已经无重复数据的事实,还是把多余的发布上去了。我看了数据库,也看了“本地编辑任务采集数据”,里没都已经没有了重复数据。 真不知这些重复数据是从哪里出来的?请高人解答。
发表于 2016-2-9 08:52:44 | 显示全部楼层
历史帖子回顾中。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-3-31 10:32

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表