火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 1851|回复: 3

如何避免多个网站的标题重复

[复制链接]
发表于 2009-4-23 11:26:44 | 显示全部楼层 |阅读模式
我正在想一个问题,

假如我采集两个网站的内容:A网站  B网站

如果A网站的有一篇文章的标题和B网站的一篇文章标题一样的话,火车能否避免重复采集呢,
因为我看到火车采集时,是分别将所采集的网站内容单独放在一个数据库中的,也即A网站内容是一个数据库,B网站内容是一个数据库。

不知表达清楚没有
发表于 2009-4-23 12:44:57 | 显示全部楼层
sp2新增功能.
发表于 2009-4-23 12:46:55 | 显示全部楼层
期待ING,不知何时出SP2。
 楼主| 发表于 2009-4-23 13:56:47 | 显示全部楼层
实际上这个问题也不难解决吧,
应该以采集内容最终要发布的网站作为一个数据库,这样就不会重复了,
或者还是现在这个样子,被采集网站每个占用一个数据库,但它们如果发布到同一个网站,还要再建个数据库,只要保留标题就可以了,呵呵重复就不同采集了
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

企业微信|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-25 22:09

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表