mice110 发表于 2009-4-23 11:26:44

如何避免多个网站的标题重复

我正在想一个问题,

假如我采集两个网站的内容:A网站B网站

如果A网站的有一篇文章的标题和B网站的一篇文章标题一样的话,火车能否避免重复采集呢,
因为我看到火车采集时,是分别将所采集的网站内容单独放在一个数据库中的,也即A网站内容是一个数据库,B网站内容是一个数据库。

不知表达清楚没有

rq204 发表于 2009-4-23 12:44:57

sp2新增功能.

模块制作人 发表于 2009-4-23 12:46:55

期待ING,不知何时出SP2。

mice110 发表于 2009-4-23 13:56:47

实际上这个问题也不难解决吧,
应该以采集内容最终要发布的网站作为一个数据库,这样就不会重复了,
或者还是现在这个样子,被采集网站每个占用一个数据库,但它们如果发布到同一个网站,还要再建个数据库,只要保留标题就可以了,呵呵重复就不同采集了
页: [1]
查看完整版本: 如何避免多个网站的标题重复