如何避免多个网站的标题重复
我正在想一个问题,假如我采集两个网站的内容:A网站B网站
如果A网站的有一篇文章的标题和B网站的一篇文章标题一样的话,火车能否避免重复采集呢,
因为我看到火车采集时,是分别将所采集的网站内容单独放在一个数据库中的,也即A网站内容是一个数据库,B网站内容是一个数据库。
不知表达清楚没有 sp2新增功能. 期待ING,不知何时出SP2。 实际上这个问题也不难解决吧,
应该以采集内容最终要发布的网站作为一个数据库,这样就不会重复了,
或者还是现在这个样子,被采集网站每个占用一个数据库,但它们如果发布到同一个网站,还要再建个数据库,只要保留标题就可以了,呵呵重复就不同采集了
页:
[1]