liao365 发表于 2006-6-13 00:08:21

重复采集的问题

现在采集器还不能处理重复采集的问题,没法比较已采集的内容,据说2.0已加加入了这个功能,

我要说的是: 比较已采集的网页是的网址进行比较.建议加入比较新闻标题,这样更实用,只要标题相同的,内容其本是相同的,否则采集新闻的流行,相同标题,来源不同网址的内容,大量出现,给人带来不少麻烦.若能设置一个开关,让用户选择是比较"标题",还是比较"网址",这样就方便了很多,我在FoosunCMS中用采集时,就这样用,原程序是比较网址的,后来本人将其改成比较新闻标题,这样可以到处采,只要发现没有采过的就会自动采回来,感觉很好!

Hunter 发表于 2006-6-13 09:04:44

........貌似有些道理

覆雨翻云 发表于 2006-6-13 12:39:50

是啊。重复采集的问题比较多,最好有个历史记录
页: [1]
查看完整版本: 重复采集的问题