发新话题
打印

重复采集的问题

重复采集的问题

[size=-2]现在采集器还不能处理重复采集的问题,没法比较已采集的内容,据说2.0已加加入了这个功能,

我要说的是: 比较已采集的网页是的网址进行比较.建议加入比较新闻标题,这样更实用,只要标题相同的,内容其本是相同的,否则采集新闻的流行,相同标题,来源不同网址的内容,大量出现,给人带来不少麻烦.若能设置一个开关,让用户选择是比较"标题",还是比较"网址",这样就方便了很多,我在FoosunCMS中用采集时,就这样用,原程序是比较网址的,后来本人将其改成比较新闻标题,这样可以到处采,只要发现没有采过的就会自动采回来,感觉很好!

TOP

........貌似有些道理

TOP

是啊。重复采集的问题比较多,最好有个历史记录

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.203432 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-11-23 02:20 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档