重复采集的问题
现在采集器还不能处理重复采集的问题,没法比较已采集的内容,据说2.0已加加入了这个功能,我要说的是: 比较已采集的网页是的网址进行比较.建议加入比较新闻标题,这样更实用,只要标题相同的,内容其本是相同的,否则采集新闻的流行,相同标题,来源不同网址的内容,大量出现,给人带来不少麻烦.若能设置一个开关,让用户选择是比较"标题",还是比较"网址",这样就方便了很多,我在FoosunCMS中用采集时,就这样用,原程序是比较网址的,后来本人将其改成比较新闻标题,这样可以到处采,只要发现没有采过的就会自动采回来,感觉很好! ........貌似有些道理 是啊。重复采集的问题比较多,最好有个历史记录
页:
[1]