火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4698|回复: 2

重复采集的问题

[复制链接]
发表于 2006-6-13 00:08:21 | 显示全部楼层 |阅读模式
[size=-2]现在采集器还不能处理重复采集的问题,没法比较已采集的内容,据说2.0已加加入了这个功能,

我要说的是: 比较已采集的网页是的网址进行比较.建议加入比较新闻标题,这样更实用,只要标题相同的,内容其本是相同的,否则采集新闻的流行,相同标题,来源不同网址的内容,大量出现,给人带来不少麻烦.若能设置一个开关,让用户选择是比较"标题",还是比较"网址",这样就方便了很多,我在FoosunCMS中用采集时,就这样用,原程序是比较网址的,后来本人将其改成比较新闻标题,这样可以到处采,只要发现没有采过的就会自动采回来,感觉很好!
发表于 2006-6-13 09:04:44 | 显示全部楼层
........貌似有些道理
发表于 2006-6-13 12:39:50 | 显示全部楼层
是啊。重复采集的问题比较多,最好有个历史记录
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-4 08:31

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表