申请会员
登录
搜索
帮助
火车采集器|信息数据采集论坛
»
程序建议区
» 重复采集的问题
‹‹ 上一主题
|
下一主题 ››
发新话题
发布投票
发布商品
发布悬赏
发布活动
发布辩论
发布视频
打印
重复采集的问题
liao365
注册会员
UID
864
帖子
40
活跃度
22 点
火车车厢
5 节
注册时间
2006-2-11
个人空间
发短消息
加为好友
当前离线
1楼
大
中
小
发表于 2006-6-13 00:08
只看该作者
重复采集的问题
[size=-2]
现在采集器还不能处理重复采集的问题,没法比较已采集的内容,据说2.0已加加入了这个功能,
我要说的是: 比较已采集的网页是的网址进行比较.建议加入比较新闻标题,这样更实用,只要标题相同的,内容其本是相同的,否则采集新闻的流行,相同标题,来源不同网址的内容,大量出现,给人带来不少麻烦.若能设置一个开关,让用户选择是比较"标题",还是比较"网址",这样就方便了很多,我在FoosunCMS中用采集时,就这样用,原程序是比较网址的,后来本人将其改成比较新闻标题,这样可以到处采,只要发现没有采过的就会自动采回来,感觉很好!
UID
864
帖子
40
精华
0
积分
30
活跃度
22 点
火车车厢
5 节
阅读权限
10
在线时间
482 小时
注册时间
2006-2-11
最后登录
2008-11-15
查看详细资料
TOP
Hunter
新手上路
UID
2495
帖子
62
活跃度
78 点
火车车厢
5 节
注册时间
2006-5-7
个人空间
发短消息
加为好友
当前离线
2楼
大
中
小
发表于 2006-6-13 09:04
只看该作者
........貌似有些道理
UID
2495
帖子
62
精华
0
积分
78
活跃度
78 点
火车车厢
5 节
阅读权限
20
在线时间
10 小时
注册时间
2006-5-7
最后登录
2007-8-24
查看详细资料
TOP
覆雨翻云
VIP(标准)用户
UID
2575
帖子
201
活跃度
291 点
火车车厢
47 节
注册时间
2006-5-10
个人空间
发短消息
加为好友
当前离线
3楼
大
中
小
发表于 2006-6-13 12:39
只看该作者
是啊。重复采集的问题比较多,最好有个历史记录
UID
2575
帖子
201
精华
0
积分
291
活跃度
291 点
火车车厢
47 节
阅读权限
100
在线时间
370 小时
注册时间
2006-5-10
最后登录
2008-11-21
查看个人网站
查看详细资料
TOP
‹‹ 上一主题
|
下一主题 ››
论坛管理及公告
论坛记事、活动、培训区
火车采集器交流与讨论
程序发布
悬赏求助区
采集器讨论区
原1.X版本子讨论区
原2.0版本子讨论区
使用教程区
模块资源区
原1.2.0/1.2.1版本模块保留区
站点任务规则资源区
原1.X版本规则保留区
原2.0版本规则保留区
BUG报告
采集器资源求购区
程序建议区
各种CMS,论坛讨论区(与3.2发布同时开设)
Discuz! | & Supsite
PHPWind & VeryCMS
PHPCMS
DedeCMS
Powereasy动易
Foosun风讯
HBCMS
Dvbbs & DvPHP
WordPress 等Blog程序
Joomla等国外程序
ECMS帝国
新云程序
站长交流区
建站交流
网站赚钱
SEO技术交流
网站系统经验分享
火车域名注册
控制面板首页
编辑个人资料
积分交易
积分记录
公众用户组
个人空间管理
基本概况
流量统计
客户软件
发帖量记录
版块排行
主题排行
发帖排行
积分排行
交易排行
在线时间
管理团队
管理统计
Powered by
Discuz!
6.0.0
© 2001-2007
Comsenz Technology Ltd
Processed in 0.203432 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-11-23 02:20
皖ICP备06000549
清除 Cookies
-
联系我们
-
火车采集器官方站
-
静态归档
>
界面风格
----------
默认风格
喝彩奥运
深邃永恒
粉妆精灵
诗意田园
春意盎然