申请会员
登录
搜索
帮助
火车采集器|信息数据采集论坛
»
采集器讨论区
»
原1.X版本子讨论区
» [讨论]关于实现同一页面内重复采集的方式
‹‹ 上一主题
|
下一主题 ››
15
1
2
››
发新话题
发布投票
发布商品
发布悬赏
发布活动
发布辩论
发布视频
打印
[讨论]关于实现同一页面内重复采集的方式
火车头
管理员
火车呜呜呜
UID
2
帖子
1480
活跃度
2036 点
火车车厢
131 节
注册时间
2005-9-26
个人空间
发短消息
加为好友
当前离线
1楼
大
中
小
发表于 2006-4-25 16:29
只看该作者
[讨论]关于实现同一页面内重复采集的方式
V2中关于实现同一页面内重复采集的方式想征求一下大家的意见,头大了,好象不怎么转了
问题描述:
一类是比如 采集论坛回复的形式,回复应全部连接起来形成一个整的内容 共享标题发表出去这样 标题=(文章标题) 内容=(回复1+回复2....)
第二类是比将每个回复都作为一篇文章的内容,这样就有:
标题1=(文章标题) 内容1=(回复1)
标题2=(文章标题) 内容2=(回复2)
第三类是如一个页面里有你多条类似文章数据列表,而且内容也在这个页面,麻烦。。
标题1=(文章标题1) 内容1=(文章内容1)
标题2=(文章标题2) 内容2=(文章内容2)
比如这个页面
http://www.21page.net/public/use_tel.asp
要把国际电话区号 86 匪警台 110这样单独作为一个标题和内容
大家帮想想有什么好的实现方式,只要思路就行,哪样设置起来用户比较容易上手。
UID
2
帖子
1480
精华
1
积分
3901
活跃度
2036 点
火车车厢
131 节
阅读权限
200
来自
AH.HF
在线时间
6994 小时
注册时间
2005-9-26
最后登录
2008-10-14
查看个人网站
查看详细资料
TOP
martinzero
注册会员
UID
2227
帖子
12
活跃度
17 点
火车车厢
5 节
注册时间
2006-4-25
个人空间
发短消息
加为好友
当前离线
2楼
大
中
小
发表于 2006-4-25 17:00
只看该作者
要我说啊,没着必要
为什么呢,毕竟论坛回复的规律性不强,到底每个主题采多少回复呢?这个不好判断,除非你连人家的发贴用户也判断了,不过要是那样的话,我觉得就不是采集器了,方向变了,应该叫论坛搜索了,或什么的, 反正我个人觉得那样作用不大了,要采就找好采的采啊,人啊需求是多样的,满足基本的,牢固核心的,开发高级的就行,呵呵.
其实现在火车头的功力已经很高了,我到是觉得应该巩固核心,排除BUG,稳定,高速,兼容性强,易扩展模块是方向,说实在的我也算混了段时间的人了,可是模块问题一直头疼,假如有一天我可以很轻松的编写出来我见过的网站模块,并能用普通会员身份发文章的话,那我第一个打包裹跟随火车头了.真的,如果真能那样,互连网会因你而改变.
哈哈,罗嗦了一堆,主要是:$太喜欢火车头了.别嫌肉麻啊
认识我就联系我:9316898
UID
2227
帖子
12
精华
0
积分
17
活跃度
17 点
火车车厢
5 节
阅读权限
10
在线时间
35 小时
注册时间
2006-4-25
最后登录
2007-7-28
查看详细资料
TOP
秋天的无名
注册会员
UID
2027
帖子
28
活跃度
1 点
火车车厢
5 节
注册时间
2006-4-17
个人空间
发短消息
加为好友
当前离线
3楼
大
中
小
发表于 2006-4-25 21:24
只看该作者
我也使觉得,论坛回复采集难度太大,没什么必要花这个功夫,毕竟好文章不是论坛才有,就是要选好采的来采,简单问题不要复杂化了。还有就是解决同一页面中不同时间采集时,怎样排除已经采集发布过的链接。
天元投资
UID
2027
帖子
28
精华
0
积分
11
活跃度
1 点
火车车厢
5 节
阅读权限
10
来自
Guangxi
在线时间
5 小时
注册时间
2006-4-17
最后登录
2007-11-22
查看个人网站
查看详细资料
TOP
netdream
管理员
UID
60
帖子
1296
活跃度
1176 点
火车车厢
70 节
注册时间
2005-11-23
个人空间
发短消息
加为好友
当前离线
4楼
大
中
小
发表于 2006-4-26 08:48
只看该作者
我觉得做到第一、二点就足够了,没必要那么复杂,网上内容那么多,找好采的来采不就行了。另外:希望2.0能恢复以前的手工添加标题的功能,因为有些CMS不能无限分类,手工添加便于内容的归类。
UID
60
帖子
1296
精华
0
积分
2081
活跃度
1176 点
火车车厢
70 节
阅读权限
200
在线时间
1830 小时
注册时间
2005-11-23
最后登录
2008-10-8
查看详细资料
TOP
netdream
管理员
UID
60
帖子
1296
活跃度
1176 点
火车车厢
70 节
注册时间
2005-11-23
个人空间
发短消息
加为好友
当前离线
5楼
大
中
小
发表于 2006-4-27 07:32
只看该作者
引用:
是恢复以前的手工添加 标题前缀 这个功能
改模块可以实现啊
UID
60
帖子
1296
精华
0
积分
2081
活跃度
1176 点
火车车厢
70 节
阅读权限
200
在线时间
1830 小时
注册时间
2005-11-23
最后登录
2008-10-8
查看详细资料
TOP
pop8648
注册会员
UID
209
帖子
16
活跃度
3 点
火车车厢
5 节
注册时间
2005-12-7
个人空间
发短消息
加为好友
当前离线
6楼
大
中
小
发表于 2006-4-27 10:43
只看该作者
回复 #2 martinzero 的帖子
新手支持的说!模块问题一直头疼!
UID
209
帖子
16
精华
0
积分
9
活跃度
3 点
火车车厢
5 节
阅读权限
10
在线时间
248 小时
注册时间
2005-12-7
最后登录
2008-7-8
查看详细资料
TOP
netdream
管理员
UID
60
帖子
1296
活跃度
1176 点
火车车厢
70 节
注册时间
2005-11-23
个人空间
发短消息
加为好友
当前离线
7楼
大
中
小
发表于 2006-4-27 23:44
只看该作者
呵呵,试验成功!!!!!!!!!!谢谢火车哦!!!!!!!!
UID
60
帖子
1296
精华
0
积分
2081
活跃度
1176 点
火车车厢
70 节
阅读权限
200
在线时间
1830 小时
注册时间
2005-11-23
最后登录
2008-10-8
查看详细资料
TOP
download
个人版用户
UID
352
帖子
23
活跃度
13 点
火车车厢
5 节
注册时间
2005-12-24
个人空间
发短消息
加为好友
当前离线
8楼
大
中
小
发表于 2006-4-28 00:40
只看该作者
2.0呢,我觉得还是加强登陆模块,以前是用DLL固定的模块,虽然不能自定义,但是那些模块都没有出错过,很好用,现在换了自定义模块,就出现很多错误,包括以前是没有错的,都出错了,如我用过的心雨动网的CMS,本来新年版之前都是好好的,换了1.2后居然出问题,且无法解决的
我觉得火车现在真的已经很强,还有只是一些细节方面的,如,加回导库,导入/导出规则等
另,我想提提,那个探测真实地址好像是没用,有一些下载地址虽是动态的,但很简单,在下载工具里是还原成真实路径的,但火车探不了,还准挂呢
UID
352
帖子
23
精华
0
积分
14
活跃度
13 点
火车车厢
5 节
阅读权限
80
在线时间
152 小时
注册时间
2005-12-24
最后登录
2008-8-14
查看详细资料
TOP
bluestone
新手上路
UID
1351
帖子
47
活跃度
55 点
火车车厢
5 节
注册时间
2006-3-19
个人空间
发短消息
加为好友
当前离线
9楼
大
中
小
发表于 2006-4-28 15:20
只看该作者
我发表些看法,首先我们要采集的回帖都是基本上要有实际内容的回帖,通常是采集内容字数较多的,要么就是只需要采集楼主一个人的回帖,因为这个帖子有可能都是楼主发的教程之类,中间会有其他人的评论,通常这些没有意义的评论的字数都是很少,所以,如果能在采集的时候判断多少字以下的回帖不进行采集,给过滤掉;另外如果能设置只采集楼主的帖子及回复,而不采集其他人的回复,那样就更完美了
UID
1351
帖子
47
精华
0
积分
55
活跃度
55 点
火车车厢
5 节
阅读权限
20
在线时间
190 小时
注册时间
2006-3-19
最后登录
2007-2-22
查看详细资料
TOP
原始森林
超级版主
UID
1396
帖子
220
活跃度
159 点
火车车厢
2 节
注册时间
2006-3-24
个人空间
发短消息
加为好友
当前离线
10楼
大
中
小
发表于 2006-4-28 15:35
只看该作者
同意所有意见...呵
极少数的需要不值得发这么多时间和精力去研究它~~
采,踩,彩,猜,睬
UID
1396
帖子
220
精华
0
积分
483
活跃度
159 点
火车车厢
2 节
阅读权限
150
来自
北京
在线时间
1285 小时
注册时间
2006-3-24
最后登录
2008-8-19
查看个人网站
查看详细资料
TOP
‹‹ 上一主题
|
下一主题 ››
15
1
2
››
论坛管理及公告
论坛记事、活动、培训区
火车采集器交流与讨论
程序发布
悬赏求助区
采集器讨论区
原1.X版本子讨论区
原2.0版本子讨论区
使用教程区
模块资源区
原1.2.0/1.2.1版本模块保留区
站点任务规则资源区
原1.X版本规则保留区
原2.0版本规则保留区
BUG报告
采集器资源求购区
程序建议区
各种CMS,论坛讨论区(与3.2发布同时开设)
Discuz! | & Supsite
PHPWind & VeryCMS
PHPCMS
DedeCMS
Powereasy动易
Foosun风讯
HBCMS
Dvbbs & DvPHP
WordPress 等Blog程序
Joomla等国外程序
ECMS帝国
新云程序
站长交流区
建站交流
网站赚钱
SEO技术交流
网站系统经验分享
火车域名注册
控制面板首页
编辑个人资料
积分交易
积分记录
公众用户组
个人空间管理
基本概况
流量统计
客户软件
发帖量记录
版块排行
主题排行
发帖排行
积分排行
交易排行
在线时间
管理团队
管理统计
Powered by
Discuz!
6.0.0
© 2001-2007
Comsenz Technology Ltd
Processed in 0.139040 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-10-15 04:50
皖ICP备06000549
清除 Cookies
-
联系我们
-
火车采集器官方站
-
静态归档
>
界面风格
----------
默认风格
喝彩奥运
深邃永恒
粉妆精灵
诗意田园
春意盎然