申请会员
登录
搜索
帮助
火车采集器|信息数据采集论坛
»
论坛记事、活动、培训区
» 火车采集器2008版意见征集帖
‹‹ 上一主题
|
下一主题 ››
70
‹‹
1
2
3
4
5
6
7
››
发新话题
发布投票
发布商品
发布悬赏
发布活动
发布辩论
发布视频
打印
火车采集器2008版意见征集帖
本主题由 rq204 于 2008-7-18 09:14 设置高亮
fillins
热心会员
UID
7702
帖子
111
活跃度
217 点
火车车厢
395 节
注册时间
2006-10-21
个人空间
发短消息
加为好友
当前离线
31楼
大
中
小
发表于 2008-7-23 16:33
只看该作者
1.能否实现正则和标记结合使用?即可以匹配指定区域的正则表达式
2.有某些论坛(或其他程序),总无法登录,cookie总显示为空,希望可以解决
3.模块能否推出某些机制,即部分核心内容无法变更,由密码保护,其他可以随意修改?(最好把模块的版权性变强一些,比如模块作者是不能去掉的~)
4.二级网址功能太弱,能否加强?
5.希望可以解决不关闭任务,无法变更目标站分类的bug.
先提这五个,想起来再说
[
本帖最后由 fillins 于 2008-7-23 16:34 编辑
]
本帖最近评分记录
rq204
火车车厢
+5
谢谢您的建议
2008-7-23 18:57
rq204
活跃度
+10
谢谢您的建议
2008-7-23 18:57
接采集任务
UID
7702
帖子
111
精华
0
积分
217
活跃度
217 点
火车车厢
395 节
阅读权限
30
在线时间
475 小时
注册时间
2006-10-21
最后登录
2008-12-1
查看详细资料
TOP
xiaozhang
个人版用户
UID
46423
帖子
77
活跃度
84 点
火车车厢
3 节
注册时间
2007-6-10
个人空间
发短消息
加为好友
当前离线
32楼
大
中
小
发表于 2008-7-23 17:32
只看该作者
强列建议增加同义词替换功能
最好能有智能分词功能的出现。
并且好做出选择是对标题进行替换,还是全文,还是两个一起替换。
2、转移功能,就是原来我是用的免费版 ,后来用的企业版,如果快速的把原来的数据与规则什么的都转移到企业版中去。
今天又发现一个问题,希望能得到解决:sy_摘要 这个标签没有过滤或替换功能。 问题是,当以规定的字符数截取内容标签的前多少字时,有可能正好截取到“?”,就容易形成 <meta name="description" content=" 火车采集器|信息数据采集论坛 火车头采集器,网页内容采集及处理软件,可以在线发布实时发布到网站,也可以直接更新到数据库?> 这最后的?>就与PHP语法对应起来,网页就出错了。
[
本帖最后由 xiaozhang 于 2008-8-5 15:33 编辑
]
本帖最近评分记录
rq204
火车车厢
+2
谢谢您的建议
2008-7-23 18:57
rq204
活跃度
+4
谢谢您的建议
2008-7-23 18:57
承接火车头采集任务 模块规则定制
348587412
月色湾
两棵树
UID
46423
帖子
77
精华
0
积分
84
活跃度
84 点
火车车厢
3 节
阅读权限
80
在线时间
445 小时
注册时间
2007-6-10
最后登录
2008-11-30
查看详细资料
TOP
vus520
尘缘
管理员
越学越少
UID
30324
帖子
2116
活跃度
3637 点
火车车厢
126 节
注册时间
2007-5-1
个人空间
发短消息
加为好友
当前离线
33楼
大
中
小
发表于 2008-7-23 20:20
只看该作者
大家都说得差不多了,有几点要提一下。
1,关于下载附件的命名问题,这个问题急需解决;
由于迅雷和快车两个组件导入列表时不支持目录存放功能,所以这个地方还是有比较大的难度的。从目前来看,迅雷的数据库是否可以破解一下,火车的下载列表直接保存为迅雷的数据库。
2,在模块制作与规则制作这两个功能,应该好好结合一下,我已经提过很多次了。模块做好以后,里面已经定义好了很多标签,用户建立规则的时候,就需要手动建立这些标签,目前,火车制作规则是和模块分开的,能不能这样设计,用户下载或者先做好模块,这里就已经定义好了我们需要的标签,制作规则时,选择我们需要的模块,程序自动读取出模块里的标签并自动建立。
这样可以解决三个问题,制作规则不用再看模块,不会出现发布的内容中还含有[标签XXXX],保护和强化模块加密这个功能。
3,建议火车增加一个外部调用的功能,比如命名行调用参数,使用任务计划启动火车某个任务,以弥补现行火车自动化功能的不足。
4,火车还不支持ESC等这些常见快捷键,不方便操作。
5,火车的界面确实有待大幅提升一下,文本输入框最好能自定宽度和高度,现在的框框真是太小了。
6,已采集数据的编辑功能应该加强一下,可视化编辑与批量编辑(查找替换,删除)功能。
7,增加内容随机发布时间,间隔为自定义的随机值。
8,目前的SY_一类的标签,最好是可以改一下,可以对本标签和其它标签内容进行数据处理。
本帖最近评分记录
rq204
火车车厢
+8
谢谢您的提议
2008-7-24 09:35
rq204
活跃度
+16
谢谢您的提议
2008-7-24 09:35
出差中.相关业务请联系其它管理员.
预祝大家2009年大吉大利.
:)
UID
30324
帖子
2116
精华
3
积分
3637
活跃度
3637 点
火车车厢
126 节
阅读权限
200
来自
中国 北京
在线时间
2155 小时
注册时间
2007-5-1
最后登录
2008-12-1
查看个人网站
查看详细资料
TOP
覃生
新手上路
UID
1580
帖子
57
活跃度
130 点
火车车厢
16 节
注册时间
2006-4-1
个人空间
发短消息
加为好友
当前离线
34楼
大
中
小
发表于 2008-7-23 20:54
只看该作者
内容发布,还不够傻瓜式,比较难用,
我一下子就学会采集了,
但是在一些系统里发布,老是学不会,假如是大家都用的系统,还好,
要是没什么人用的系统,比如是用了一些层啊,或者用了AJAX技术的,
基本上,不会发布了,
不知,能不能,发布内容的功能,做得更加傻瓜式,
比如,可以做成,
在火车头的一个特殊浏览器里,打开发布内容的页面,
火车头特殊浏览器把网页按实际情况切成一块一块的标签块,
用户,根据提示,选择哪一块是属于标题,哪一块是放内容的,等等,
火车头特殊浏览器分析,用户的选择,最后,保存,这样,应该人人都会发布了,哈哈。。。
假如是做成这样,那么方便多,傻瓜式多咯
不知,能不能实现,谢谢了。
[
本帖最后由 覃生 于 2008-7-23 20:57 编辑
]
本帖最近评分记录
rq204
火车车厢
+3
谢谢您的提议
2008-7-24 09:35
rq204
活跃度
+6
谢谢您的提议
2008-7-24 09:35
UID
1580
帖子
57
精华
0
积分
130
活跃度
130 点
火车车厢
16 节
阅读权限
20
在线时间
525 小时
注册时间
2006-4-1
最后登录
2008-11-30
查看详细资料
TOP
xioayao
新手上路
愚人节诞生的ID
UID
19819
帖子
37
活跃度
101 点
火车车厢
4 节
注册时间
2007-4-1
个人空间
发短消息
加为好友
当前离线
35楼
大
中
小
发表于 2008-7-23 21:42
只看该作者
一个小建议,
对于内容替换与内容排除选项是不是可以添加一个暂停的小功能
本帖最近评分记录
rq204
活跃度
+4
谢谢您的提议
2008-7-24 09:35
rq204
火车车厢
+2
谢谢您的提议
2008-7-24 09:35
UID
19819
帖子
37
精华
0
积分
101
活跃度
101 点
火车车厢
4 节
阅读权限
20
在线时间
200 小时
注册时间
2007-4-1
最后登录
2008-10-29
查看详细资料
TOP
indiboy
嘉宾
UID
46868
帖子
112
活跃度
318 点
火车车厢
34 节
注册时间
2007-6-11
个人空间
发短消息
加为好友
当前离线
36楼
大
中
小
发表于 2008-7-24 04:09
只看该作者
一、
能不能
附件下载和采集任务分开
?采集的时候不要下载附件,到最后统一下载。这样采集时不至于太卡了
二、
还有就是增加SY的一些
运算符
,+ - x 除,这样采集的时候自动归类有好处比如说采集ID,1,2,3 顺序排列,而你的是 4,5,6 这样原来的数字+3就可以了。呵呵
三、
上面已经提过的
商业版的验证问题
,能不能帐号的方式(CDkey),网络验证,而不是现在的硬件绑定,现在是想买不敢买,首先是机器想换,换机器了前就没有了,或者想升级硬件什么的,超级不爽,其次是一般人都是单位家里跑,总不能买两个吧,并且单位的机器流动性比较大。最后就是做IT的一般都是到处跳槽,呵呵
四、
替换和全局替换的问题
,能不能换一种方式?
例如:一下内容放在一个框里面,最好存文本,
前字符|后字符
前字符|后字符
前字符|后字符
前字符|后字符
或者类似?这样输入什么的都方便,现在一个一个加累死人,鼠标都点坏了。
五、
采集来源页面的问题。
我再采集elong.cn的时候,采集的时候需要来源页面,没有来源页面采集到的内容一样,好像是POST数据,采集不到分页
六、
能不能给火车更大的开放性,比如说
提供一个外挂的接口,
可以基于接口开发外挂。
其他的想起来再编辑
[
本帖最后由 indiboy 于 2008-7-24 04:27 编辑
]
本帖最近评分记录
rq204
火车车厢
+6
谢谢您的提议
2008-7-24 09:35
rq204
活跃度
+12
谢谢您的提议
2008-7-24 09:35
为了寻找梦中的公主,5岁的小帅哥手持棒棒糖傲然离家出走~
UID
46868
帖子
112
精华
0
积分
318
活跃度
318 点
火车车厢
34 节
阅读权限
40
在线时间
620 小时
注册时间
2007-6-11
最后登录
2008-11-29
查看详细资料
TOP
sushy
版主
UID
73621
帖子
736
活跃度
1863 点
火车车厢
336 节
注册时间
2007-11-9
个人空间
发短消息
加为好友
当前离线
37楼
大
中
小
发表于 2008-7-24 08:43
只看该作者
对翻译功能的一点建议
这个功能我没有用过。
不过昨天测试了几个高校的校名,和我想象中的相差甚多。
火车虽然自带了几M的中英文数据库,但语法结构的翻译和词汇的数量上,显然还是不够的。
既然是一款采集软件,我们能否充分利用采集功能,使用那里主义。
google 翻译
http://www.google.cn/language_tools
http://translate.google.com/translate_t?sl=zh-CN&tl=en
yahoo翻译
http://fanyi.cn.yahoo.com/translate_txt
通联免费在线翻译网站
http://www.onlinetranslation.cn/
金桥翻译
http://trans.netat.net/index.php
微软翻译:
http://www.windowslivetranslator.com/Default.aspx
worldingo:
http://www.worldlingo.com/en/products_services/worldlingo_translator.html
另外,建议能对已采集的内容进行再编辑。就有点类似于现在的翻译成拼音功能。
比如我现在有 A 标签,采集的内容我觉得很满意。现在想在A标签的基础上制作一个B标签,内容从A标签内根据一定的规则获得。
本帖最近评分记录
rq204
活跃度
+4
谢谢您的提议
2008-7-24 09:34
rq204
火车车厢
+2
谢谢您的提议
2008-7-24 09:34
UID
73621
帖子
736
精华
0
积分
1863
活跃度
1863 点
火车车厢
336 节
阅读权限
100
在线时间
2295 小时
注册时间
2007-11-9
最后登录
2008-11-27
查看详细资料
TOP
sushy
版主
UID
73621
帖子
736
活跃度
1863 点
火车车厢
336 节
注册时间
2007-11-9
个人空间
发短消息
加为好友
当前离线
38楼
大
中
小
发表于 2008-7-24 08:54
只看该作者
关于对第22楼第一条建议的解释:
http://daxue.baidu.com/
这个页面中,如果我要采集当前页 的大学名称和网址,其中,只采集以 D 开头的部分。那么这个功能就好用了。
首先用 <a name=D></a> 到 </ul> 将 D 部分切割出来,然后再循环采集切割出来的内容。
本帖最近评分记录
rq204
火车车厢
+2
谢谢您的提议
2008-7-24 09:36
rq204
活跃度
+4
谢谢您的提议
2008-7-24 09:36
UID
73621
帖子
736
精华
0
积分
1863
活跃度
1863 点
火车车厢
336 节
阅读权限
100
在线时间
2295 小时
注册时间
2007-11-9
最后登录
2008-11-27
查看详细资料
TOP
sunray
嘉宾
UID
62888
帖子
167
活跃度
415 点
火车车厢
506 节
注册时间
2007-8-5
个人空间
发短消息
加为好友
当前离线
39楼
大
中
小
发表于 2008-7-24 10:59
只看该作者
目前的火车分词技术只能分词标题,
管理员看看 discuz 的这个连接 ,他们的自动获取tags就是这个分词页。
http://keyword.discuz.com/related_kw.html?title=
$subjectenc&content=$messageenc&ics=$charset&ocs=$charset
建议增加远程获取关键词接口的功能,这样对关键词的获取可以扩大到内容里
[
本帖最后由 sunray 于 2008-7-24 11:01 编辑
]
本帖最近评分记录
rq204
火车车厢
+2
谢谢您的建议
2008-7-24 13:26
rq204
活跃度
+4
谢谢您的建议
2008-7-24 13:26
UID
62888
帖子
167
精华
0
积分
415
活跃度
415 点
火车车厢
506 节
阅读权限
40
在线时间
710 小时
注册时间
2007-8-5
最后登录
2008-8-24
查看详细资料
TOP
datoulab
新手上路
UID
26565
帖子
12
活跃度
63 点
火车车厢
0 节
注册时间
2007-4-23
个人空间
发短消息
加为好友
当前离线
40楼
大
中
小
发表于 2008-7-24 11:52
只看该作者
关于SEO优化的一点建议
我们知道,为了让百度收录更多的内容,就是保持你的站点活跃,每日更新,如果我们一次采集N多文章更新的话,百度可能会知道你采集而K站。
我们一般都是发现一个站点就能采集N多文章,要是一次都发布出去收录效果不好还可能会被K。采集完一个站点后没有新的站点要采集,几天可能就不更新。
建议将采集来的内容定时定量的发布,可以设置每天发布多少文章,这样就可以保持站点活跃了,也不用每天都采集了!
本帖最近评分记录
rq204
火车车厢
+2
有这功能的
2008-7-24 13:26
rq204
活跃度
+4
有这功能的
2008-7-24 13:26
科鸟教育网
http://www.keniao.com.cn
提供免费教育资源!
UID
26565
帖子
12
精华
0
积分
63
活跃度
63 点
火车车厢
0 节
阅读权限
20
在线时间
75 小时
注册时间
2007-4-23
最后登录
2008-9-3
查看详细资料
TOP
‹‹ 上一主题
|
下一主题 ››
70
‹‹
1
2
3
4
5
6
7
››
论坛管理及公告
论坛记事、活动、培训区
火车采集器交流与讨论
程序发布
悬赏求助区
采集器讨论区
原1.X版本子讨论区
原2.0版本子讨论区
使用教程区
模块资源区
原1.2.0/1.2.1版本模块保留区
站点任务规则资源区
原1.X版本规则保留区
原2.0版本规则保留区
BUG报告
采集器资源求购区
程序建议区
各种CMS,论坛讨论区(与3.2发布同时开设)
Discuz! | & Supsite
PHPWind & VeryCMS
PHPCMS
DedeCMS
Powereasy动易
Foosun风讯
HBCMS
Dvbbs & DvPHP
WordPress 等Blog程序
Joomla等国外程序
ECMS帝国
新云程序
站长交流区
建站交流
网站赚钱
SEO技术交流
网站系统经验分享
火车域名注册
控制面板首页
编辑个人资料
积分交易
积分记录
公众用户组
个人空间管理
基本概况
流量统计
客户软件
发帖量记录
版块排行
主题排行
发帖排行
积分排行
交易排行
在线时间
管理团队
管理统计
Powered by
Discuz!
6.0.0
© 2001-2007
Comsenz Technology Ltd
Processed in 0.266355 second(s), 8 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-12-2 00:15
皖ICP备06000549
清除 Cookies
-
联系我们
-
火车采集器官方站
-
静态归档
>
界面风格
----------
默认风格
喝彩奥运
深邃永恒
粉妆精灵
诗意田园
春意盎然