找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 21482|回复: 64

火车采集器2011版功能建议帖

[复制链接]
发表于 2011-4-8 16:10:58 | 显示全部楼层 |阅读模式
火车采集器2011整体框架如下,细节功能还希望广大车友补充!

1.多语言
支持简体中文,繁体中文,英文.

2.数据库
使用Mongodb数据库,解决数据库的瓶颈

3.系统服务
采集器可以在后台运行,可以设置自动运行.前台可以使用exe,web去管理,更方便构架 服务器+客户端运行模式

4.数据编辑
用户可以对数据进行编辑,可以指定权限的访问不同的任务,处理不同的数据,可以将采集后的数据直接发布到网站后台(一般使用web发布);

5.开发SDK
给采集器留更多的插件开发位置.插件可以参与更多的流程控制.

6.地址库
哪个任务加入哪个网址库,是可以在新建时选择的.

7.数据优化
自动链接,自动分词,中译英等做为模块.更多内置的模块需要您的建议。

8.可视化DOM树规则编写 xpath提取网页数据

9.更多...


以下几项是部分用户反馈并已加入开发计划的功能。大家还有什么建议,欢迎留言或是联络我们。对于一些细节性的问题,也欢迎大家补允。

1.解决https提示 Could not establish trust relationship for the SSL/TLS secure channel. 的问题。
  相关话题:http://bbs.locoy.com/viewthread.php?tid=57780
2.做aspx分页post网址通用解决办法
  相关话题:http://bbs.locoy.com/viewthread.php?tid=56816
            http://bbs.locoy.com/viewthread.php?tid=59574
            http://bbs.locoy.com/viewthread.php?tid=55381
3.web发布时,支持json,xml等格式数据的发布
4.自动登陆功能和登陆状态维护,多域名登陆
  相关话题:http://bbs.locoy.com/spider-55077-1-4.html
            http://bbs.locoy.com/spider-51887-1-6.html
5.一键转载
    类似于海纳的一键转载功能。
6.Rss采集源自动识别
7、集成火车头网页正文提取模块和通用OCR识别模块等。
发表于 2011-4-8 16:33:12 | 显示全部楼层
好耶,2011 出来了
发表于 2011-4-8 16:35:43 | 显示全部楼层
沙发支持一下....
发表于 2011-4-8 16:35:43 | 显示全部楼层
全面建议更多的开放免费功能 让大家都认识火车 普及火车。
发表于 2011-4-8 16:36:02 | 显示全部楼层
1,列表处匹配地址时,能采用正则匹配链接
2,过滤和替换支持正则模式

评分

1

查看全部评分

发表于 2011-4-8 16:38:12 | 显示全部楼层
本帖最后由 lglamway 于 2011-4-8 18:43 编辑

先占位 。然后慢慢慢慢编辑

1,增加个 批量修改发布模块的工具 ,    比如: (批量修改10个发布模块里的 特定字符或地址)

2.同一任务多模块发布时,。增加对每一个模块随机抽取信息的功能,这样很适合一个任务采集来的信息发布到多站点上去,且不会出现多网站相同的数据的情况。(类似博客群发的功能,多篇文章发布到不同的博客上,发布一篇自动删除一篇,不产生重复发布的弊病)

评分

1

查看全部评分

发表于 2011-4-8 16:40:27 | 显示全部楼层
1.发布返回的错误代码自定义支持正则提取及多种状态标志为成功
2.将全局关键词替换的功能分配在指定任务执行
3.更新自动提取关键词的库库,直接按行业分类,并且想办法可以自动更新,现在的自动分词功能分出来的词大多无用
4.加入更多,更合理的伪原创方法,取人长,补已短
5.支持更新数据,原来已经采集和发布的数据,如果我想重采,直接右键,更新当前已采集任务即可
6.删除任务时,提示是否删除任务的网址库以及自动更新的配置
7.支持任务排序及任务所在站点转移
8.发布时支持动态COOKIE,有的站每发布一篇文章,COOKIE就不一样,而且HEADER也需要有自定义的功能,自己添加一些值
9.刷新登录随机值那里,增加一个来源页面的功能,这样就不用去修改动易的程序才能写WEB发布模块了

评分

1

查看全部评分

发表于 2011-4-8 16:41:17 | 显示全部楼层
本以为火车要开始转型了,既然出了意见征集贴,我就说一点吧。
同一任务多模块发布时,希望可以增加对每一个模块随机抽取信息的功能,这样很适合一个任务采集来的信息发布到多站点上去,且不会出现多网站相同的数据的情况。。

评分

1

查看全部评分

发表于 2011-4-8 16:41:51 | 显示全部楼层
1.还是一个问题 多页的循环匹配功能
2.OCR识别

评分

1

查看全部评分

发表于 2011-4-8 16:42:06 | 显示全部楼层
本帖最后由 grick 于 2011-4-8 17:42 编辑

自动识别分页处,支持正则变量替换.
(\d\w)[a-z]
\$1
===========
文章页面地址必须包含 & 不得包含
支持正则匹配
===========
加强同时采集多页面
现有功能多页面为站内采集,如若能增强为跨域采集,则可玩性更强.

评分

1

查看全部评分

您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表