火车采集器2011版功能建议帖

rq204 · 发表于 2011-4-8 16:10:58

火车采集器2011整体框架如下，细节功能还希望广大车友补充！

1.多语言
支持简体中文,繁体中文,英文.

2.数据库
使用Mongodb数据库,解决数据库的瓶颈

3.系统服务
采集器可以在后台运行,可以设置自动运行.前台可以使用exe,web去管理，更方便构架服务器+客户端运行模式

4.数据编辑
用户可以对数据进行编辑,可以指定权限的访问不同的任务,处理不同的数据,可以将采集后的数据直接发布到网站后台(一般使用web发布);

5.开发SDK
给采集器留更多的插件开发位置.插件可以参与更多的流程控制.

6.地址库
哪个任务加入哪个网址库,是可以在新建时选择的.

7.数据优化
自动链接,自动分词,中译英等做为模块.更多内置的模块需要您的建议。

8.可视化DOM树规则编写 xpath提取网页数据

9.更多...

以下几项是部分用户反馈并已加入开发计划的功能。大家还有什么建议，欢迎留言或是联络我们。对于一些细节性的问题，也欢迎大家补允。

1.解决https提示 Could not establish trust relationship for the SSL/TLS secure channel. 的问题。
  相关话题：http://bbs.locoy.com/viewthread.php?tid=57780
2.做aspx分页post网址通用解决办法
  相关话题：http://bbs.locoy.com/viewthread.php?tid=56816
         http://bbs.locoy.com/viewthread.php?tid=59574
         http://bbs.locoy.com/viewthread.php?tid=55381
3.web发布时，支持json,xml等格式数据的发布
4.自动登陆功能和登陆状态维护，多域名登陆
  相关话题：http://bbs.locoy.com/spider-55077-1-4.html
         http://bbs.locoy.com/spider-51887-1-6.html
5.一键转载
类似于海纳的一键转载功能。
6.Rss采集源自动识别
7、集成火车头网页正文提取模块和通用OCR识别模块等。

aaaiaaa · 发表于 2011-4-8 16:33:12

好耶，2011 出来了

2482003 · 发表于 2011-4-8 16:35:43

沙发支持一下....

菜鸟也疯狂 · 发表于 2011-4-8 16:35:43

全面建议更多的开放免费功能让大家都认识火车普及火车。

vus520 · 发表于 2011-4-8 16:36:02

1，列表处匹配地址时，能采用正则匹配链接
2，过滤和替换支持正则模式

lglamway · 发表于 2011-4-8 16:38:12

本帖最后由 lglamway 于 2011-4-8 18:43 编辑

先占位。然后慢慢慢慢编辑

1，增加个批量修改发布模块的工具，比如：（批量修改10个发布模块里的特定字符或地址）

2.同一任务多模块发布时，。增加对每一个模块随机抽取信息的功能，这样很适合一个任务采集来的信息发布到多站点上去，且不会出现多网站相同的数据的情况。（类似博客群发的功能，多篇文章发布到不同的博客上，发布一篇自动删除一篇，不产生重复发布的弊病）

孤魂 · 发表于 2011-4-8 16:40:27

1.发布返回的错误代码自定义支持正则提取及多种状态标志为成功
2.将全局关键词替换的功能分配在指定任务执行
3.更新自动提取关键词的库库，直接按行业分类，并且想办法可以自动更新，现在的自动分词功能分出来的词大多无用
4.加入更多，更合理的伪原创方法，取人长，补已短
5.支持更新数据，原来已经采集和发布的数据，如果我想重采，直接右键，更新当前已采集任务即可
6.删除任务时，提示是否删除任务的网址库以及自动更新的配置
7.支持任务排序及任务所在站点转移
8.发布时支持动态COOKIE，有的站每发布一篇文章，COOKIE就不一样，而且HEADER也需要有自定义的功能，自己添加一些值
9.刷新登录随机值那里，增加一个来源页面的功能，这样就不用去修改动易的程序才能写WEB发布模块了

1689689 · 发表于 2011-4-8 16:41:17

本以为火车要开始转型了，既然出了意见征集贴，我就说一点吧。
同一任务多模块发布时，希望可以增加对每一个模块随机抽取信息的功能，这样很适合一个任务采集来的信息发布到多站点上去，且不会出现多网站相同的数据的情况。。

专业收费采集 · 发表于 2011-4-8 16:41:51

1.还是一个问题多页的循环匹配功能
2.OCR识别

grick · 发表于 2011-4-8 16:42:06

本帖最后由 grick 于 2011-4-8 17:42 编辑

自动识别分页处,支持正则变量替换.
(\d\w)[a-z]
\$1
===========
文章页面地址必须包含 & 不得包含
支持正则匹配
===========
加强同时采集多页面
现有功能多页面为站内采集,如若能增强为跨域采集,则可玩性更强.

帐号		自动登录	找回密码
密码			加入会员

火车采集器2011版功能建议帖

评分

评分

评分

评分

评分

评分

浏览过的版块