|
火车采集器2011整体框架如下,细节功能还希望广大车友补充!
1.多语言
支持简体中文,繁体中文,英文.
2.数据库
使用Mongodb数据库,解决数据库的瓶颈
3.系统服务
采集器可以在后台运行,可以设置自动运行.前台可以使用exe,web去管理,更方便构架 服务器+客户端运行模式
4.数据编辑
用户可以对数据进行编辑,可以指定权限的访问不同的任务,处理不同的数据,可以将采集后的数据直接发布到网站后台(一般使用web发布);
5.开发SDK
给采集器留更多的插件开发位置.插件可以参与更多的流程控制.
6.地址库
哪个任务加入哪个网址库,是可以在新建时选择的.
7.数据优化
自动链接,自动分词,中译英等做为模块.更多内置的模块需要您的建议。
8.可视化DOM树规则编写 xpath提取网页数据
9.更多...
以下几项是部分用户反馈并已加入开发计划的功能。大家还有什么建议,欢迎留言或是联络我们。对于一些细节性的问题,也欢迎大家补允。
1.解决https提示 Could not establish trust relationship for the SSL/TLS secure channel. 的问题。
相关话题:http://bbs.locoy.com/viewthread.php?tid=57780
2.做aspx分页post网址通用解决办法
相关话题:http://bbs.locoy.com/viewthread.php?tid=56816
http://bbs.locoy.com/viewthread.php?tid=59574
http://bbs.locoy.com/viewthread.php?tid=55381
3.web发布时,支持json,xml等格式数据的发布
4.自动登陆功能和登陆状态维护,多域名登陆
相关话题:http://bbs.locoy.com/spider-55077-1-4.html
http://bbs.locoy.com/spider-51887-1-6.html
5.一键转载
类似于海纳的一键转载功能。
6.Rss采集源自动识别
7、集成火车头网页正文提取模块和通用OCR识别模块等。 |
|