CDH 与 Cloudera Manager 的 Sahara 插件

https://blueprints.launchpad.net/sahara/+spec/cdh-plugin

本规范建议在 Sahara 中添加与 Cloudera Distribution of Hadoop 和 Cloudera Manager 相关的 CDH 插件。

问题描述

Cloudera 是开源的 Apache Hadoop 发行版,CDH(Cloudera Distribution Including Apache Hadoop)。CDH 包含 Hadoop 的主要核心组件,提供对大型数据集进行可靠、可扩展的分布式数据处理(主要是 MapReduce 和 HDFS),以及其他面向企业的组件,提供安全性、高可用性和与硬件和其他软件的集成。[1]

提议的变更

CDH 插件的实现将支持 Cloudera Manager 版本 5 和 CDH 版本 5。

插件将支持 Sahara 的关键特性

  • Cinder 集成

  • 集群扩展

  • EDP

  • 集群拓扑验证

  • 与 Swift 的集成

  • 数据本地性

插件将能够安装以下服务

  • Cloudera Manager

  • HDFS

  • YARN

  • Oozie

CDH 插件将支持以下操作系统:Ubuntu 12.04 和 CentOS 6.5。CDH 配置插件将支持包含 CDH 和 CM 包的镜像。

默认情况下,CDH 不支持 Hadoop Swift 库。应将与 Swift 的集成添加到 CDH 插件中。CDH maven 仓库包含 Hadoop Swift 库。[2]

CDH 插件将支持以下进程

  • MANAGER - Cloudera Manager,主进程

  • NAMENODE - HDFS NameNode,主进程

  • SECONDARYNAMENODE - HDFS SecondaryNameNode,主进程

  • RESOURCEMANAGER - YARN ResourceManager,主进程

  • JOBHISTORY - YARN JobHistoryServer,主进程

  • OOZIE - Oozie server,主进程

  • DATANODE - HDFS DataNode,工作进程

  • NODEMANAGER - YARN NodeManager,工作进程

替代方案

数据模型影响

REST API 影响

其他最终用户影响

部署者影响

开发者影响

Sahara-image-elements impact

CDH 插件必须支持 vanilla 镜像和包含 Cloudera 包的镜像。对于构建预安装了 Cloudera 包的镜像,请使用特定的 CDH 元素。

Sahara-dashboard / Horizon 影响

实现

负责人

主要负责人

sreshetniak

其他贡献者

iberezovskiy

工作项

  • 添加插件实现

  • 在 Sahara-ci 中添加任务

  • 添加集成测试

  • 为构建预安装了 Cloudera 包的镜像,在 Sahara-image-elements 中添加元素

依赖项

依赖于 OpenStack 的要求,需要 cm_api python 库版本 6.0.2,该版本目前不存在于 OS 的要求中。[3] 需要将 cm_api 添加到 OS 的要求中。[4]

测试

  • 为 Sahara 添加单元测试,以覆盖插件的基本功能

  • 为 Sahara 添加集成测试

文档影响

CDH 插件文档应添加到 Sahara 文档的插件部分。

参考资料