在 Cloudera 集群 5.3.0 上运行 Spark 作业¶
https://blueprints.launchpad.net/sahara/+spec/spark-jobs-for-cdh-5-3-0
本规范建议添加在带有 CDH(包含 Apache Hadoop 的 Cloudera 发行版)的集群上运行 Spark 作业的能力。
问题描述¶
Sahara 能够运行带有运行中的 Spark 服务的 CDH 集群。然而,之前没有办法在这些类型的集群上运行 Spark 作业。
提议的变更¶
这项工作涉及添加一个通过 Cloudera 插件运行 Spark 作业的类。现有的 Spark 引擎已被更改,以便能够使用 Spark 和 Cloudera 插件运行 Spark 作业。
替代方案¶
什么都不做。
数据模型影响¶
无。
REST API 影响¶
无。
其他最终用户影响¶
所需进程:- Master: SPARK_YARN_HISTORY_SERVER - Workers: YARN_NODEMANAGER
部署者影响¶
无。
开发者影响¶
无。
Sahara-image-elements impact¶
无。
Sahara-dashboard / Horizon 影响¶
无。
实现¶
负责人¶
- 主要负责人
Alexander Aleksiyants
- 其他贡献者
Oleg Borisenko
工作项¶
依赖项¶
无。
测试¶
单元测试,用于覆盖 CDH 引擎,使其能够与 Spark 作业一起工作。
现在 EDP Spark 单元测试用于 Spark 引擎和 EDP 引擎。
文档影响¶
无。
参考资料¶
无。