阿里巴巴混部系统 Koordinator 开源了,怎么用?怎么赋能开发者共创技术生态?
Koordinator 的使用主要通过将其部署在 Kubernetes 集群中,利用其提供的混部调度、资源画像、差异化 SLO 等能力来优化资源效率。开发者可以通过安装 Koordinator 组件(如 Koordlet、Koord Manager)接入现有集群,无需大幅修改应用即可享受混部红利。赋能生态方面,Koordinator 通过开源社区吸纳了阿里巴巴、小米、小红书等企业贡献,支持 K8s 与 YARN 混部等场景,提供标准化接口和文档,降低企业接入门槛,共同推动云原生混部技术的标准化和成熟度,实现技术共创。
阿里巴巴云原生混部系统 Koordinator 正式开源
脱胎于阿里巴巴内部,经过多年双 11 打磨,每年为公司节省数十亿的混部系统 Koordinator 今天宣布正式开源。通过开源,我们希望将更好的混部能力、调度能力开放到整个行业,帮助企业客户改进 云原生 工作负载运行的效率、稳定性和 计算成本。混部是什么?业界很多互联网公司或多或少都有布局将不同特征类型工作负载协同调度的技术方向,充分利用负载之间的消峰填谷效应,让工作负载以更稳定、更高效、更低成本的方式去使用资源。这样的一套系统或机制,也就是业界时常提及的“混部”概念。阿里巴巴的混部:阿里巴巴在 2011 年开始探索 容器技术,并在 2016 年启动混部技术研发,至今经过了多轮技术架构升级,最终演进到今天的云原生混部 系统架构,实现了全业务规模超千万核的云原生混部,混部天平均 CPU 利用率超 50%,帮助阿里巴巴节省了大量的资源成本。
Koordinator 1.0 正式发布:业界首个生产可用、面向规模场景的开源混部系统
Koordinator 从 2022 年 4 月发布以来,迄今一共迭代发布了 8 个版本。项目经历的大半年发展过程中,Koordinator 社区吸纳了包括阿里巴巴、小米、小红书、爱奇艺、360 在内的大量优秀工程师,贡献了众多的想法、代码和场景,一起推动 Koordinator 项目的成熟。如果你对混部、调度领域不太关注,可能对 Koordinator 还没有做过太深入的了解。本文就借着 v1.0 发布时机,详细梳理下 Koordinator 项目的发展脉络,解读它的核心思想和愿景,掌握这个正在快速发展的云原生混部系统的技术理念。为了帮助企业少走弯路,更快速的拿到云原生混部带来的资源效率红利,阿里巴巴在 2022 年 4 月份正式对外发布的 Koordinator 开源项目。通过建立一个中立的开源社区,帮助企业实现在标准 Kubernetes 之上的多种类型负载混部的调度解决方案,以达到云上、云下一致的云原生混部架构,降低系统运维成本,保持长期可持续发展的健康形态。
Koordinator 助力 ACK 容器调度升级,提升应用性能,节约资源成本
为了帮助 ACK 用户提升容器性能,优化资源效率,阿里云 ACK 在 2021 年推出了 ack-slo-manager 套件,提供了包括 CPU Burst 性能优化、负载感知调度、差异化 SLO 精细化调度、资源画像等一系列功能。这些功能帮助 ACK 用户有效提升了容器的性能表现和集群利用率,降低了资源成本。随着 Koordinator 社区的逐渐成熟,技术上也实现了对 ack-slo-manager 套件的反哺。为了让广大客户获得一致的技术体验,ACK 在原组件的基础上进行了全面升级,日前最新发布的 v1.1.1-ack.1 版本,在标准化、通用化上做出了更多的突破,对相关功能进行了整合,兼容适配了所有原协议和功能,用户可以在应用完全无感的情况下完成从 ack-slo-manager 到 ack-koordinator 的一键升级。目前,Koordinator 已经全面接入阿里云容器服务 ACK,用户可以直接在控制台安装使用。本文将为您介绍相关技术的核心原理。
Koordinator v1.4 正式发布!为用户带来更多的计算负载类型和更灵活的资源管理机制
Koordinator 作为一个积极发展的开源项目,自 2022 年 4 月发布 v0.1.0 版本以来,经历了多次迭代,持续为 Kubernetes 生态系统带来创新和增强。项目的核心是提供混部工作负载编排、混部资源调度、混部资源隔离和混部性能调优的综合解决方案,帮助用户优化容器性能,并提升集群资源使用效率。在过去的版本迭代中,Koordinator 社区不断壮大,已经得到了包括阿里巴巴、蚂蚁科技、Intel、小米、小红书、爱奇艺、360、有赞、趣玩、美亚柏科、PITS 等知名企业工程师的积极参与和贡献。每一个版本都是在社区共同努力下推进的,反映了项目在实际生产环境中解决问题的能力。今天我们很高兴的向大家宣布,Koordinator v1.4.0 版本正式发布。在本次发布中,Koordinator 引入了 Kubernetes 与 YARN 负载混部、NUMA 拓扑对齐策略、CPU 归一化和冷内存上报等新特性。
云原生混部系统 Koordinator 架构详解
混部的概念可以从两个角度来理解,从节点维度来看,混部就是将多个容器部署在同一个节点上,这些容器内的应用既包括在线类型,也包括离线类型;从集群维度来看,混部是将多种应用在一个集群内部署,通过预测分析应用特性,实现业务在资源使用上的错峰填谷,以达到提升集群资源利用率的效果。基于以上的理解,我们就可以明确混部需要解决的目标问题以及技术方案。本质上,我们实施混部的初衷是源自对数据中心资源利用效率的不懈追求。埃森哲报告显示,2011 年公有云数据中心的机器利用率平均不到 10%,意味着企业的资源成本极高,而另一方面随着大数据技术的发展迅速,计算作业对资源的需求越来越大。事实上,大数据通过云原生方式上云已成为了必然趋势,据 Pepperdata 在 2021 年 12 月的调查报告,相当数量的企业大数据平台已经开始向云原生技术迁移。
FAQ
Koordinator 主要解决什么问题?
主要解决云原生场景下不同类型工作负载混部时的调度、运行时性能以及稳定性挑战,提高资源利用率。
企业如何接入 Koordinator?
可以通过阿里云 ACK 控制台一键安装,或在自有 K8s 集群中部署 Koordinator 组件,兼容标准 Kubernetes 协议。
社区如何参与共创?
开发者可以通过贡献代码、分享实践场景、参与社区讨论等方式加入,目前已有阿里巴巴、小米、小红书等企业参与。