跳转到文档内容

HAMi 项目 GPU Pod 调度流程源码走读

· 阅读需要 33 分钟
Maintainer

使用 HAMi 的过程中经常会出现 Pod 被创建出来 Pending 的问题,犹以如下两个问题为著:

  • Pod UnexpectedAdmissionError
  • Pod Pending

介于此,展开这部分代码的粗略走读,旨在说明调度过程中各组件的交互,以及资源的计算方式,其他细节会有所遗漏。

介绍 HAMi

· 阅读需要 3 分钟
HAMi 社区

什么是 HAMi?

HAMi(异构 AI 计算虚拟化中间件),之前称为 k8s-vGPU-scheduler,是一种创新解决方案, 旨在管理 Kubernetes 集群内的异构 AI 计算设备。这个一站式中间件能够实现各种 AI 设备的共享, 同时确保不同任务之间的资源隔离。通过提高异构计算设备的利用率, HAMi 提供了一个统一的复用接口,以满足不同设备类型的需求。

CNCFHAMi 是 CNCF Sandbox 项目