我实测了:AI Agent 已经可以直接管理 Kubernetes GPU 资源
- 作者: Mesut Oezdil / GitHub
- 原文: mesutoezdil.substack.com
- GitHub Repo: kagentWithHami
- 中文翻译: Jimmy Song(原文发布于微信公众号)
引言
最近看到一篇很有意思的海外实战文章:一位来自德国的工程师,在真实 GPU 环境中,把 CNCF 项目 kagent 与 HAMi 跑在了一起,并验证了 AI Agent 如何直接管理 Kubernetes 中的 GPU 虚拟化资源。
这篇文章最有价值的地方,不是"介绍功能",而是完整记录了真实部署、踩坑、调试与验证过程。包括:
- 使用 HAMi 将一张 NVIDIA L40S 虚拟化为 10 张 vGPU
- 使用 kagent 让 AI Agent 直接调用 Kubernetes API
- Agent 自动创建 GPU Pod 并理解 HAMi GPU 分配结果
- 多 Agent 协作(A2A)
- 基于开源模型与 OpenAI-compatible API 完整运行
我们认为,这类真实工程实践,比单纯 benchmark 或功能介绍更能体现 AI Infra 的演进方向。
尤其值得关注的是:
Kubernetes 正在从"容器编排系统",逐渐演化为 AI Runtime 与 GPU Control Plane,而 HAMi 也开始进入 AI Agent、AI Infra、GPU 资源抽象等更大的技术叙事中。
以下为原文翻译。
在开始之前
这不是一篇"文档总结"。
你在下面看到的每一条命令,都是我亲自在 Nebius VM 上执行的。每一个输出结果,也都来自那台机器。
当某些东西失败时,我会去调试;当某些东西成功时,我会解释为什么能成功。文章中的错误都是真实遇到的错误,修复方法也都是我亲自验证过的方案。
如果你使用同样的环境运行这些命令,你会得到相同的结果。
完整仓库(包括所有 manifests 与 setup script)在这里:
https://github.com/mesutoezdil/kagentWithHami
关于本文范围:这篇文章只覆盖核心部分。完整安装流程、所有 manifests、完整 troubleshooting guide 与 setup script 都在 GitHub 仓库中。如果你想自己跑一遍,建议先从仓库开始。
如果你之前没接触过 HAMi:
https://medium.com/@mesutoezdil/hami-in-a-real-kubernetes-environment-e8eaa872f388
如果你想看 GPU 可观测性工具测试:
https://mesutoezdil.substack.com/p/i-tested-every-feature-of-ingero
这篇文章到底在讲什么
kagent 会把 AI Agent 变成 Kubernetes 资源。
你的 system prompt、tools、model config,全部都以 CRD 的形式存在。
你可以:
- 用 Git 管理版本
- 用 Helm 部署
- 用 kubectl 查看
HAMi 则是在 Kubernetes scheduler 层实现 GPU 虚拟化。
一张物理 NVIDIA L40S,可以在 Kubernetes 中变成 10 张虚拟 GPU,并且在 CUDA Driver 层实现严格的显存限制。
Nebius Token Factory 是一个兼容 OpenAI API 的推理服务。
本文所有测试都使用的是 Llama 3.3 70B。
我想验证的问题是:
"一个 AI Agent,是否能够在 Kubernetes 集群内部,仅使用开源模型,就管理 GPU 虚拟化工作负载?"
答案是:
可 以。
测试机器
GPU: 1x NVIDIA L40S (46GB VRAM)
CPU: 8 vCPUs
RAM: 32GB
OS: Ubuntu 24.04 LTS for NVIDIA GPUs (CUDA 13)
nvidia-smi
| NVIDIA-SMI 580.126.09 CUDA Version: 13.0 |
| 0 NVIDIA L40S 0MiB / 46068MiB 0% |
46GB VRAM 完全空闲。
而在本文结束时,它会被变成 10 张虚拟 GPU。