基于K8s的云原生AI基础设施:架构、部署与实践【006】-AI算力的基础脉络

在前面的章节中,容器平台、镜像仓库以及多租户边界已经逐步搭建起来。 但对于一个真正可运行的 Kubernetes 集群来说,这些能力还只是基础设施的一部分。因为无论是控制面组件、系统 DaemonSet,还是后续模型服务、训练任务和租户工作负载,最终都要建立在一张稳定可用的集群网络之上。…

0 Comments

基于K8s的云原生AI基础设施:架构、部署与实践【004】-AI算力的镜像补给站

在前一章节中,重点讨论的是 Kubernetes 作为容器化平台,如何为 AI 算力提供统一的运行与调度底座。但对于生产环境来说,仅仅把容器平台搭起来还远远不够。平台能够稳定承载工作负载,只是第一步;要让整套系统真正具备持续交付和规模化运行能力,还需要解决镜像从哪里来、如何统一管理、以及如何稳定分发到各节点的问题。…

0 Comments