Albert » The Next Hop

Read more about the article 基于K8s的云原生AI基础设施：架构、部署与实践【008】-AI算力的高性能传输

基于K8s的云原生AI基础设施：架构、部署与实践【008】-AI算力的高性能传输

在 AI 算力集群中，GPU 提供的是计算能力，而高性能网络决定的是这些计算资源能否在多节点之间高效协同。一旦进入多机训练、参数同步、分布式推理或高吞吐模型服务场景，节点之间的数据交换很快就会成为瓶颈。RoCE /…

26/04/2026

Read more about the article 基于K8s的云原生AI基础设施：架构、部署与实践【007】-AI算力的多网络接入

基于K8s的云原生AI基础设施：架构、部署与实践【007】-AI算力的多网络接入

在 Kubernetes 中，Pod 默认通常只有一张网络接口，也就是常见的 eth0。这张接口承担的是集群默认网络职责，用于…

26/04/2026

Read more about the article 基于K8s的云原生AI基础设施：架构、部署与实践【006】-AI算力的基础脉络

基于K8s的云原生AI基础设施：架构、部署与实践【006】-AI算力的基础脉络

在前面的章节中，容器平台、镜像仓库以及多租户边界已经逐步搭建起来。但对于一个真正可运行的 Kubernetes 集群来说，这些能力还只是基础设施的一部分。因为无论是控制面组件、系统 DaemonSet，还是后续模型服务、训练任务和租户工作负载，最终都要建立在一张稳定可用的集群网络之上。…

24/04/2026

Read more about the article 基于K8s的云原生AI基础设施：架构、部署与实践【005】-AI算力的多租户边界

基于K8s的云原生AI基础设施：架构、部署与实践【005】-AI算力的多租户边界

1. 为什么 AI 算力平台一定会遇到多租户问题在面向…

20/04/2026

Read more about the article 基于K8s的云原生AI基础设施：架构、部署与实践【004】-AI算力的镜像补给站

基于K8s的云原生AI基础设施：架构、部署与实践【004】-AI算力的镜像补给站

在前一章节中，重点讨论的是 Kubernetes 作为容器化平台，如何为 AI 算力提供统一的运行与调度底座。但对于生产环境来说，仅仅把容器平台搭起来还远远不够。平台能够稳定承载工作负载，只是第一步；要让整套系统真正具备持续交付和规模化运行能力，还需要解决镜像从哪里来、如何统一管理、以及如何稳定分发到各节点的问题。…

20/04/2026

Read more about the article 基于K8s的云原生AI基础设施：架构、部署与实践【003】-AI算力的驰骋之地

基于K8s的云原生AI基础设施：架构、部署与实践【003】-AI算力的驰骋之地

Worker Node 批量纳管：从手工部署到 Ansible 自动化…

19/04/2026

Read more about the article 基于K8s的云原生AI基础设施：架构、部署与实践【002】-AI算力的驰骋之地

基于K8s的云原生AI基础设施：架构、部署与实践【002】-AI算力的驰骋之地

在 AI 浪潮中，GPU 无疑是最受关注的资源，但真正影响 AI…

19/04/2026

Read more about the article 基于K8s的云原生AI基础设施：架构、部署与实践【001】-前言

基于K8s的云原生AI基础设施：架构、部署与实践【001】-前言

随着大模型推理、训练与微调逐步走向真实业务场景，AI 基础设施的建设也开始从“能跑起来”迈向“可规模化、可维护、可演进的平台化建设”。在这个过程中，Kubernetes 正在成为越来越多团队的基础底座选择。但真正进入实践后，人们很快会意识到：在 Kubernetes…

19/04/2026