瑞康的博客

当两个 HEALTH CHECK 看到不同的 GPU 状态：一次架构问题的排查，修复与反思

本文记录一次 GPU 节点健康检查中的状态不一致问题：Passive Health Check 与 dcgm-exporter 在同一节点上看到了不同的 GPU 状态。问题的根因在于两个容器各自运行独立的 embedded nv-hostengine，最终通过独立部署节点级 Host Engine 并结合 internalTrafficPolicy: Local，实现统一状态视图与统一控制入口。

Tue, Mar 31, 2026 GPU Cluster

一文读懂 DCGM：从 NVML 到 HOSTENGINE 的 GPU 管理体系

本文系统梳理 NVIDIA GPU 工具链中 NVML、NVIDIA-SMI、DCGM、HostEngine、DCGMI 与 DCGM Exporter 的关系，并解释为什么在 GPU 集群与云原生可观测性场景下，单纯依赖设备级接口已经不够，需要引入 DCGM 这样的长期运行管理系统。

Mon, Mar 23, 2026 GPU Cluster

为什么需要 NCCL TESTS

很多人会把 NCCL Tests 当成单纯的 GPU 通信跑分工具，但它更准确的定位其实是 GPU 集群通信链路的诊断工具。通过把训练过程中的通信部分单独抽离出来，它可以帮助我们更高效地定位 NCCL timeout、RDMA 未生效、节点互通异常、带宽衰减和网络抖动等底层问题。

Tue, Mar 17, 2026 GPU Cluster

一文读懂 PROMETHEUS 核心机制

最近作为可观测性工程师加入了一家 NeoCloud 公司，有幸参与从 0 到 1 搭建监控体系，便系统性地学习了 Prometheus。本文面向有 K8s 基础但第一次接触 Prometheus 的同学，讲解 Pull 模式、时间序列存储、Exporter 机制等核心概念，帮助你在正式使用前建立完整的认知框架。

Sun, Feb 8, 2026 Observability