当两个 HEALTH CHECK 看到不同的 GPU 状态:一次架构问题的排查,修复与反思
本文记录一次 GPU 节点健康检查中的状态不一致问题:Passive Health Check 与 dcgm-exporter 在同一节点上看到了不同的 GPU 状态。问题的根因在于两个容器各自运行独立的 embedded nv-hostengine,最终通过独立部署节点级 Host Engine 并结合 internalTrafficPolicy: Local,实现统一状态视图与统一控制入口。
一文读懂 DCGM:从 NVML 到 HOSTENGINE 的 GPU 管理体系
本文系统梳理 NVIDIA GPU 工具链中 NVML、NVIDIA-SMI、DCGM、HostEngine、DCGMI 与 DCGM Exporter 的关系,并解释为什么在 GPU 集群与云原生可观测性场景下,单纯依赖设备级接口已经不够,需要引入 DCGM 这样的长期运行管理系统。
为什么需要 NCCL TESTS
很多人会把 NCCL Tests 当成单纯的 GPU 通信跑分工具,但它更准确的定位其实是 GPU 集群通信链路的诊断工具。通过把训练过程中的通信部分单独抽离出来,它可以帮助我们更高效地定位 NCCL timeout、RDMA 未生效、节点互通异常、带宽衰减和网络抖动等底层问题。
一文读懂 PROMETHEUS 核心机制
最近作为可观测性工程师加入了一家 NeoCloud 公司,有幸参与从 0 到 1 搭建监控体系,便系统性地学习了 Prometheus。本文面向有 K8s 基础但第一次接触 Prometheus 的同学,讲解 Pull 模式、时间序列存储、Exporter 机制等核心概念,帮助你在正式使用前建立完整的认知框架。
2025 年终总结
一转眼 2025 年已过,完结撒花🎉
纯干货——求职实用指南
在芬兰,90%的招聘悄然发生。本文基于我的两次海外实习成功经历,揭秘如何绕过传统海投,通过内推、学校资源与技术社交找到机会。
去神话的机器学习:分类框架、摊销思维与业务导向
最近上完了机器学习课程(cs-c3240),终于有时间认真思考和总结一下了。这是我第一次接触正式机器学习,身为小白一枚,在这门课上受益良多,非常感谢老师和助教对课程内容的付出,也非常感谢同学们(由于我们的同行评审机制的存在),他们的作品和对我们的作业的评价也让我对机器学习有了更加深入的理解。
深入浅出链路层:从“媒介访问”理解网络中的第一步
最近在重新梳理计算机网络的知识体系,翻阅讲义的时候忽然意识到:链路层这个我们总觉得‘太底层’的部分,其实埋藏着很多非常核心的问题。特别是在复习 MAC 协议的时候,我突然想起了以前学 CSMA/CD 的时候的困惑,也对为什么今天我们还要学习这些‘早就被交换机淘汰的技术’产生了很多思考。
分布式系统中的透明性
分布式系统的透明性隐藏了底层复杂性,提升用户体验,但也带来了管理和故障排查的挑战,需要一致性算法、合理架构和可观察性来优化。
一文吃透 AWS ELASTIC LOAD BALANCER
AWS Elastic Load Balancer 提供了 ALB、NLB 和 GWLB 三种类型,分别适用于 Web 流量、低延迟高并发连接及安全流量检查。它提升了系统的高可用性、可扩展性和安全性,适用于流量管理、性能优化及多可用区部署,是云架构中不可或缺的组件。