漫步远方,心荡神往

NVIDIA GPU 系统诊断与运维排查手册:常用命令与一键脚本指南

全面掌握 GPU 系统诊断:从硬件到驱动的一站式排查指南

本文系统整理了在使用 NVIDIA GPU 及其他加速卡时常见的系统诊断工具与命令,覆盖硬件信息、操作系统状态、内核日志、网络互联(OFED/Fabric)、IPMI 管理以及 NVIDIA 专属监控工具(如 nvidia-smi、nvidia-bug-report.sh) 等关键维度,为 GPU 用户提供全面的系统诊断工具箱。

记一次 NVIDIA 卡训练任务出现 OOM 排查过程和解决思路

要求机器配置、驱动、CUDA、PyTorch、大模型、OOM、GPU、容器、虚拟化、内核、存储网络、兼容性、初始化、共享模式等配置相辅相成,排查过程复杂,需综合分析

本次OOM问题表现为GPU显存充足但PyTorch无法申请,具有概率性、偶发性特征。排查覆盖资源限制、容器运行时、GPU插件、CUDA环境、驱动、内核、存储网络等多个层面,排除了主存限制、存储I/O、网络及runtime实现问题。关键线索包括:nvidia-smi显示初始化显存异常(仅4M)、旧内核(3.10)与新驱动(535+)兼容性存疑、GPU共享模式干扰、前后脚本连续执行可能导致CUDA上下文污染。综合判断,问题核心并非真实显存不足,而是CUDA上下文初始化失败或状态异常,由前置脚本隐式加载CUDA、GPU虚拟化干扰、旧内核兼容性不足等多重因素叠加导致,属于“伪OOM”。

监测 Linux 内存缺页中断事件

监测 Linux 内存缺页中断事件

监测 Linux 内存缺页中断事件

监测 Linux 内核内存 OOM 事件

监测 Linux 内核内存 OOM 事件

监测 Linux 内核内存 OOM 事件

深入理解 Kubernetes Scheduler Framework 调度框架(Part 4)

Scheduler Framework 内置调度算法与 out-of-tree 插件示例调度算法

Scheduler 分两个 cycle:Scheduling Cycle 和 Binding Cycle。在 Scheduling Cycle 中为了提升效率的一个重要原则就是 Pod、 Node 等信息从本地缓存中获取,而具体的实