漫步远方,心荡神往

NVIDIA GPU 系统诊断与运维排查手册:常用命令与一键脚本指南

全面掌握 GPU 系统诊断:从硬件到驱动的一站式排查指南

本文系统整理了在使用 NVIDIA GPU 及其他加速卡时常见的系统诊断工具与命令,覆盖硬件信息、操作系统状态、内核日志、网络互联(OFED/Fabric)、IPMI 管理以及 NVIDIA 专属监控工具(如 nvidia-smi、nvidia-bug-report.sh) 等关键维度,为 GPU 用户提供全面的系统诊断工具箱。

记一次 NVIDIA 卡训练任务出现 OOM 排查过程和解决思路

要求机器配置、驱动、CUDA、PyTorch、大模型、OOM、GPU、容器、虚拟化、内核、存储网络、兼容性、初始化、共享模式等配置相辅相成,排查过程复杂,需综合分析

本次OOM问题表现为GPU显存充足但PyTorch无法申请,具有概率性、偶发性特征。排查覆盖资源限制、容器运行时、GPU插件、CUDA环境、驱动、内核、存储网络等多个层面,排除了主存限制、存储I/O、网络及runtime实现问题。关键线索包括:nvidia-smi显示初始化显存异常(仅4M)、旧内核(3.10)与新驱动(535+)兼容性存疑、GPU共享模式干扰、前后脚本连续执行可能导致CUDA上下文污染。综合判断,问题核心并非真实显存不足,而是CUDA上下文初始化失败或状态异常,由前置脚本隐式加载CUDA、GPU虚拟化干扰、旧内核兼容性不足等多重因素叠加导致,属于“伪OOM”。