漫步远方，心荡神往

2025 新年快乐（Happy New Year）

新年的钟声已经敲响，我们迎来了崭新的 2025年！🎉 感谢过去一年里大家的陪伴与支持，新的一年，愿我们一起迎接更多美好的时刻。🌟 祝愿大家在 2025 年 ✨

Posted by 陈谭军 on Wednesday, January 1, 2025

NVIDIA GPU 系统诊断与运维排查手册：常用命令与一键脚本指南

全面掌握 GPU 系统诊断：从硬件到驱动的一站式排查指南

本文系统整理了在使用 NVIDIA GPU 及其他加速卡时常见的系统诊断工具与命令，覆盖硬件信息、操作系统状态、内核日志、网络互联（OFED/Fabric）、IPMI 管理以及 NVIDIA 专属监控工具（如 nvidia-smi、nvidia-bug-report.sh）等关键维度，为 GPU 用户提供全面的系统诊断工具箱。

Posted by 陈谭军 on Saturday, October 26, 2024

记一次 NVIDIA 卡训练任务出现 OOM 排查过程和解决思路

要求机器配置、驱动、CUDA、PyTorch、大模型、OOM、GPU、容器、虚拟化、内核、存储网络、兼容性、初始化、共享模式等配置相辅相成，排查过程复杂，需综合分析

本次OOM问题表现为GPU显存充足但PyTorch无法申请，具有概率性、偶发性特征。排查覆盖资源限制、容器运行时、GPU插件、CUDA环境、驱动、内核、存储网络等多个层面，排除了主存限制、存储I/O、网络及runtime实现问题。关键线索包括：nvidia-smi显示初始化显存异常（仅4M）、旧内核（3.10）与新驱动（535+）兼容性存疑、GPU共享模式干扰、前后脚本连续执行可能导致CUDA上下文污染。综合判断，问题核心并非真实显存不足，而是CUDA上下文初始化失败或状态异常，由前置脚本隐式加载CUDA、GPU虚拟化干扰、旧内核兼容性不足等多重因素叠加导致，属于“伪OOM”。

Posted by 陈谭军 on Sunday, October 20, 2024

监测 Linux 内存缺页中断事件

监测 Linux 内存缺页中断事件

监测 Linux 内存缺页中断事件

Posted by 陈谭军 on Thursday, May 2, 2024

监测 Linux 内核内存 OOM 事件

监测 Linux 内核内存 OOM 事件

监测 Linux 内核内存 OOM 事件

Posted by 陈谭军 on Wednesday, May 1, 2024