漫步远方，心荡神往

vLLM 多机多卡推理测试与验证（Docker）

vLLM 多机多卡推理 docker 验证

vLLM 采用多机多卡推理，是为了解决超大规模模型的显存限制、算力瓶颈、高并发吞吐需求以及长序列处理等挑战。通过模型并行、数据并行和高效的内存管理技术，vLLM 能将模型参数和计算任务分布到多块 GPU 和多台机器上，充分利用硬件资源，实现快速、高效的推理能力，满足工业级场景中对性能和扩展性的要求。

Posted by 陈谭军 on Sunday, January 19, 2025

vLLM 多机多卡推理测试与验证（Kubernetes）

vLLM 多机多卡推理 Kubernetes 验证

vLLM 采用多机多卡推理，是为了解决超大规模模型的显存限制、算力瓶颈、高并发吞吐需求以及长序列处理等挑战。通过模型并行、数据并行和高效的内存管理技术，vLLM 能将模型参数和计算任务分布到多块 GPU 和多台机器上，充分利用硬件资源，实现快速、高效的推理能力，满足工业级场景中对性能和扩展性的要求。

Posted by 陈谭军 on Sunday, January 19, 2025

云原生 AI 能力引擎（大模型 AI 基础套件）

本文详尽列举了构建和实施先进人工智能（AI）解决方案所需的关键技术组件。

本内容概述了现代计算与人工智能生态系统的关键领域，包括单机环境配置（如 CUDA、GPU 驱动）、容器与 Kubernetes 的支持（如容器运行时、设备插件）、硬件与计算管理（GPU 虚拟化、调度器）、网络与存储方案、AI 框架（深度学习、机器学习、分布式训练、自动化工具）、可观测性与故障诊断（日志、监控、链路追踪、诊断工具）、开源大模型（NLP、多模态模型）、训练与推理框架，以及国产化解决方案（国产硬件与 AI 框架）。

Posted by 陈谭军 on Sunday, January 5, 2025

2025 新年快乐（Happy New Year）

新年的钟声已经敲响，我们迎来了崭新的 2025年！🎉 感谢过去一年里大家的陪伴与支持，新的一年，愿我们一起迎接更多美好的时刻。🌟 祝愿大家在 2025 年 ✨

Posted by 陈谭军 on Wednesday, January 1, 2025

记一次 NVIDIA 卡训练任务出现 OOM 排查过程和解决思路

要求机器配置、驱动、CUDA、PyTorch、大模型、OOM、GPU、容器、虚拟化、内核、存储网络、兼容性、初始化、共享模式等配置相辅相成，排查过程复杂，需综合分析

本次OOM问题表现为GPU显存充足但PyTorch无法申请，具有概率性、偶发性特征。排查覆盖资源限制、容器运行时、GPU插件、CUDA环境、驱动、内核、存储网络等多个层面，排除了主存限制、存储I/O、网络及runtime实现问题。关键线索包括：nvidia-smi显示初始化显存异常（仅4M）、旧内核（3.10）与新驱动（535+）兼容性存疑、GPU共享模式干扰、前后脚本连续执行可能导致CUDA上下文污染。综合判断，问题核心并非真实显存不足，而是CUDA上下文初始化失败或状态异常，由前置脚本隐式加载CUDA、GPU虚拟化干扰、旧内核兼容性不足等多重因素叠加导致，属于“伪OOM”。

Posted by 陈谭军 on Sunday, October 20, 2024