漫步远方,心荡神往

云原生 AI 能力引擎(大模型 AI 基础套件)

本文详尽列举了构建和实施先进人工智能(AI)解决方案所需的关键技术组件。

本内容概述了现代计算与人工智能生态系统的关键领域,包括单机环境配置(如 CUDA、GPU 驱动)、容器与 Kubernetes 的支持(如容器运行时、设备插件)、硬件与计算管理(GPU 虚拟化、调度器)、网络与存储方案、AI 框架(深度学习、机器学习、分布式训练、自动化工具)、可观测性与故障诊断(日志、监控、链路追踪、诊断工具)、开源大模型(NLP、多模态模型)、训练与推理框架,以及国产化解决方案(国产硬件与 AI 框架)。

2025 新年快乐(Happy New Year)

新年的钟声已经敲响,我们迎来了崭新的 2025年!🎉 感谢过去一年里大家的陪伴与支持,新的一年,愿我们一起迎接更多美好的时刻。🌟 祝愿大家在 2025 年 ✨

监测 Linux 内存缺页中断事件

监测 Linux 内存缺页中断事件

监测 Linux 内存缺页中断事件

监测 Linux 内核内存 OOM 事件

监测 Linux 内核内存 OOM 事件

监测 Linux 内核内存 OOM 事件

深入理解 Kubernetes Scheduler Framework 调度框架(Part 4)

Scheduler Framework 内置调度算法与 out-of-tree 插件示例调度算法

Scheduler 分两个 cycle:Scheduling Cycle 和 Binding Cycle。在 Scheduling Cycle 中为了提升效率的一个重要原则就是 Pod、 Node 等信息从本地缓存中获取,而具体的实