本文详尽列举了构建和实施先进人工智能（AI）解决方案所需的关键技术组件。

首先，针对单机环境，文档罗列了并行计算平台、GPU驱动程序、容器化工具及内核选项等核心技术，这些构成了高效运行高性能计算任务的基础。

在容器化与Kubernetes部分，强调了容器运行时（如containerd和Docker）、核心组件（如kubelet），以及多种设备插件的重要性，它们共同支持了灵活且高效的资源管理和调度，为云原生应用提供了坚实的支撑。

关于GPU虚拟化和管理、计算调度、网络配置及存储系统的选择，文档介绍了各类技术和框架，确保了从硬件资源的有效利用到数据的快速存取，满足了大规模分布式计算的需求。

对于AI开发，文档涵盖了深度学习框架（如TensorFlow、PyTorch）、机器学习库、分布式训练框架及自动化AI工具，反映了当前AI开发生态系统的广度和深度，同时突出了模型训练和推理优化的最新进展。

此外，文档还探讨了可观测性工具，包括日志管理、监控系统（如Prometheus）、追踪机制和性能指标收集，这些对于维护系统的稳定性和实现及时的问题诊断至关重要。故障诊断和镜像加速工具进一步增强了系统的可靠性和部署效率。特别值得一提的是，文档中提及的大模型和训练框架部分展示了自然语言处理（NLP）大模型和多模态模型的前沿发展，并介绍了支持这些模型训练的开源框架和技术。

最后，信创领域的介绍凸显了国产自主研发的技术产品，如国产GPU卡、芯片和AI框架，这不仅体现了国家对科技自主创新的重视，也反映了中国在全球科技竞争中的地位提升。

大模型 AI 基础套件清单如下所示：

单机
- CUDA
- GPU Driver（驱动）
  - NVIDIA
  - AMD
  - Intel
  - 其他厂商，如 Apple、Arm
- Nvidia-Container-Toolkit
- CUDNN
- Kernel（内核）
容器
- 容器运行时（container-runtime）
  - containerd
  - docker
Kubernetes
- 核心组件
  - kubelet
- Device Plugin
  - Nvidia Device Plugin
  - RDMA Device Plugin
  - AMD GPU Plugin
  - Intel GPU Plugin
  - Google TPU Plugin
  - FPGA Device Plugin
  - ASIC Device Plugin
GPU
- GPU 虚拟化
- GPU Manager
计算
- Volcano 调度器
- Scheduler 调度器
网络
- Calico
- Cilium
- Flannel
存储
- Fluid
- GlusterFS
- JuiceFS
- PFS
- Ceph
- HDFS
- NFS
AI 框架
- 深度学习框架
  - TensorFlow（Google）
  - PyTorch（Meta 原 Facebook）
  - MXNet（Apache）
  - MindSpore（华为）
  - JAX（Google）
- 机器学习框架
  - Scikit-learn（社区开发）
  - LightGBM（社区开发）
  - XGBoost（微软）
  - CatBoost（Yandex）
- 分布式训练框架
  - Horovod（Uber）
  - Ray（Anyscale）
- 自动化 AI 工具
  - TensorRT （NVIDIA）
  - ONNX（社区开发）
  - Kubeflow（Google）
  - PaddleFlow（百度）
  - Tecton
可观测
- Log（日志）
  - Fluentd
  - Fluent Bit
  - Loki
  - Logstash
  - Vector
- Prometheus（监控）
  - Prometheus
  - Alertmanager
  - Node Exporter
  - Grafana
- Trace（链路）
  - Jaeger
  - OpenTelemetry
  - Zipkin
  - Tempo
- Metric（指标）
  - DCGM Exporter
  - Kube-State-Metrics
  - cAdvisor
  - Prometheus Exporters
故障诊断
- Node Problem Detector
- Node Remedier
镜像加速
- Image Accelerate
- P2P Accelerate
开源大模型
- 自然语言处理（NLP）大模型
  - GPT（OpenAI GPT-2, GPT-3, GPT-Neo, GPT-J）
  - LLaMA（Meta AI）
  - T5（Text-to-Text Transfer Transformer）
  - BERT（Bidirectional Encoder Representations from Transformers）
- 多模态大模型
  - CLIP (Contrastive Language-Image Pretraining) （OpenAI）
  - DALL-E （OpenAI）
  - Stable Diffusion
训练框架
- 开源训练框架
  - DeepSpeed
  - Megatron-LM
  - Colossal-AI
  - Hugging Face Transformers
模型推理
- 开源模型框架
  - ONNX Runtime
  - TensorRT（NVIDIA）
  - Triton Inference Server（NVIDIA）
  - FastAPI + Hugging Face Pipelines
信创
- 国产卡
  - 寒武纪（Cambricon）
  - 昆仑芯（Baidu Kunlun）
  - 天数智芯（Tianshu Zhixin）
  - 壁仞科技（Biren Technology）
  - 沐曦科技（Moore Threads）
- 国产芯
  - 华为昇腾（Huawei Ascend）
  - 芯动科技（Innosilicon）
  - 兆芯（Zhaoxin）
  - 华芯通（HXT）
- 国产AI框架
  - 飞桨（PaddlePaddle）
  - MindSpore （华为）
  - MegEngine（旷视科技）
  - TensorLayer（国内开源社区主导）
  - 寒武纪 NeuWare（寒武纪）
  - 华为 CANN（华为）
  - TensorFlow (国产扩展版)
  - ONNX Runtime (国产扩展版)
  - Triton Inference Server
  - OneFlow（国内团队开源）

单机

CUDA

CUDA（Compute Unified Device Architecture）是 NVIDIA 开发的一种并行计算平台和编程模型，用于使用 GPU（图形处理单元）进行通用计算（GPGPU，General-Purpose computing on Graphics Processing Units）。 CUDA 不是开源的，它是由 NVIDIA 开发和维护的闭源专有技术。尽管 CUDA 本身不是开源的，但存在一些开源的并行计算平台和框架，可以作为替代方案。

OpenCL
HIP (Heterogeneous-Computing Interface for Portability)
SYCL
ROCm

尽管 CUDA 本身不是开源的，但 NVIDIA 提供了一些与 CUDA 相关的开源项目。

CUDA 示例代码
cuTENSOR、cuDNN 的绑定接口
NVIDIA 开源了一些与深度学习、并行计算相关的工具和框架，例如 TensorRT；

参考文档：

GPU Driver（驱动）

GPU Driver 是用于在操作系统和 GPU 硬件之间桥接通信的软件。它是 GPU 正常工作的关键组件，负责提供硬件加速功能和驱动 GPU 的各种特性。

NVIDIA Driver 是 NVIDIA 显卡及其相关硬件（GPU）的驱动程序，负责在操作系统和 NVIDIA GPU 硬件之间进行通信和管理，确保 GPU 的功能能够正常运行。它是任何依赖 NVIDIA GPU 的应用程序（如图形渲染、深度学习、科学计算等）运行的基础。

AMD：主要分为 AMD Radeon Software（Windows）与 AMDGPU（Linux）。

参考文档：

Intel：主要是 Intel Graphics Driver。

参考文档：

其他厂商，如 Apple、Arm，驱动对应的是Metal API 驱动、Mali GPU 驱动。

Nvidia-Container-Toolkit

NVIDIA-Container-Toolkit 是一个工具集，它允许将 NVIDIA GPU 集成到容器化环境中，例如 Docker 和 Kubernetes。通过 NVIDIA-Container-Toolkit，开发者可以在容器内运行需要 GPU 加速的应用程序（如深度学习、科学计算）并充分利用主机系统上的 GPU 硬件。

参考文档：

NVIDIA Container Toolkit 文档：https://github.com/NVIDIA/nvidia-container-toolkit
NVIDIA Docker 文档：https://github.com/NVIDIA/nvidia-docker
NVIDIA GPU Cloud（NGC）：提供预构建的容器镜像，如 TensorFlow 和 PyTorch：https://ngc.nvidia.com

CUDNN

cuDNN（CUDA Deep Neural Network Library）是 NVIDIA 提供的一种高性能 GPU 加速库，专为深度学习框架优化。cuDNN 是基于 CUDA 构建的，旨在为深度神经网络（DNN）的关键操作（如卷积、池化和归一化）提供高效的实现。它是深度学习框架（如 TensorFlow、PyTorch、MXNet）的底层依赖库，通过调用 cuDNN，可以充分利用 NVIDIA GPU 的性能，从而显著加速模型训练和推理。

参考文档：

NVIDIA cuDNN 文档：https://docs.nvidia.com/deeplearning/cudnn/
PyTorch cuDNN 支持：https://pytorch.org/docs/stable/notes/cuda.html
NVIDIA cuDNN 性能指南：https://docs.nvidia.com/deeplearning/cudnn/developer-guide/index.html

Kernel（内核）

Kernel（内核）是计算机系统中最核心的部分，它是操作系统的心脏，负责管理计算机硬件资源并提供对这些资源的抽象接口供应用程序使用。

Kernel 主要分为： Linux Kernel、Windows Kernel、macOS (XNU) Kernel、其他开源内核等。

参考文档：

GitHub 源码镜像（官方版本管理在 git.kernel.org）：https://github.com/torvalds/linux
官方文档：https://www.kernel.org/doc/
CUDA 对内核要求：https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#system-requirements

容器

容器运行时是一个管理容器生命周期的底层组件。它负责从容器镜像创建容器、运行容器、监控容器的状态并最终销毁容器。容器运行时是容器技术的核心，提供对容器的低级管理。

参考文档：

Container Runtime OCI (Open Container Initiative)

containerd

Containerd 是一个开放、标准化的容器运行时，提供对容器生命周期的管理。最初是 Docker 的一个组件，现在已经成为一个独立的项目，由 CNCF（Cloud Native Computing Foundation）托管。

参考文档：

docker

Docker 是一个开源的容器化平台，它提供了一个完整的解决方案，包括容器镜像的构建、分发和运行。Docker 最初是一个包含完整容器生命周期管理的独立工具，但其底层运行时后来拆分为 containerd。

参考文档：

代码
[官网](https://www.docker.com）

Kubernetes

kubelet

Kubelet 是 Kubernetes 中每个节点的核心代理服务，确保 Pod 按预期运行。它负责与控制平面交互、容器生命周期管理、健康检查、资源监控等。通过与底层运行时（如 containerd）和插件（如 CNI、CSI）集成，Kubelet 是 Kubernetes 集群节点运作的基石。

参考文档：

Device Plugin

Device Plugin 是 Kubernetes 中的一种机制，用于将节点上的硬件资源（如 GPU、RDMA 网卡、TPU 等）暴露给 Kubernetes 集群。它通过 Kubernetes 的 Device Plugin API 实现，将设备抽象为可供 Pod 请求的资源。

设备插件	描述	适用硬件	代码链接
NVIDIA Device Plugin	集成 NVIDIA GPU，支持 GPU 分配、显存隔离和多实例 GPU（MIG）管理。	NVIDIA GPU	NVIDIA Kubernetes Device Plugin
RDMA Device Plugin	提供 RDMA（如 InfiniBand）的资源管理，支持低延迟通信，适用于分布式深度学习和高性能计算。	Mellanox InfiniBand、RoCE	Mellanox/k8s-rdma-shared-dev-plugin RDMA Device Plugin by NVIDIA/Mellanox
AMD GPU Plugin	将 AMD GPU 集成到 Kubernetes，支持机器学习和大数据加速。	AMD Radeon 和 Instinct 系列 GPU	ROCm/k8s-device-plugin AMD ROCm Kubernetes Device Plugin
Intel GPU Plugin	集成 Intel GPU（如 Iris Xe 和 Arc GPU），支持媒体处理和 AI 推理任务。	Intel GPU	intel/intel-device-plugins-for-kubernetes Intel GPU Plugins for Kubernetes
Google TPU Plugin	支持 Google Cloud 上的 TPU，用于深度学习加速。	Google TPU	无公开项目代码链接
FPGA Device Plugin	支持 FPGA 的分配与管理，用于模型推理和数据流处理。	Intel FPGA、Xilinx FPGA	intel/intel-device-plugins-for-kubernetes Intel FPGA Kubernetes Device Plugin
ASIC Device Plugin	集成 ASIC（如 Google Edge TPU 和 Baidu Kunlun），用于 AI 推理任务。	Google Edge TPU、Baidu Kunlun	无公开项目代码链接

GPU

GPU 虚拟化

GPU 虚拟化是将物理 GPU 分割成多个虚拟 GPU（vGPU），并将这些虚拟 GPU 分配给不同的虚拟机（VM）或容器。这使得多个用户或应用可以共享 GPU 资源，而无需独占整个 GPU。

虚拟化方式：
- GPU 直通（Passthrough）：将一个物理 GPU 直接分配给虚拟机（VM）或容器。虚拟机或容器能够完全控制 GPU，适用于需要高性能的工作负载。
- GPU 分时（Time-sharing）：通过 GPU 虚拟化技术（如 NVIDIA vGPU）在多个虚拟机或容器之间分配 GPU 时间片，允许共享 GPU 资源。
- MIG（Multi-Instance GPU）：这是 NVIDIA 提供的一种技术，允许将一块物理 GPU 划分为多个小的实例，从而支持多任务并发。
常见 GPU 虚拟化技术：
- NVIDIA vGPU：通过 NVIDIA 虚拟 GPU（vGPU）技术，将 GPU 资源共享给虚拟机或容器。vGPU 支持对 GPU 进行分时或分实例操作。
- AMD MxGPU：AMD 提供的虚拟化技术，支持将一个物理 GPU 分配给多个虚拟机（VM）。
- Intel GVT-g：Intel 提供的 GPU 虚拟化技术，支持对 Intel 集成 GPU 的虚拟化。

参考文档：

代码

GPU Manager

GPU Manager 是一款高效的工具，用于管理和优化 GPU 资源。它的主要功能包括 GPU 资源分配、性能监控、多实例管理、错误检测等，广泛应用于云计算平台、虚拟化环境和高性能计算任务。

参考文档：

计算

Volcano 调度器

Volcano 调度器是 Kubernetes 的一个扩展调度器，特别适用于高性能计算、深度学习等大规模任务的调度，提供了多维度资源调度、批量作业管理、队列调度等功能。

参考文档：

官网：Volcano GitHub Repository
代码：Volcano

Scheduler 调度器

Kubernetes 默认调度器（Scheduler）是 Kubernetes 自带的调度器，负责将 Pod 分配到集群中的节点，考虑资源匹配、亲和性、优先级等策略进行调度。

参考文档：

代码：Kubernetes Scheduler GitHub

网络

Calico

Calico 是一个高性能、开源的网络插件，广泛应用于 Kubernetes、OpenShift 等容器化环境中。它支持网络策略、服务网格和高效的网络连接。

参考文档：

官网：Calico 官网
代码：Calico GitHub

Cilium

Cilium 是一个基于 eBPF（Extended Berkeley Packet Filter）的容器网络插件，旨在提供高性能、可扩展、以及深度集成的网络安全功能。Cilium 是现代容器网络的升级方案，特别适用于微服务架构中的复杂流量管理。

官网：Cilium 官网
代码：Cilium GitHub

Flannel

Flannel 是一个简单、易用的容器网络插件，主要用于为 Kubernetes 提供虚拟网络，它通过配置虚拟网络接口来连接容器。Flannel 适合于较为简单的网络场景，并支持多种网络后端。

官网：Flannel 官网
代码：Flannel GitHub

存储

存储系统	描述	适用场景	代码链接	官网链接
Fluid	基于 Kubernetes 的开源数据编排和加速引擎，结合内存和文件系统加速数据访问，适用于大数据和 AI 场景。	大数据和 AI	Fluid GitHub	Fluid 官方网站
GlusterFS	开源分布式文件系统，整合多个存储节点为一个存储池，为容器提供统一的存储访问。	高性能存储和扩展存储需求	GlusterFS CSI	GlusterFS 官网
JuiceFS	为云原生应用设计的高性能分布式文件系统，兼容 POSIX 标准。	云原生和分布式存储	JuiceFS CSI	JuiceFS 官网
PFS	支持并行数据访问的文件系统，为 HPC 和分布式计算环境提供高吞吐量和低延迟的存储。	高性能计算和分布式计算	PFS GitHub	JuiceFS 官网
Ceph	开源分布式存储系统，支持块存储、文件存储和对象存储，具有高可扩展性和高可靠性。	云计算和容器环境存储	Ceph GitHub	Ceph 官方网站
HDFS	Hadoop 生态中的分布式文件系统，专为大数据存储和处理设计。	大数据存储和处理	HDFS CSI	Hadoop 官网
NFS	网络文件共享协议，使多个客户端能够同时访问和共享远程文件系统。	文件共享和多客户端访问	无代码链接	无官网链接

AI 框架

深度学习框架

框架	描述	代码链接	官网链接
TensorFlow（Google）	支持深度学习和机器学习的全功能框架，提供高性能分布式训练、强大的生产部署工具。	TensorFlow GitHub	TensorFlow 官网
PyTorch（Meta 原 Facebook）	易用性强，动态计算图结构适合研究，分布式训练支持较好。	PyTorch GitHub	PyTorch 官网
MXNet（Apache）	支持多语言接口，分布式训练性能较好。	MXNet GitHub	MXNet 官网
MindSpore（华为）	适合边缘计算、分布式 AI 的全栈框架，支持动态和静态图。	MindSpore GitHub	MindSpore 官网
JAX（Google）	专注于高性能数值计算，自动微分和硬件加速支持。	JAX GitHub	JAX 官网

机器学习框架

框架	描述	代码链接	官网链接
Scikit-learn（社区开发）	经典机器学习工具库，适用于小型数据集和教学场景。	Scikit-learn GitHub	Scikit-learn 官网
XGBoost（社区开发）	提供高效梯度提升决策树算法，常用于表格数据分析和 Kaggle 比赛。	XGBoost GitHub	XGBoost 官网
LightGBM（微软）	高效的梯度提升框架，适合大规模数据和分布式训练。	LightGBM GitHub	LightGBM 官网
CatBoost（Yandex）	支持分类特征的梯度提升框架，性能高且易用。	CatBoost GitHub	CatBoost 官网

分布式训练框架

框架	描述	代码链接	官网链接
Horovod（Uber）	提供高效的分布式深度学习支持，兼容 TensorFlow 和 PyTorch。	Horovod GitHub	Horovod 官网
Ray（Anyscale）	提供分布式计算支持，适用于分布式训练、强化学习和大规模数据处理。	Ray GitHub	Ray 官网

自动化 AI 工具

工具	描述	代码链接	官网链接
TensorRT（NVIDIA）	专为推理加速设计的工具，支持多种 AI 模型优化。	TensorRT GitHub	TensorRT 官网
ONNX（社区开发）	提供跨框架的模型格式和运行时，支持 TensorFlow、PyTorch 等。	ONNX GitHub	ONNX 官网
Kubeflow（Google）	基于 Kubernetes 的 AI 工作流工具，支持模型训练和部署。	Kubeflow GitHub	Kubeflow 官网

可观测

Log（日志）

工具	描述	官网链接
Fluentd	日志收集和聚合工具，支持多种日志来源和目标。	Fluentd 官网
Fluent Bit	Fluentd 的轻量级版本，适用于资源受限环境。	Fluent Bit 官网
Loki	日志存储和查询系统，与 Prometheus 集成良好。	Loki 官网
Logstash	Elastic Stack 的日志处理工具，支持复杂日志分析。	Elastic 官网
Vector	高性能日志收集和传输工具。	Vector 官网

Prometheus（监控）

工具	描述	官网链接
Prometheus	核心监控系统，负责采集和存储时间序列数据。	Prometheus 官网
Alertmanager	告警管理系统，与 Prometheus 配合使用。	Prometheus 官网
Node Exporter	提供主机系统指标（如 CPU、内存、磁盘等）。	Prometheus 官网
Grafana	可视化工具，与 Prometheus 集成展示监控数据。	Grafana 官网

Trace（链路）

工具	描述	官网链接
Jaeger	分布式链路追踪系统，支持 OpenTracing 标准。	Jaeger 官网
OpenTelemetry	统一的可观测性框架，支持 Trace、Metrics 和 Logs。	OpenTelemetry 官网
Zipkin	分布式链路追踪工具，支持调用链分析和时延监控。	Zipkin 官网
Tempo	Grafana 提供的分布式追踪后端，适用于与 Loki 和 Prometheus 集成的场景。	Tempo 官网

Metric（指标）

工具	描述	官网链接
DCGM Exporter	NVIDIA GPU 专用指标导出工具，用于监控 GPU 的运行状态。	NVIDIA DCGM 官网
Kube-State-Metrics	提供 Kubernetes 集群状态信息（如 Pod、Deployment 指标）。	Kubernetes 官网
cAdvisor	容器监控工具，负责采集容器的资源使用情况。	cAdvisor 文档
Prometheus Exporters	提供多种系统和服务的指标导出器（如 Node Exporter）。	Prometheus 官网

故障诊断

Node Problem Detector

Node Problem Detector 是 Kubernetes 的一个组件，用于监控节点的健康状况，并将节点的问题暴露给 Kubernetes 以便采取措施（例如，将节点标记为不可调度）。

GitHub 地址: Node Problem Detector GitHub

Node Remedier

Node Remedier 是一种自动化修复工具，在检测到节点问题后执行修复操作，例如重启服务、重新安装驱动或隔离问题节点。

GitHub 地址: Node Remedier GitHub

镜像加速

Image Accelerate

Image Accelerate 通过分层存储、镜像缓存等技术优化镜像分发效率。

Dragonfly: 阿里巴巴开源的分布式镜像分发系统。
- GitHub 地址: Dragonfly GitHub
Harbor: 云原生镜像仓库，支持镜像复制与分发。
- GitHub 地址: Harbor GitHub

P2P Accelerate

P2P Accelerate 利用对等网络减少中心化负载，在多节点分布式环境中优势显著。

Dragonfly: 支持 P2P 加速，结合镜像缓存优化整体分发效率。
- GitHub 地址: Dragonfly GitHub
BitTorrent: 经典 P2P 传输协议，适用于大文件分发。

开源大模型

开源大模型通常提供预训练权重和开放的模型架构，用于自然语言处理、计算机视觉和多模态任务。这些模型可以直接用于微调或推理。

自然语言处理（NLP）大模型

模型	描述	GitHub / 资源链接
GPT	生成文本、对话系统、代码生成	GPT-2, GPT-Neo, GPT-J
LLaMA	通用文本生成、理解、翻译	LLaMA Community
T5	文本生成、翻译、摘要	T5 Repository
BERT	文本分类、问答、命名实体识别	BERT

多模态大模型

模型	描述	GitHub / 资源链接
CLIP	图像与文本联合理解和生成	CLIP GitHub
DALL-E	基于文本描述生成图像	DALL-E Mini GitHub
Stable Diffusion	文本生成图像、图像到图像转换	Stable Diffusion GitHub

训练框架

开源训练框架

框架	描述	GitHub / 资源链接
DeepSpeed	提供高性能分布式训练支持，专注于大模型优化，支持 ZeRO 优化器、显存节约技术	DeepSpeed GitHub
Megatron-LM	大规模语言模型训练框架，支持 GPT 和 T5 的分布式训练，适合超大规模 GPU 集群	Megatron-LM GitHub
Colossal-AI	高效分布式训练的大模型工具包，提供显存优化、分布式策略和低成本训练方案	Colossal-AI GitHub
Hugging Face Transformers	提供多种预训练模型的训练和微调工具，支持多框架（TensorFlow、PyTorch）	Transformers GitHub

开源模型推理框架

框架	描述	GitHub / 资源链接
ONNX Runtime	高性能模型推理框架，支持多种硬件和平台	ONNX Runtime GitHub
TensorRT	针对 NVIDIA GPU 优化的推理加速库	TensorRT GitHub
Triton Inference Server	支持多模型、多框架推理的开源服务器，适合生产部署	Triton Server GitHub
FastAPI + Hugging Face Pipelines	使用 FastAPI 部署 Hugging Face 模型进行推理服务，适合快速部署	FastAPI GitHub

信创

国产 GPU 卡

品牌	芯片系列	主要特点	官网链接
寒武纪（Cambricon）	思元系列 AI 芯片（Cambricon MLU）	面向云端和边缘的 AI 计算加速，支持深度学习训练与推理	寒武纪官网
昆仑芯（Baidu Kunlun）	昆仑系列	支持大规模 AI 模型训练与推理，集成百度 PaddlePaddle	昆仑芯官网
天数智芯（Tianshu Zhixin）	Big Island 通用 GPU	面向 HPC 和 AI 模型训练，强调高效能和国产替代能力	天数智芯官网
壁仞科技（Biren Technology）	BR100、BR104	专注于 AI 模型训练和高性能计算，支持多种计算精度（FP32、FP16、INT8）	壁仞科技官网
沐曦科技（Moore Threads）	MTT S60、MTT S300	兼容图形渲染与 AI 推理，支持国产操作系统和 GPU 通用计算	沐曦科技官网

国产芯

品牌	芯片类型	主要特点	官网链接
华为昇腾（Huawei Ascend）	Ascend 310（推理芯片）、Ascend 910（训练芯片）	覆盖端、边、云全场景，强算力、高能效，支持多框架开发	华为昇腾官网
芯动科技（Innosilicon）	自研 GPU 和 SoC 解决方案	高性能、低功耗设计，应用于嵌入式设备和物联网	芯动科技官网
兆芯（Zhaoxin）	通用 CPU 和 GPU	与国产操作系统深度适配，强调安全性与自主可控	兆芯官网
华芯通（HXT）	ARM 架构服务器芯片	专注于高性能服务器市场，支持云计算和数据中心应用	华芯通官网

国产 AI 框架

框架	适用芯片	主要特点	官网链接
飞桨（PaddlePaddle）	寒武纪、昆仑芯、天数智芯、昇腾等	提供易用的开发接口，支持分布式训练，适配国产操作系统	PaddlePaddle官网
MindSpore	昇腾系列	针对华为昇腾 AI 芯片深度优化，支持全场景 AI 开发	MindSpore官网
MegEngine	寒武纪等	高性能计算引擎，适配部分国产芯片	MegEngine官网
TensorLayer	多种国产芯片	支持多种芯片高效部署，面向研究与产业应用	TensorLayer官网
寒武纪 NeuWare	寒武纪 MLU	提供优化编译器、算子库及工具链，适配思元系列芯片	NeuWare官网
华为 CANN	昇腾系列	支持算子优化与高效分布式训练，适配昇腾芯片	CANN官网
TensorFlow（国产扩展版）	寒武纪、昆仑芯等	适配国产芯片，提供专用加速算子	TensorFlow官网
ONNX Runtime（国产扩展版）	昇腾、寒武纪、昆仑芯等	支持高性能推理，适配多种国产芯片	ONNX Runtime官网
Triton Inference Server（国产优化版）	寒武纪、昆仑芯等	支持多种 AI 框架的模型，扩展支持国产芯片	Triton官网
OneFlow	高性能分布式深度学习优化	提供高效的分布式训练工具	OneFlow官网

单机

CUDA

GPU Driver（驱动）

Nvidia-Container-Toolkit

CUDNN

Kernel（内核）

容器

containerd

docker

Kubernetes

kubelet

Device Plugin

GPU

GPU 虚拟化

GPU Manager

计算

Volcano 调度器

Scheduler 调度器

网络

Calico

Cilium

Flannel

存储

AI 框架

深度学习框架

机器学习框架

分布式训练框架

自动化 AI 工具

可观测

Log（日志）

Prometheus（监控）

Trace（链路）

Metric（指标）

故障诊断

Node Problem Detector

Node Remedier

镜像加速

Image Accelerate

P2P Accelerate

开源大模型

自然语言处理（NLP）大模型

多模态大模型

训练框架

开源训练框架

开源模型推理框架

信创

国产 GPU 卡

国产芯

国产 AI 框架

CATALOG