云原生 AI 能力引擎(大模型 AI 基础套件)

本文详尽列举了构建和实施先进人工智能(AI)解决方案所需的关键技术组件。

Posted by 陈谭军 on Sunday, January 5, 2025 | 阅读 |,阅读约 17 分钟

本文详尽列举了构建和实施先进人工智能(AI)解决方案所需的关键技术组件。

首先,针对单机环境,文档罗列了并行计算平台、GPU驱动程序、容器化工具及内核选项等核心技术,这些构成了高效运行高性能计算任务的基础。

在容器化与Kubernetes部分,强调了容器运行时(如containerd和Docker)、核心组件(如kubelet),以及多种设备插件的重要性,它们共同支持了灵活且高效的资源管理和调度,为云原生应用提供了坚实的支撑。

关于GPU虚拟化和管理、计算调度、网络配置及存储系统的选择,文档介绍了各类技术和框架,确保了从硬件资源的有效利用到数据的快速存取,满足了大规模分布式计算的需求。

对于AI开发,文档涵盖了深度学习框架(如TensorFlow、PyTorch)、机器学习库、分布式训练框架及自动化AI工具,反映了当前AI开发生态系统的广度和深度,同时突出了模型训练和推理优化的最新进展。

此外,文档还探讨了可观测性工具,包括日志管理、监控系统(如Prometheus)、追踪机制和性能指标收集,这些对于维护系统的稳定性和实现及时的问题诊断至关重要。故障诊断和镜像加速工具进一步增强了系统的可靠性和部署效率。特别值得一提的是,文档中提及的大模型和训练框架部分展示了自然语言处理(NLP)大模型和多模态模型的前沿发展,并介绍了支持这些模型训练的开源框架和技术。

最后,信创领域的介绍凸显了国产自主研发的技术产品,如国产GPU卡、芯片和AI框架,这不仅体现了国家对科技自主创新的重视,也反映了中国在全球科技竞争中的地位提升。

大模型 AI 基础套件清单如下所示:

  • 单机
    • CUDA
    • GPU Driver(驱动)
      • NVIDIA
      • AMD
      • Intel
      • 其他厂商,如 Apple、Arm
    • Nvidia-Container-Toolkit
    • CUDNN
    • Kernel(内核)
  • 容器
    • 容器运行时(container-runtime)
      • containerd
      • docker
  • Kubernetes
    • 核心组件
      • kubelet
    • Device Plugin
      • Nvidia Device Plugin
      • RDMA Device Plugin
      • AMD GPU Plugin
      • Intel GPU Plugin
      • Google TPU Plugin
      • FPGA Device Plugin
      • ASIC Device Plugin
  • GPU
    • GPU 虚拟化
    • GPU Manager
  • 计算
    • Volcano 调度器
    • Scheduler 调度器
  • 网络
    • Calico
    • Cilium
    • Flannel
  • 存储
    • Fluid
    • GlusterFS
    • JuiceFS
    • PFS
    • Ceph
    • HDFS
    • NFS
  • AI 框架
    • 深度学习框架
      • TensorFlow(Google)
      • PyTorch(Meta 原 Facebook)
      • MXNet(Apache)
      • MindSpore(华为)
      • JAX(Google)
    • 机器学习框架
      • Scikit-learn(社区开发)
      • LightGBM(社区开发)
      • XGBoost(微软)
      • CatBoost(Yandex)
    • 分布式训练框架
      • Horovod(Uber)
      • Ray(Anyscale)
    • 自动化 AI 工具
      • TensorRT (NVIDIA)
      • ONNX(社区开发)
      • Kubeflow(Google)
      • PaddleFlow(百度)
      • Tecton
  • 可观测
    • Log(日志)
      • Fluentd
      • Fluent Bit
      • Loki
      • Logstash
      • Vector
    • Prometheus(监控)
      • Prometheus
      • Alertmanager
      • Node Exporter
      • Grafana
    • Trace(链路)
      • Jaeger
      • OpenTelemetry
      • Zipkin
      • Tempo
    • Metric(指标)
      • DCGM Exporter
      • Kube-State-Metrics
      • cAdvisor
      • Prometheus Exporters
  • 故障诊断
    • Node Problem Detector
    • Node Remedier
  • 镜像加速
    • Image Accelerate
    • P2P Accelerate
  • 开源大模型
    • 自然语言处理(NLP)大模型
      • GPT(OpenAI GPT-2, GPT-3, GPT-Neo, GPT-J)
      • LLaMA(Meta AI)
      • T5(Text-to-Text Transfer Transformer)
      • BERT(Bidirectional Encoder Representations from Transformers)
    • 多模态大模型
      • CLIP (Contrastive Language-Image Pretraining) (OpenAI)
      • DALL-E (OpenAI)
      • Stable Diffusion
  • 训练框架
    • 开源训练框架
      • DeepSpeed
      • Megatron-LM
      • Colossal-AI
      • Hugging Face Transformers
  • 模型推理
    • 开源模型框架
      • ONNX Runtime
      • TensorRT(NVIDIA)
      • Triton Inference Server(NVIDIA)
      • FastAPI + Hugging Face Pipelines
  • 信创
    • 国产卡
      • 寒武纪(Cambricon)
      • 昆仑芯(Baidu Kunlun)
      • 天数智芯(Tianshu Zhixin)
      • 壁仞科技(Biren Technology)
      • 沐曦科技(Moore Threads)
    • 国产芯
      • 华为昇腾(Huawei Ascend)
      • 芯动科技(Innosilicon)
      • 兆芯(Zhaoxin)
      • 华芯通(HXT)
    • 国产AI框架
      • 飞桨(PaddlePaddle)
      • MindSpore (华为)
      • MegEngine(旷视科技)
      • TensorLayer(国内开源社区主导)
      • 寒武纪 NeuWare(寒武纪)
      • 华为 CANN(华为)
      • TensorFlow (国产扩展版)
      • ONNX Runtime (国产扩展版)
      • Triton Inference Server
      • OneFlow(国内团队开源)

单机

CUDA

CUDA(Compute Unified Device Architecture)是 NVIDIA 开发的一种并行计算平台和编程模型,用于使用 GPU(图形处理单元)进行通用计算(GPGPU,General-Purpose computing on Graphics Processing Units)。 CUDA 不是开源的,它是由 NVIDIA 开发和维护的闭源专有技术。尽管 CUDA 本身不是开源的,但存在一些开源的并行计算平台和框架,可以作为替代方案。

  • OpenCL
  • HIP (Heterogeneous-Computing Interface for Portability)
  • SYCL
  • ROCm

尽管 CUDA 本身不是开源的,但 NVIDIA 提供了一些与 CUDA 相关的开源项目。

  • CUDA 示例代码
  • cuTENSOR、cuDNN 的绑定接口
  • NVIDIA 开源了一些与深度学习、并行计算相关的工具和框架,例如 TensorRT;

参考文档:

GPU Driver(驱动)

GPU Driver 是用于在操作系统和 GPU 硬件之间桥接通信的软件。它是 GPU 正常工作的关键组件,负责提供硬件加速功能和驱动 GPU 的各种特性。

NVIDIA Driver 是 NVIDIA 显卡及其相关硬件(GPU)的驱动程序,负责在操作系统和 NVIDIA GPU 硬件之间进行通信和管理,确保 GPU 的功能能够正常运行。它是任何依赖 NVIDIA GPU 的应用程序(如图形渲染、深度学习、科学计算等)运行的基础。

AMD:主要分为 AMD Radeon Software(Windows)与 AMDGPU(Linux)。

参考文档:

Intel:主要是 Intel Graphics Driver。

参考文档:

其他厂商,如 Apple、Arm,驱动对应的是Metal API 驱动、Mali GPU 驱动。

Nvidia-Container-Toolkit

NVIDIA-Container-Toolkit 是一个工具集,它允许将 NVIDIA GPU 集成到容器化环境中,例如 Docker 和 Kubernetes。通过 NVIDIA-Container-Toolkit,开发者可以在容器内运行需要 GPU 加速的应用程序(如深度学习、科学计算)并充分利用主机系统上的 GPU 硬件。

参考文档:

CUDNN

cuDNN(CUDA Deep Neural Network Library) 是 NVIDIA 提供的一种高性能 GPU 加速库,专为深度学习框架优化。cuDNN 是基于 CUDA 构建的,旨在为深度神经网络(DNN)的关键操作(如卷积、池化和归一化)提供高效的实现。 它是深度学习框架(如 TensorFlow、PyTorch、MXNet)的底层依赖库,通过调用 cuDNN,可以充分利用 NVIDIA GPU 的性能,从而显著加速模型训练和推理。

参考文档:

Kernel(内核)

Kernel(内核) 是计算机系统中最核心的部分,它是操作系统的心脏,负责管理计算机硬件资源并提供对这些资源的抽象接口供应用程序使用。

Kernel 主要分为: Linux Kernel、Windows Kernel、macOS (XNU) Kernel、其他开源内核等。

参考文档:

容器

容器运行时是一个管理容器生命周期的底层组件。它负责从容器镜像创建容器、运行容器、监控容器的状态并最终销毁容器。容器运行时是容器技术的核心,提供对容器的低级管理。

参考文档:

  • Container Runtime OCI (Open Container Initiative)

containerd

Containerd 是一个开放、标准化的容器运行时,提供对容器生命周期的管理。最初是 Docker 的一个组件,现在已经成为一个独立的项目,由 CNCF(Cloud Native Computing Foundation)托管。

参考文档:

docker

Docker 是一个开源的容器化平台,它提供了一个完整的解决方案,包括容器镜像的构建、分发和运行。Docker 最初是一个包含完整容器生命周期管理的独立工具,但其底层运行时后来拆分为 containerd。

参考文档:

Kubernetes

kubelet

Kubelet 是 Kubernetes 中每个节点的核心代理服务,确保 Pod 按预期运行。它负责与控制平面交互、容器生命周期管理、健康检查、资源监控等。通过与底层运行时(如 containerd)和插件(如 CNI、CSI)集成,Kubelet 是 Kubernetes 集群节点运作的基石。

参考文档:

Device Plugin

Device Plugin 是 Kubernetes 中的一种机制,用于将节点上的硬件资源(如 GPU、RDMA 网卡、TPU 等)暴露给 Kubernetes 集群。它通过 Kubernetes 的 Device Plugin API 实现,将设备抽象为可供 Pod 请求的资源。

设备插件描述适用硬件代码链接
NVIDIA Device Plugin集成 NVIDIA GPU,支持 GPU 分配、显存隔离和多实例 GPU(MIG)管理。NVIDIA GPUNVIDIA Kubernetes Device Plugin
RDMA Device Plugin提供 RDMA(如 InfiniBand)的资源管理,支持低延迟通信,适用于分布式深度学习和高性能计算。Mellanox InfiniBand、RoCEMellanox/k8s-rdma-shared-dev-plugin
RDMA Device Plugin by NVIDIA/Mellanox
AMD GPU Plugin将 AMD GPU 集成到 Kubernetes,支持机器学习和大数据加速。AMD Radeon 和 Instinct 系列 GPUROCm/k8s-device-plugin
AMD ROCm Kubernetes Device Plugin
Intel GPU Plugin集成 Intel GPU(如 Iris Xe 和 Arc GPU),支持媒体处理和 AI 推理任务。Intel GPUintel/intel-device-plugins-for-kubernetes
Intel GPU Plugins for Kubernetes
Google TPU Plugin支持 Google Cloud 上的 TPU,用于深度学习加速。Google TPU无公开项目代码链接
FPGA Device Plugin支持 FPGA 的分配与管理,用于模型推理和数据流处理。Intel FPGA、Xilinx FPGAintel/intel-device-plugins-for-kubernetes
Intel FPGA Kubernetes Device Plugin
ASIC Device Plugin集成 ASIC(如 Google Edge TPU 和 Baidu Kunlun),用于 AI 推理任务。Google Edge TPU、Baidu Kunlun无公开项目代码链接

GPU

GPU 虚拟化

GPU 虚拟化是将物理 GPU 分割成多个虚拟 GPU(vGPU),并将这些虚拟 GPU 分配给不同的虚拟机(VM)或容器。这使得多个用户或应用可以共享 GPU 资源,而无需独占整个 GPU。

  • 虚拟化方式:
    • GPU 直通(Passthrough):将一个物理 GPU 直接分配给虚拟机(VM)或容器。虚拟机或容器能够完全控制 GPU,适用于需要高性能的工作负载。
    • GPU 分时(Time-sharing):通过 GPU 虚拟化技术(如 NVIDIA vGPU)在多个虚拟机或容器之间分配 GPU 时间片,允许共享 GPU 资源。
    • MIG(Multi-Instance GPU):这是 NVIDIA 提供的一种技术,允许将一块物理 GPU 划分为多个小的实例,从而支持多任务并发。
  • 常见 GPU 虚拟化技术:
    • NVIDIA vGPU:通过 NVIDIA 虚拟 GPU(vGPU)技术,将 GPU 资源共享给虚拟机或容器。vGPU 支持对 GPU 进行分时或分实例操作。
    • AMD MxGPU:AMD 提供的虚拟化技术,支持将一个物理 GPU 分配给多个虚拟机(VM)。
    • Intel GVT-g:Intel 提供的 GPU 虚拟化技术,支持对 Intel 集成 GPU 的虚拟化。

参考文档:

GPU Manager

GPU Manager 是一款高效的工具,用于管理和优化 GPU 资源。它的主要功能包括 GPU 资源分配、性能监控、多实例管理、错误检测等,广泛应用于云计算平台、虚拟化环境和高性能计算任务。

参考文档:

计算

Volcano 调度器

Volcano 调度器 是 Kubernetes 的一个扩展调度器,特别适用于高性能计算、深度学习等大规模任务的调度,提供了多维度资源调度、批量作业管理、队列调度等功能。

参考文档:

Scheduler 调度器

Kubernetes 默认调度器(Scheduler) 是 Kubernetes 自带的调度器,负责将 Pod 分配到集群中的节点,考虑资源匹配、亲和性、优先级等策略进行调度。

参考文档:

网络

Calico

Calico 是一个高性能、开源的网络插件,广泛应用于 Kubernetes、OpenShift 等容器化环境中。它支持网络策略、服务网格和高效的网络连接。

参考文档:

Cilium

Cilium 是一个基于 eBPF(Extended Berkeley Packet Filter)的容器网络插件,旨在提供高性能、可扩展、以及深度集成的网络安全功能。Cilium 是现代容器网络的升级方案,特别适用于微服务架构中的复杂流量管理。

Flannel

Flannel 是一个简单、易用的容器网络插件,主要用于为 Kubernetes 提供虚拟网络,它通过配置虚拟网络接口来连接容器。Flannel 适合于较为简单的网络场景,并支持多种网络后端。

存储

存储系统描述适用场景代码链接官网链接
Fluid基于 Kubernetes 的开源数据编排和加速引擎,结合内存和文件系统加速数据访问,适用于大数据和 AI 场景。大数据和 AIFluid GitHubFluid 官方网站
GlusterFS开源分布式文件系统,整合多个存储节点为一个存储池,为容器提供统一的存储访问。高性能存储和扩展存储需求GlusterFS CSIGlusterFS 官网
JuiceFS为云原生应用设计的高性能分布式文件系统,兼容 POSIX 标准。云原生和分布式存储JuiceFS CSIJuiceFS 官网
PFS支持并行数据访问的文件系统,为 HPC 和分布式计算环境提供高吞吐量和低延迟的存储。高性能计算和分布式计算PFS GitHubJuiceFS 官网
Ceph开源分布式存储系统,支持块存储、文件存储和对象存储,具有高可扩展性和高可靠性。云计算和容器环境存储Ceph GitHubCeph 官方网站
HDFSHadoop 生态中的分布式文件系统,专为大数据存储和处理设计。大数据存储和处理HDFS CSIHadoop 官网
NFS网络文件共享协议,使多个客户端能够同时访问和共享远程文件系统。文件共享和多客户端访问无代码链接无官网链接

AI 框架

深度学习框架

框架描述代码链接官网链接
TensorFlow(Google)支持深度学习和机器学习的全功能框架,提供高性能分布式训练、强大的生产部署工具。TensorFlow GitHubTensorFlow 官网
PyTorch(Meta 原 Facebook)易用性强,动态计算图结构适合研究,分布式训练支持较好。PyTorch GitHubPyTorch 官网
MXNet(Apache)支持多语言接口,分布式训练性能较好。MXNet GitHubMXNet 官网
MindSpore(华为)适合边缘计算、分布式 AI 的全栈框架,支持动态和静态图。MindSpore GitHubMindSpore 官网
JAX(Google)专注于高性能数值计算,自动微分和硬件加速支持。JAX GitHubJAX 官网

机器学习框架

框架描述代码链接官网链接
Scikit-learn(社区开发)经典机器学习工具库,适用于小型数据集和教学场景。Scikit-learn GitHubScikit-learn 官网
XGBoost(社区开发)提供高效梯度提升决策树算法,常用于表格数据分析和 Kaggle 比赛。XGBoost GitHubXGBoost 官网
LightGBM(微软)高效的梯度提升框架,适合大规模数据和分布式训练。LightGBM GitHubLightGBM 官网
CatBoost(Yandex)支持分类特征的梯度提升框架,性能高且易用。CatBoost GitHubCatBoost 官网

分布式训练框架

框架描述代码链接官网链接
Horovod(Uber)提供高效的分布式深度学习支持,兼容 TensorFlow 和 PyTorch。Horovod GitHubHorovod 官网
Ray(Anyscale)提供分布式计算支持,适用于分布式训练、强化学习和大规模数据处理。Ray GitHubRay 官网

自动化 AI 工具

工具描述代码链接官网链接
TensorRT(NVIDIA)专为推理加速设计的工具,支持多种 AI 模型优化。TensorRT GitHubTensorRT 官网
ONNX(社区开发)提供跨框架的模型格式和运行时,支持 TensorFlow、PyTorch 等。ONNX GitHubONNX 官网
Kubeflow(Google)基于 Kubernetes 的 AI 工作流工具,支持模型训练和部署。Kubeflow GitHubKubeflow 官网

可观测

Log(日志)

工具描述官网链接
Fluentd日志收集和聚合工具,支持多种日志来源和目标。Fluentd 官网
Fluent BitFluentd 的轻量级版本,适用于资源受限环境。Fluent Bit 官网
Loki日志存储和查询系统,与 Prometheus 集成良好。Loki 官网
LogstashElastic Stack 的日志处理工具,支持复杂日志分析。Elastic 官网
Vector高性能日志收集和传输工具。Vector 官网

Prometheus(监控)

工具描述官网链接
Prometheus核心监控系统,负责采集和存储时间序列数据。Prometheus 官网
Alertmanager告警管理系统,与 Prometheus 配合使用。Prometheus 官网
Node Exporter提供主机系统指标(如 CPU、内存、磁盘等)。Prometheus 官网
Grafana可视化工具,与 Prometheus 集成展示监控数据。Grafana 官网

Trace(链路)

工具描述官网链接
Jaeger分布式链路追踪系统,支持 OpenTracing 标准。Jaeger 官网
OpenTelemetry统一的可观测性框架,支持 Trace、Metrics 和 Logs。OpenTelemetry 官网
Zipkin分布式链路追踪工具,支持调用链分析和时延监控。Zipkin 官网
TempoGrafana 提供的分布式追踪后端,适用于与 Loki 和 Prometheus 集成的场景。Tempo 官网

Metric(指标)

工具描述官网链接
DCGM ExporterNVIDIA GPU 专用指标导出工具,用于监控 GPU 的运行状态。NVIDIA DCGM 官网
Kube-State-Metrics提供 Kubernetes 集群状态信息(如 Pod、Deployment 指标)。Kubernetes 官网
cAdvisor容器监控工具,负责采集容器的资源使用情况。cAdvisor 文档
Prometheus Exporters提供多种系统和服务的指标导出器(如 Node Exporter)。Prometheus 官网

故障诊断

Node Problem Detector

Node Problem Detector 是 Kubernetes 的一个组件,用于监控节点的健康状况,并将节点的问题暴露给 Kubernetes 以便采取措施(例如,将节点标记为不可调度)。

GitHub 地址: Node Problem Detector GitHub

Node Remedier

Node Remedier 是一种自动化修复工具,在检测到节点问题后执行修复操作,例如重启服务、重新安装驱动或隔离问题节点。

GitHub 地址: Node Remedier GitHub

镜像加速

Image Accelerate

Image Accelerate 通过分层存储、镜像缓存等技术优化镜像分发效率。

  • Dragonfly: 阿里巴巴开源的分布式镜像分发系统。

  • Harbor: 云原生镜像仓库,支持镜像复制与分发。

P2P Accelerate

P2P Accelerate 利用对等网络减少中心化负载,在多节点分布式环境中优势显著。

  • Dragonfly: 支持 P2P 加速,结合镜像缓存优化整体分发效率。

  • BitTorrent: 经典 P2P 传输协议,适用于大文件分发。

开源大模型

开源大模型通常提供预训练权重和开放的模型架构,用于自然语言处理、计算机视觉和多模态任务。这些模型可以直接用于微调或推理。

自然语言处理(NLP)大模型

模型描述GitHub / 资源链接
GPT生成文本、对话系统、代码生成GPT-2, GPT-Neo, GPT-J
LLaMA通用文本生成、理解、翻译LLaMA Community
T5文本生成、翻译、摘要T5 Repository
BERT文本分类、问答、命名实体识别BERT

多模态大模型

模型描述GitHub / 资源链接
CLIP图像与文本联合理解和生成CLIP GitHub
DALL-E基于文本描述生成图像DALL-E Mini GitHub
Stable Diffusion文本生成图像、图像到图像转换Stable Diffusion GitHub

训练框架

开源训练框架

框架描述GitHub / 资源链接
DeepSpeed提供高性能分布式训练支持,专注于大模型优化,支持 ZeRO 优化器、显存节约技术DeepSpeed GitHub
Megatron-LM大规模语言模型训练框架,支持 GPT 和 T5 的分布式训练,适合超大规模 GPU 集群Megatron-LM GitHub
Colossal-AI高效分布式训练的大模型工具包,提供显存优化、分布式策略和低成本训练方案Colossal-AI GitHub
Hugging Face Transformers提供多种预训练模型的训练和微调工具,支持多框架(TensorFlow、PyTorch)Transformers GitHub

开源模型推理框架

框架描述GitHub / 资源链接
ONNX Runtime高性能模型推理框架,支持多种硬件和平台ONNX Runtime GitHub
TensorRT针对 NVIDIA GPU 优化的推理加速库TensorRT GitHub
Triton Inference Server支持多模型、多框架推理的开源服务器,适合生产部署Triton Server GitHub
FastAPI + Hugging Face Pipelines使用 FastAPI 部署 Hugging Face 模型进行推理服务,适合快速部署FastAPI GitHub

信创

国产 GPU 卡

品牌芯片系列主要特点官网链接
寒武纪(Cambricon)思元系列 AI 芯片(Cambricon MLU)面向云端和边缘的 AI 计算加速,支持深度学习训练与推理寒武纪官网
昆仑芯(Baidu Kunlun)昆仑系列支持大规模 AI 模型训练与推理,集成百度 PaddlePaddle昆仑芯官网
天数智芯(Tianshu Zhixin)Big Island 通用 GPU面向 HPC 和 AI 模型训练,强调高效能和国产替代能力天数智芯官网
壁仞科技(Biren Technology)BR100、BR104专注于 AI 模型训练和高性能计算,支持多种计算精度(FP32、FP16、INT8)壁仞科技官网
沐曦科技(Moore Threads)MTT S60、MTT S300兼容图形渲染与 AI 推理,支持国产操作系统和 GPU 通用计算沐曦科技官网

国产芯

品牌芯片类型主要特点官网链接
华为昇腾(Huawei Ascend)Ascend 310(推理芯片)、Ascend 910(训练芯片)覆盖端、边、云全场景,强算力、高能效,支持多框架开发华为昇腾官网
芯动科技(Innosilicon)自研 GPU 和 SoC 解决方案高性能、低功耗设计,应用于嵌入式设备和物联网芯动科技官网
兆芯(Zhaoxin)通用 CPU 和 GPU与国产操作系统深度适配,强调安全性与自主可控兆芯官网
华芯通(HXT)ARM 架构服务器芯片专注于高性能服务器市场,支持云计算和数据中心应用华芯通官网

国产 AI 框架

框架适用芯片主要特点官网链接
飞桨(PaddlePaddle)寒武纪、昆仑芯、天数智芯、昇腾等提供易用的开发接口,支持分布式训练,适配国产操作系统PaddlePaddle官网
MindSpore昇腾系列针对华为昇腾 AI 芯片深度优化,支持全场景 AI 开发MindSpore官网
MegEngine寒武纪等高性能计算引擎,适配部分国产芯片MegEngine官网
TensorLayer多种国产芯片支持多种芯片高效部署,面向研究与产业应用TensorLayer官网
寒武纪 NeuWare寒武纪 MLU提供优化编译器、算子库及工具链,适配思元系列芯片NeuWare官网
华为 CANN昇腾系列支持算子优化与高效分布式训练,适配昇腾芯片CANN官网
TensorFlow(国产扩展版)寒武纪、昆仑芯等适配国产芯片,提供专用加速算子TensorFlow官网
ONNX Runtime(国产扩展版)昇腾、寒武纪、昆仑芯等支持高性能推理,适配多种国产芯片ONNX Runtime官网
Triton Inference Server(国产优化版)寒武纪、昆仑芯等支持多种 AI 框架的模型,扩展支持国产芯片Triton官网
OneFlow高性能分布式深度学习优化提供高效的分布式训练工具OneFlow官网