本文详尽列举了构建和实施先进人工智能(AI)解决方案所需的关键技术组件。
首先,针对单机环境,文档罗列了并行计算平台、GPU驱动程序、容器化工具及内核选项等核心技术,这些构成了高效运行高性能计算任务的基础。
在容器化与Kubernetes部分,强调了容器运行时(如containerd和Docker)、核心组件(如kubelet),以及多种设备插件的重要性,它们共同支持了灵活且高效的资源管理和调度,为云原生应用提供了坚实的支撑。
关于GPU虚拟化和管理、计算调度、网络配置及存储系统的选择,文档介绍了各类技术和框架,确保了从硬件资源的有效利用到数据的快速存取,满足了大规模分布式计算的需求。
对于AI开发,文档涵盖了深度学习框架(如TensorFlow、PyTorch)、机器学习库、分布式训练框架及自动化AI工具,反映了当前AI开发生态系统的广度和深度,同时突出了模型训练和推理优化的最新进展。
此外,文档还探讨了可观测性工具,包括日志管理、监控系统(如Prometheus)、追踪机制和性能指标收集,这些对于维护系统的稳定性和实现及时的问题诊断至关重要。故障诊断和镜像加速工具进一步增强了系统的可靠性和部署效率。特别值得一提的是,文档中提及的大模型和训练框架部分展示了自然语言处理(NLP)大模型和多模态模型的前沿发展,并介绍了支持这些模型训练的开源框架和技术。
最后,信创领域的介绍凸显了国产自主研发的技术产品,如国产GPU卡、芯片和AI框架,这不仅体现了国家对科技自主创新的重视,也反映了中国在全球科技竞争中的地位提升。
大模型 AI 基础套件清单如下所示:
- 单机
- CUDA
- GPU Driver(驱动)
- NVIDIA
- AMD
- Intel
- 其他厂商,如 Apple、Arm
- Nvidia-Container-Toolkit
- CUDNN
- Kernel(内核)
- 容器
- 容器运行时(container-runtime)
- containerd
- docker
- 容器运行时(container-runtime)
- Kubernetes
- 核心组件
- kubelet
- Device Plugin
- Nvidia Device Plugin
- RDMA Device Plugin
- AMD GPU Plugin
- Intel GPU Plugin
- Google TPU Plugin
- FPGA Device Plugin
- ASIC Device Plugin
- 核心组件
- GPU
- GPU 虚拟化
- GPU Manager
- 计算
- Volcano 调度器
- Scheduler 调度器
- 网络
- Calico
- Cilium
- Flannel
- 存储
- Fluid
- GlusterFS
- JuiceFS
- PFS
- Ceph
- HDFS
- NFS
- AI 框架
- 深度学习框架
- TensorFlow(Google)
- PyTorch(Meta 原 Facebook)
- MXNet(Apache)
- MindSpore(华为)
- JAX(Google)
- 机器学习框架
- Scikit-learn(社区开发)
- LightGBM(社区开发)
- XGBoost(微软)
- CatBoost(Yandex)
- 分布式训练框架
- Horovod(Uber)
- Ray(Anyscale)
- 自动化 AI 工具
- TensorRT (NVIDIA)
- ONNX(社区开发)
- Kubeflow(Google)
- PaddleFlow(百度)
- Tecton
- 深度学习框架
- 可观测
- Log(日志)
- Fluentd
- Fluent Bit
- Loki
- Logstash
- Vector
- Prometheus(监控)
- Prometheus
- Alertmanager
- Node Exporter
- Grafana
- Trace(链路)
- Jaeger
- OpenTelemetry
- Zipkin
- Tempo
- Metric(指标)
- DCGM Exporter
- Kube-State-Metrics
- cAdvisor
- Prometheus Exporters
- Log(日志)
- 故障诊断
- Node Problem Detector
- Node Remedier
- 镜像加速
- Image Accelerate
- P2P Accelerate
- 开源大模型
- 自然语言处理(NLP)大模型
- GPT(OpenAI GPT-2, GPT-3, GPT-Neo, GPT-J)
- LLaMA(Meta AI)
- T5(Text-to-Text Transfer Transformer)
- BERT(Bidirectional Encoder Representations from Transformers)
- 多模态大模型
- CLIP (Contrastive Language-Image Pretraining) (OpenAI)
- DALL-E (OpenAI)
- Stable Diffusion
- 自然语言处理(NLP)大模型
- 训练框架
- 开源训练框架
- DeepSpeed
- Megatron-LM
- Colossal-AI
- Hugging Face Transformers
- 开源训练框架
- 模型推理
- 开源模型框架
- ONNX Runtime
- TensorRT(NVIDIA)
- Triton Inference Server(NVIDIA)
- FastAPI + Hugging Face Pipelines
- 开源模型框架
- 信创
- 国产卡
- 寒武纪(Cambricon)
- 昆仑芯(Baidu Kunlun)
- 天数智芯(Tianshu Zhixin)
- 壁仞科技(Biren Technology)
- 沐曦科技(Moore Threads)
- 国产芯
- 华为昇腾(Huawei Ascend)
- 芯动科技(Innosilicon)
- 兆芯(Zhaoxin)
- 华芯通(HXT)
- 国产AI框架
- 飞桨(PaddlePaddle)
- MindSpore (华为)
- MegEngine(旷视科技)
- TensorLayer(国内开源社区主导)
- 寒武纪 NeuWare(寒武纪)
- 华为 CANN(华为)
- TensorFlow (国产扩展版)
- ONNX Runtime (国产扩展版)
- Triton Inference Server
- OneFlow(国内团队开源)
- 国产卡
单机
CUDA
CUDA(Compute Unified Device Architecture)是 NVIDIA 开发的一种并行计算平台和编程模型,用于使用 GPU(图形处理单元)进行通用计算(GPGPU,General-Purpose computing on Graphics Processing Units)。 CUDA 不是开源的,它是由 NVIDIA 开发和维护的闭源专有技术。尽管 CUDA 本身不是开源的,但存在一些开源的并行计算平台和框架,可以作为替代方案。
- OpenCL
- HIP (Heterogeneous-Computing Interface for Portability)
- SYCL
- ROCm
尽管 CUDA 本身不是开源的,但 NVIDIA 提供了一些与 CUDA 相关的开源项目。
- CUDA 示例代码
- cuTENSOR、cuDNN 的绑定接口
- NVIDIA 开源了一些与深度学习、并行计算相关的工具和框架,例如 TensorRT;
参考文档:
GPU Driver(驱动)
GPU Driver 是用于在操作系统和 GPU 硬件之间桥接通信的软件。它是 GPU 正常工作的关键组件,负责提供硬件加速功能和驱动 GPU 的各种特性。
NVIDIA Driver 是 NVIDIA 显卡及其相关硬件(GPU)的驱动程序,负责在操作系统和 NVIDIA GPU 硬件之间进行通信和管理,确保 GPU 的功能能够正常运行。它是任何依赖 NVIDIA GPU 的应用程序(如图形渲染、深度学习、科学计算等)运行的基础。
AMD:主要分为 AMD Radeon Software(Windows)与 AMDGPU(Linux)。
参考文档:
Intel:主要是 Intel Graphics Driver。
参考文档:
其他厂商,如 Apple、Arm,驱动对应的是Metal API 驱动、Mali GPU 驱动。
Nvidia-Container-Toolkit
NVIDIA-Container-Toolkit 是一个工具集,它允许将 NVIDIA GPU 集成到容器化环境中,例如 Docker 和 Kubernetes。通过 NVIDIA-Container-Toolkit,开发者可以在容器内运行需要 GPU 加速的应用程序(如深度学习、科学计算)并充分利用主机系统上的 GPU 硬件。
参考文档:
- NVIDIA Container Toolkit 文档:https://github.com/NVIDIA/nvidia-container-toolkit
- NVIDIA Docker 文档:https://github.com/NVIDIA/nvidia-docker
- NVIDIA GPU Cloud(NGC):提供预构建的容器镜像,如 TensorFlow 和 PyTorch:https://ngc.nvidia.com
CUDNN
cuDNN(CUDA Deep Neural Network Library) 是 NVIDIA 提供的一种高性能 GPU 加速库,专为深度学习框架优化。cuDNN 是基于 CUDA 构建的,旨在为深度神经网络(DNN)的关键操作(如卷积、池化和归一化)提供高效的实现。 它是深度学习框架(如 TensorFlow、PyTorch、MXNet)的底层依赖库,通过调用 cuDNN,可以充分利用 NVIDIA GPU 的性能,从而显著加速模型训练和推理。
参考文档:
- NVIDIA cuDNN 文档:https://docs.nvidia.com/deeplearning/cudnn/
- PyTorch cuDNN 支持:https://pytorch.org/docs/stable/notes/cuda.html
- NVIDIA cuDNN 性能指南:https://docs.nvidia.com/deeplearning/cudnn/developer-guide/index.html
Kernel(内核)
Kernel(内核) 是计算机系统中最核心的部分,它是操作系统的心脏,负责管理计算机硬件资源并提供对这些资源的抽象接口供应用程序使用。
Kernel 主要分为: Linux Kernel、Windows Kernel、macOS (XNU) Kernel、其他开源内核等。
参考文档:
- GitHub 源码镜像(官方版本管理在 git.kernel.org):https://github.com/torvalds/linux
- 官方文档:https://www.kernel.org/doc/
- CUDA 对内核要求:https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#system-requirements
容器
容器运行时是一个管理容器生命周期的底层组件。它负责从容器镜像创建容器、运行容器、监控容器的状态并最终销毁容器。容器运行时是容器技术的核心,提供对容器的低级管理。
参考文档:
- Container Runtime OCI (Open Container Initiative)
containerd
Containerd 是一个开放、标准化的容器运行时,提供对容器生命周期的管理。最初是 Docker 的一个组件,现在已经成为一个独立的项目,由 CNCF(Cloud Native Computing Foundation)托管。
参考文档:
docker
Docker 是一个开源的容器化平台,它提供了一个完整的解决方案,包括容器镜像的构建、分发和运行。Docker 最初是一个包含完整容器生命周期管理的独立工具,但其底层运行时后来拆分为 containerd。
参考文档:
- 代码
- [官网](https://www.docker.com)
Kubernetes
kubelet
Kubelet 是 Kubernetes 中每个节点的核心代理服务,确保 Pod 按预期运行。它负责与控制平面交互、容器生命周期管理、健康检查、资源监控等。通过与底层运行时(如 containerd)和插件(如 CNI、CSI)集成,Kubelet 是 Kubernetes 集群节点运作的基石。
参考文档:
Device Plugin
Device Plugin 是 Kubernetes 中的一种机制,用于将节点上的硬件资源(如 GPU、RDMA 网卡、TPU 等)暴露给 Kubernetes 集群。它通过 Kubernetes 的 Device Plugin API 实现,将设备抽象为可供 Pod 请求的资源。
设备插件 | 描述 | 适用硬件 | 代码链接 |
---|---|---|---|
NVIDIA Device Plugin | 集成 NVIDIA GPU,支持 GPU 分配、显存隔离和多实例 GPU(MIG)管理。 | NVIDIA GPU | NVIDIA Kubernetes Device Plugin |
RDMA Device Plugin | 提供 RDMA(如 InfiniBand)的资源管理,支持低延迟通信,适用于分布式深度学习和高性能计算。 | Mellanox InfiniBand、RoCE | Mellanox/k8s-rdma-shared-dev-plugin RDMA Device Plugin by NVIDIA/Mellanox |
AMD GPU Plugin | 将 AMD GPU 集成到 Kubernetes,支持机器学习和大数据加速。 | AMD Radeon 和 Instinct 系列 GPU | ROCm/k8s-device-plugin AMD ROCm Kubernetes Device Plugin |
Intel GPU Plugin | 集成 Intel GPU(如 Iris Xe 和 Arc GPU),支持媒体处理和 AI 推理任务。 | Intel GPU | intel/intel-device-plugins-for-kubernetes Intel GPU Plugins for Kubernetes |
Google TPU Plugin | 支持 Google Cloud 上的 TPU,用于深度学习加速。 | Google TPU | 无公开项目代码链接 |
FPGA Device Plugin | 支持 FPGA 的分配与管理,用于模型推理和数据流处理。 | Intel FPGA、Xilinx FPGA | intel/intel-device-plugins-for-kubernetes Intel FPGA Kubernetes Device Plugin |
ASIC Device Plugin | 集成 ASIC(如 Google Edge TPU 和 Baidu Kunlun),用于 AI 推理任务。 | Google Edge TPU、Baidu Kunlun | 无公开项目代码链接 |
GPU
GPU 虚拟化
GPU 虚拟化是将物理 GPU 分割成多个虚拟 GPU(vGPU),并将这些虚拟 GPU 分配给不同的虚拟机(VM)或容器。这使得多个用户或应用可以共享 GPU 资源,而无需独占整个 GPU。
- 虚拟化方式:
- GPU 直通(Passthrough):将一个物理 GPU 直接分配给虚拟机(VM)或容器。虚拟机或容器能够完全控制 GPU,适用于需要高性能的工作负载。
- GPU 分时(Time-sharing):通过 GPU 虚拟化技术(如 NVIDIA vGPU)在多个虚拟机或容器之间分配 GPU 时间片,允许共享 GPU 资源。
- MIG(Multi-Instance GPU):这是 NVIDIA 提供的一种技术,允许将一块物理 GPU 划分为多个小的实例,从而支持多任务并发。
- 常见 GPU 虚拟化技术:
- NVIDIA vGPU:通过 NVIDIA 虚拟 GPU(vGPU)技术,将 GPU 资源共享给虚拟机或容器。vGPU 支持对 GPU 进行分时或分实例操作。
- AMD MxGPU:AMD 提供的虚拟化技术,支持将一个物理 GPU 分配给多个虚拟机(VM)。
- Intel GVT-g:Intel 提供的 GPU 虚拟化技术,支持对 Intel 集成 GPU 的虚拟化。
参考文档:
GPU Manager
GPU Manager 是一款高效的工具,用于管理和优化 GPU 资源。它的主要功能包括 GPU 资源分配、性能监控、多实例管理、错误检测等,广泛应用于云计算平台、虚拟化环境和高性能计算任务。
参考文档:
计算
Volcano 调度器
Volcano 调度器 是 Kubernetes 的一个扩展调度器,特别适用于高性能计算、深度学习等大规模任务的调度,提供了多维度资源调度、批量作业管理、队列调度等功能。
参考文档:
Scheduler 调度器
Kubernetes 默认调度器(Scheduler) 是 Kubernetes 自带的调度器,负责将 Pod 分配到集群中的节点,考虑资源匹配、亲和性、优先级等策略进行调度。
参考文档:
网络
Calico
Calico 是一个高性能、开源的网络插件,广泛应用于 Kubernetes、OpenShift 等容器化环境中。它支持网络策略、服务网格和高效的网络连接。
参考文档:
- 官网:Calico 官网
- 代码:Calico GitHub
Cilium
Cilium 是一个基于 eBPF(Extended Berkeley Packet Filter)的容器网络插件,旨在提供高性能、可扩展、以及深度集成的网络安全功能。Cilium 是现代容器网络的升级方案,特别适用于微服务架构中的复杂流量管理。
- 官网:Cilium 官网
- 代码:Cilium GitHub
Flannel
Flannel 是一个简单、易用的容器网络插件,主要用于为 Kubernetes 提供虚拟网络,它通过配置虚拟网络接口来连接容器。Flannel 适合于较为简单的网络场景,并支持多种网络后端。
- 官网:Flannel 官网
- 代码:Flannel GitHub
存储
存储系统 | 描述 | 适用场景 | 代码链接 | 官网链接 |
---|---|---|---|---|
Fluid | 基于 Kubernetes 的开源数据编排和加速引擎,结合内存和文件系统加速数据访问,适用于大数据和 AI 场景。 | 大数据和 AI | Fluid GitHub | Fluid 官方网站 |
GlusterFS | 开源分布式文件系统,整合多个存储节点为一个存储池,为容器提供统一的存储访问。 | 高性能存储和扩展存储需求 | GlusterFS CSI | GlusterFS 官网 |
JuiceFS | 为云原生应用设计的高性能分布式文件系统,兼容 POSIX 标准。 | 云原生和分布式存储 | JuiceFS CSI | JuiceFS 官网 |
PFS | 支持并行数据访问的文件系统,为 HPC 和分布式计算环境提供高吞吐量和低延迟的存储。 | 高性能计算和分布式计算 | PFS GitHub | JuiceFS 官网 |
Ceph | 开源分布式存储系统,支持块存储、文件存储和对象存储,具有高可扩展性和高可靠性。 | 云计算和容器环境存储 | Ceph GitHub | Ceph 官方网站 |
HDFS | Hadoop 生态中的分布式文件系统,专为大数据存储和处理设计。 | 大数据存储和处理 | HDFS CSI | Hadoop 官网 |
NFS | 网络文件共享协议,使多个客户端能够同时访问和共享远程文件系统。 | 文件共享和多客户端访问 | 无代码链接 | 无官网链接 |
AI 框架
深度学习框架
框架 | 描述 | 代码链接 | 官网链接 |
---|---|---|---|
TensorFlow(Google) | 支持深度学习和机器学习的全功能框架,提供高性能分布式训练、强大的生产部署工具。 | TensorFlow GitHub | TensorFlow 官网 |
PyTorch(Meta 原 Facebook) | 易用性强,动态计算图结构适合研究,分布式训练支持较好。 | PyTorch GitHub | PyTorch 官网 |
MXNet(Apache) | 支持多语言接口,分布式训练性能较好。 | MXNet GitHub | MXNet 官网 |
MindSpore(华为) | 适合边缘计算、分布式 AI 的全栈框架,支持动态和静态图。 | MindSpore GitHub | MindSpore 官网 |
JAX(Google) | 专注于高性能数值计算,自动微分和硬件加速支持。 | JAX GitHub | JAX 官网 |
机器学习框架
框架 | 描述 | 代码链接 | 官网链接 |
---|---|---|---|
Scikit-learn(社区开发) | 经典机器学习工具库,适用于小型数据集和教学场景。 | Scikit-learn GitHub | Scikit-learn 官网 |
XGBoost(社区开发) | 提供高效梯度提升决策树算法,常用于表格数据分析和 Kaggle 比赛。 | XGBoost GitHub | XGBoost 官网 |
LightGBM(微软) | 高效的梯度提升框架,适合大规模数据和分布式训练。 | LightGBM GitHub | LightGBM 官网 |
CatBoost(Yandex) | 支持分类特征的梯度提升框架,性能高且易用。 | CatBoost GitHub | CatBoost 官网 |
分布式训练框架
框架 | 描述 | 代码链接 | 官网链接 |
---|---|---|---|
Horovod(Uber) | 提供高效的分布式深度学习支持,兼容 TensorFlow 和 PyTorch。 | Horovod GitHub | Horovod 官网 |
Ray(Anyscale) | 提供分布式计算支持,适用于分布式训练、强化学习和大规模数据处理。 | Ray GitHub | Ray 官网 |
自动化 AI 工具
工具 | 描述 | 代码链接 | 官网链接 |
---|---|---|---|
TensorRT(NVIDIA) | 专为推理加速设计的工具,支持多种 AI 模型优化。 | TensorRT GitHub | TensorRT 官网 |
ONNX(社区开发) | 提供跨框架的模型格式和运行时,支持 TensorFlow、PyTorch 等。 | ONNX GitHub | ONNX 官网 |
Kubeflow(Google) | 基于 Kubernetes 的 AI 工作流工具,支持模型训练和部署。 | Kubeflow GitHub | Kubeflow 官网 |
可观测
Log(日志)
工具 | 描述 | 官网链接 |
---|---|---|
Fluentd | 日志收集和聚合工具,支持多种日志来源和目标。 | Fluentd 官网 |
Fluent Bit | Fluentd 的轻量级版本,适用于资源受限环境。 | Fluent Bit 官网 |
Loki | 日志存储和查询系统,与 Prometheus 集成良好。 | Loki 官网 |
Logstash | Elastic Stack 的日志处理工具,支持复杂日志分析。 | Elastic 官网 |
Vector | 高性能日志收集和传输工具。 | Vector 官网 |
Prometheus(监控)
工具 | 描述 | 官网链接 |
---|---|---|
Prometheus | 核心监控系统,负责采集和存储时间序列数据。 | Prometheus 官网 |
Alertmanager | 告警管理系统,与 Prometheus 配合使用。 | Prometheus 官网 |
Node Exporter | 提供主机系统指标(如 CPU、内存、磁盘等)。 | Prometheus 官网 |
Grafana | 可视化工具,与 Prometheus 集成展示监控数据。 | Grafana 官网 |
Trace(链路)
工具 | 描述 | 官网链接 |
---|---|---|
Jaeger | 分布式链路追踪系统,支持 OpenTracing 标准。 | Jaeger 官网 |
OpenTelemetry | 统一的可观测性框架,支持 Trace、Metrics 和 Logs。 | OpenTelemetry 官网 |
Zipkin | 分布式链路追踪工具,支持调用链分析和时延监控。 | Zipkin 官网 |
Tempo | Grafana 提供的分布式追踪后端,适用于与 Loki 和 Prometheus 集成的场景。 | Tempo 官网 |
Metric(指标)
工具 | 描述 | 官网链接 |
---|---|---|
DCGM Exporter | NVIDIA GPU 专用指标导出工具,用于监控 GPU 的运行状态。 | NVIDIA DCGM 官网 |
Kube-State-Metrics | 提供 Kubernetes 集群状态信息(如 Pod、Deployment 指标)。 | Kubernetes 官网 |
cAdvisor | 容器监控工具,负责采集容器的资源使用情况。 | cAdvisor 文档 |
Prometheus Exporters | 提供多种系统和服务的指标导出器(如 Node Exporter)。 | Prometheus 官网 |
故障诊断
Node Problem Detector
Node Problem Detector 是 Kubernetes 的一个组件,用于监控节点的健康状况,并将节点的问题暴露给 Kubernetes 以便采取措施(例如,将节点标记为不可调度)。
GitHub 地址: Node Problem Detector GitHub
Node Remedier
Node Remedier 是一种自动化修复工具,在检测到节点问题后执行修复操作,例如重启服务、重新安装驱动或隔离问题节点。
GitHub 地址: Node Remedier GitHub
镜像加速
Image Accelerate
Image Accelerate 通过分层存储、镜像缓存等技术优化镜像分发效率。
Dragonfly: 阿里巴巴开源的分布式镜像分发系统。
- GitHub 地址: Dragonfly GitHub
Harbor: 云原生镜像仓库,支持镜像复制与分发。
- GitHub 地址: Harbor GitHub
P2P Accelerate
P2P Accelerate 利用对等网络减少中心化负载,在多节点分布式环境中优势显著。
Dragonfly: 支持 P2P 加速,结合镜像缓存优化整体分发效率。
- GitHub 地址: Dragonfly GitHub
BitTorrent: 经典 P2P 传输协议,适用于大文件分发。
开源大模型
开源大模型通常提供预训练权重和开放的模型架构,用于自然语言处理、计算机视觉和多模态任务。这些模型可以直接用于微调或推理。
自然语言处理(NLP)大模型
模型 | 描述 | GitHub / 资源链接 |
---|---|---|
GPT | 生成文本、对话系统、代码生成 | GPT-2, GPT-Neo, GPT-J |
LLaMA | 通用文本生成、理解、翻译 | LLaMA Community |
T5 | 文本生成、翻译、摘要 | T5 Repository |
BERT | 文本分类、问答、命名实体识别 | BERT |
多模态大模型
模型 | 描述 | GitHub / 资源链接 |
---|---|---|
CLIP | 图像与文本联合理解和生成 | CLIP GitHub |
DALL-E | 基于文本描述生成图像 | DALL-E Mini GitHub |
Stable Diffusion | 文本生成图像、图像到图像转换 | Stable Diffusion GitHub |
训练框架
开源训练框架
框架 | 描述 | GitHub / 资源链接 |
---|---|---|
DeepSpeed | 提供高性能分布式训练支持,专注于大模型优化,支持 ZeRO 优化器、显存节约技术 | DeepSpeed GitHub |
Megatron-LM | 大规模语言模型训练框架,支持 GPT 和 T5 的分布式训练,适合超大规模 GPU 集群 | Megatron-LM GitHub |
Colossal-AI | 高效分布式训练的大模型工具包,提供显存优化、分布式策略和低成本训练方案 | Colossal-AI GitHub |
Hugging Face Transformers | 提供多种预训练模型的训练和微调工具,支持多框架(TensorFlow、PyTorch) | Transformers GitHub |
开源模型推理框架
框架 | 描述 | GitHub / 资源链接 |
---|---|---|
ONNX Runtime | 高性能模型推理框架,支持多种硬件和平台 | ONNX Runtime GitHub |
TensorRT | 针对 NVIDIA GPU 优化的推理加速库 | TensorRT GitHub |
Triton Inference Server | 支持多模型、多框架推理的开源服务器,适合生产部署 | Triton Server GitHub |
FastAPI + Hugging Face Pipelines | 使用 FastAPI 部署 Hugging Face 模型进行推理服务,适合快速部署 | FastAPI GitHub |
信创
国产 GPU 卡
品牌 | 芯片系列 | 主要特点 | 官网链接 |
---|---|---|---|
寒武纪(Cambricon) | 思元系列 AI 芯片(Cambricon MLU) | 面向云端和边缘的 AI 计算加速,支持深度学习训练与推理 | 寒武纪官网 |
昆仑芯(Baidu Kunlun) | 昆仑系列 | 支持大规模 AI 模型训练与推理,集成百度 PaddlePaddle | 昆仑芯官网 |
天数智芯(Tianshu Zhixin) | Big Island 通用 GPU | 面向 HPC 和 AI 模型训练,强调高效能和国产替代能力 | 天数智芯官网 |
壁仞科技(Biren Technology) | BR100、BR104 | 专注于 AI 模型训练和高性能计算,支持多种计算精度(FP32、FP16、INT8) | 壁仞科技官网 |
沐曦科技(Moore Threads) | MTT S60、MTT S300 | 兼容图形渲染与 AI 推理,支持国产操作系统和 GPU 通用计算 | 沐曦科技官网 |
国产芯
品牌 | 芯片类型 | 主要特点 | 官网链接 |
---|---|---|---|
华为昇腾(Huawei Ascend) | Ascend 310(推理芯片)、Ascend 910(训练芯片) | 覆盖端、边、云全场景,强算力、高能效,支持多框架开发 | 华为昇腾官网 |
芯动科技(Innosilicon) | 自研 GPU 和 SoC 解决方案 | 高性能、低功耗设计,应用于嵌入式设备和物联网 | 芯动科技官网 |
兆芯(Zhaoxin) | 通用 CPU 和 GPU | 与国产操作系统深度适配,强调安全性与自主可控 | 兆芯官网 |
华芯通(HXT) | ARM 架构服务器芯片 | 专注于高性能服务器市场,支持云计算和数据中心应用 | 华芯通官网 |
国产 AI 框架
框架 | 适用芯片 | 主要特点 | 官网链接 |
---|---|---|---|
飞桨(PaddlePaddle) | 寒武纪、昆仑芯、天数智芯、昇腾等 | 提供易用的开发接口,支持分布式训练,适配国产操作系统 | PaddlePaddle官网 |
MindSpore | 昇腾系列 | 针对华为昇腾 AI 芯片深度优化,支持全场景 AI 开发 | MindSpore官网 |
MegEngine | 寒武纪等 | 高性能计算引擎,适配部分国产芯片 | MegEngine官网 |
TensorLayer | 多种国产芯片 | 支持多种芯片高效部署,面向研究与产业应用 | TensorLayer官网 |
寒武纪 NeuWare | 寒武纪 MLU | 提供优化编译器、算子库及工具链,适配思元系列芯片 | NeuWare官网 |
华为 CANN | 昇腾系列 | 支持算子优化与高效分布式训练,适配昇腾芯片 | CANN官网 |
TensorFlow(国产扩展版) | 寒武纪、昆仑芯等 | 适配国产芯片,提供专用加速算子 | TensorFlow官网 |
ONNX Runtime(国产扩展版) | 昇腾、寒武纪、昆仑芯等 | 支持高性能推理,适配多种国产芯片 | ONNX Runtime官网 |
Triton Inference Server(国产优化版) | 寒武纪、昆仑芯等 | 支持多种 AI 框架的模型,扩展支持国产芯片 | Triton官网 |
OneFlow | 高性能分布式深度学习优化 | 提供高效的分布式训练工具 | OneFlow官网 |