漫步远方,心荡神往

LLM 教程(2)- 大模型基础知识

LLM 教程(2)- 大模型基础知识,LLM 专有名词、LLM 推理框架、LLM 结果评估

LLM 专有名词 量化(Quantization) 基础知识 LLM 大模型的量化技术主要是通过对模型参数进行压缩和量化,从而降低模型的存储和计算复杂度。具体

LLM 教程(1)- DeepSeek-R1 初步入门

DeepSeek-R1 基础知识,开源权重、模型系列、入门介绍等

基础知识 查看 deepseek-ai 开源官网,DeepSeek 有以下系列: DeepSeek-R1 DeepSeek-V3 (DeepSeek-V3-Base) DeepSeek-VL DeepSeek-Coder DeepSeek-Math DeepSeek-LLM 蒸馏模型系列(Qwen、LLaMA等) ……

A800 单机8卡体验 DeepSeek-R1-AWQ 量化满血版之旅

A800 单机8卡体验 DeepSeek-R1-AWQ 量化满血版之旅

硬件与系统环境要求 硬件配置 GPU: 8× NVIDIA A800 80GB 显存要求: 每卡80GB 系统内存: ≥32GB (用于交换空间) CPU:lscpu | grep “Model name” 值:Model name: Intel(R)

vLLM 多机多卡推理测试与验证(Docker)

vLLM 多机多卡推理 docker 验证

vLLM 采用多机多卡推理,是为了解决超大规模模型的显存限制、算力瓶颈、高并发吞吐需求以及长序列处理等挑战。通过模型并行、数据并行和高效的内存管理技术,vLLM 能将模型参数和计算任务分布到多块 GPU 和多台机器上,充分利用硬件资源,实现快速、高效的推理能力,满足工业级场景中对性能和扩展性的要求。

vLLM 多机多卡推理测试与验证(Kubernetes)

vLLM 多机多卡推理 Kubernetes 验证

vLLM 采用多机多卡推理,是为了解决超大规模模型的显存限制、算力瓶颈、高并发吞吐需求以及长序列处理等挑战。通过模型并行、数据并行和高效的内存管理技术,vLLM 能将模型参数和计算任务分布到多块 GPU 和多台机器上,充分利用硬件资源,实现快速、高效的推理能力,满足工业级场景中对性能和扩展性的要求。