聊聊 LLM 推理加速常见手段

Posted by 陈谭军 on Saturday, December 13, 2025 | 阅读 |共 324 字，阅读约 1 分钟

推理常见加速手段

大模型推理的常见加速手段，本质上围绕 “少算、快算、少等、少搬” 四个方向展开：

一方面通过算法与模型层优化，如 KV Cache、FlashAttention、Speculative Decoding、量化与裁剪，减少不必要的计算或降低计算精度成本；
另一方面在系统与工程层面，借助算子融合、并行化（Tensor / Pipeline / Expert Parallelism）、高效调度与批处理，提升硬件利用率；
同时通过内存与数据路径优化，如 KV Cache 复用与 Offload、Paged Attention、NUMA 感知和高速互联（NVLink / RDMA），减少访存和数据搬运开销；
最终在部署与服务层，结合请求合并、动态批处理、异构算力协同，实现端到端时延与吞吐的综合最优。

整体如下所示：