漫步远方,心荡神往

2026 新年快乐(Happy New Year)

新年的钟声已经敲响,我们迎来了充满活力与奔赴感的 2026 马年!🎉 感谢过去一年里的陪伴与支持,新的一年,愿我们策马前行,奔赴更远的目标,收获更多值得

聊聊 LLM 推理加速常见手段

推理常见加速手段 大模型推理的常见加速手段,本质上围绕 “少算、快算、少等、少搬” 四个方向展开: 一方面通过算法与模型层优化,如 KV Cache、Fl

聊聊 LLM 推理架构演进中的几个关键技术节点

导读 本文尝试以一种偏“杂谈”的方式,围绕大模型推理部署中的几个关键技术节点,梳理其演进脉络与核心动机。 最早的大模型部署,基本沿用了传统深度学

探索 Transformer 理论与本质

介绍 Transformer 架构和原理,以及大语言模型(LLM)的运作机制。

大语言模型(LLM)的核心是通过自回归方式逐词预测(next token prediction)。文本首先被 tokenizer 拆分为词或子词(如 BPE、BBPE 技术),每个 token 对应一个嵌入向量,并加入位置编码(如 RoPE)以保留顺序信息。模型基于 Transformer 结构,训练时通过注意力机制学习上下文关系,输出每个 token 的下一个词概率分布(softmax 归一化)。推理时采用自回归生成,通过采样策略(如 Top-k)和温度系数控制随机性。ALiBi 技术解决了长文本位置编码的外推问题,使模型能处理超越训练长度的输入。整个过程本质是序列条件概率建模,通过海量数据学习语言的统计规律。

科普开源大模型基础知识

本篇文章主要介绍开源大模型的基础知识,如 LLama 4 和 Qwen 3 的核心亮点和基础架构。

Llama 4 北京时间2025年4月6日凌晨,Meta发布了外界期待许久的Llama4系列开源模型,目前它包括 Llama 4 Scout、Llama 4 Maveri