漫步远方，心荡神往

探索 Transformer 理论与本质

介绍 Transformer 架构和原理，以及大语言模型（LLM）的运作机制。

大语言模型（LLM）的核心是通过自回归方式逐词预测（next token prediction）。文本首先被 tokenizer 拆分为词或子词（如 BPE、BBPE 技术），每个 token 对应一个嵌入向量，并加入位置编码（如 RoPE）以保留顺序信息。模型基于 Transformer 结构，训练时通过注意力机制学习上下文关系，输出每个 token 的下一个词概率分布（softmax 归一化）。推理时采用自回归生成，通过采样策略（如 Top-k）和温度系数控制随机性。ALiBi 技术解决了长文本位置编码的外推问题，使模型能处理超越训练长度的输入。整个过程本质是序列条件概率建模，通过海量数据学习语言的统计规律。

Posted by 陈谭军 on Sunday, June 1, 2025

科普开源大模型基础知识

本篇文章主要介绍开源大模型的基础知识，如 LLama 4 和 Qwen 3 的核心亮点和基础架构。

Llama 4 北京时间2025年4月6日凌晨，Meta发布了外界期待许久的Llama4系列开源模型，目前它包括 Llama 4 Scout、Llama 4 Maveri

Posted by 陈谭军 on Wednesday, May 7, 2025

DeepSeek 开源周活动

在2025年2月24日至28日的DeepSeek开源周期间，DeepSeek集中发布了五大核心开源项目，全面覆盖AI基础设施中的计算优化、通信效率与存储加速等关键领域，构建起一套面向大规模人工智能的高性能技术底座。

1. DeepSeek 开源周 DeepSeek 在开源了 DeepSeek-R1 与 DeepSeek-V3 模型权重后，DeepSeek-V3 技术报告《DeepSeek-V3 Technical Report》中提到的很多核心技术，相继在 “DeepSeek 开

Posted by 陈谭军 on Thursday, May 1, 2025

双机2H20(896GiB)部署满血DeepSeek-R1(fp8)验证过程

双机2H20(896GiB)部署满血DeepSeek-R1(fp8)验证过程、vllm 与 sglang 双机测试与性能对比

环境信息机器配置 OS：CentOS Linux release 7.6 (Final) Kernel：4.19.0-1.0.0.9 驱动： Driver Version: 535.216.03 CUDA Version: 12.2 GPU：NVIDIA H20 vLLM：htt

Posted by 陈谭军 on Saturday, April 5, 2025

单机H20(8*96GiB)部署满血DeepSeek-R1(fp8)验证过程

单机H20(8*96GiB)部署满血DeepSeek-R1(fp8)验证过程、vllm 验证过程、sglang 验证过程

环境信息机器配置 OS：CentOS Linux release 7.6 (Final) Kernel：4.19.0-1.0.0.9 驱动： Driver Version: 535.216.03 CUDA Version: 12.2 GPU：NVIDIA H20 vLLM：htt

Posted by 陈谭军 on Friday, April 4, 2025