3 DeepSeek 零基础必知

为了更深入理解 DeepSeek-R1，首先需要掌握 LLM 的基础知识，包括其工作原理、架构、训练方法。

近年来，人工智能（AI）技术的快速发展催生了大型语言模型（（Large Language Model, LLM））的兴起。LLM 在自然语言处理（NLP）领域发挥着越来越重要的作用，广泛应用于智能问答、文本生成、代码编写、机器翻译等任务。LLM 是一种基于深度学习的人工智能模型，其核心目标是通过预测下一个单词来理解和生成自然语言。训练 LLM 需要大量的文本数据，使其能够掌握复杂的语言模式并应用于不同任务。

接下来，咱们先从较为基础的概念开始。

LLM 基础概念

模型参数。其中比较重要的比如 deepseek-r1:1.5b、qwen:7b、llama:8b，这里的 1.5b、7b、8b 代表什么？b 是英文 “billion”（十亿）的缩写，7b 就是 70 亿，8b 就是 80 亿，70 亿、80 亿是指大模型的神经元参数（权重参数 weight+bias）的总量。目前大模型均基于 Transformer 架构，并由多层 Transformer 结构及全连接层组成，参数总量可能达到 70 亿、80 亿甚至上千亿。

通用性更强。大模型与我们基于某个特定数据集（如 ImageNet、20NewsGroup）训练的模型在本质上存在一些重要区别。主要区别之一是大模型更加通用，因为它们基于大量多样化的数据集进行训练，涵盖了不同领域和任务的数据。这种广泛学习使大模型具备较强的知识迁移能力和多任务处理能力，从而展现出 “无所不知、无所不晓” 的特性。相比之下，基于单一数据集训练的模型通常针对性较强，知识范围仅限于该数据集，因此应用范围较为局限。

Scaling Laws 大家可能在很多场合都见过 Scaling Laws。大模型之所以能通过大量多样化的数据集训练并最终“学得好”，核心原因之一便是 Scaling Laws（扩展规律）的指导以及模型自身架构的优势。Scaling Laws 指出参数越多，模型学习能力越强；训练数据规模越大、越多元化，模型就会越通用；即使数据中存在噪声，模型仍能通过扩展规律提取出通用知识。而 Transformer 架构正是完美契合扩展规律的网络结构，是实现该规律的最佳选择。

Transformer 基础架构

LLM 依赖于 2017 年 Google 提出的 Transformer 模型。与传统的 RNN（递归神经网络）和 LSTM（长短时记忆网络）相比，Transformer 具有更高的训练效率和更强的长距离依赖建模能力。Transformer 的关键组件包括：

自注意力机制（Self-Attention）：模型在处理文本时自动关注句子中的关键单词，理解词与词之间的关系。
多头注意力（Multi-Head Attention）：通过多个注意力头同时分析不同的语义信息，增强模型理解能力。
前馈神经网络（FFN）：通过非线性变换提升模型表达能力。
位置编码（Positional Encoding）：在无循环结构情况下帮助模型理解单词的顺序信息。

Transformer 结构的优势

高效的并行计算：摒弃循环结构，使计算速度大幅提升。

更好的上下文理解：注意力机制能够捕捉长文本中的远程依赖关系。

良好的可扩展性：适应更大规模模型训练，增强 AI 泛化能力。

LLM 基本训练方法

预训练（Pretraining）

LLM 训练通常采用大规模无监督学习，即：

从互联网上收集大量文本数据，如书籍、新闻、社交媒体等。
让模型学习词语之间的概率分布，理解句子结构。
训练目标是最小化预测误差，使模型能更好地完成语言任务。

监督微调（Supervised Fine-Tuning, SFT）

在预训练之后，通常需要进行监督微调（SFT）：使用人工标注的数据集，让模型在特定任务上优化表现，调整参数以更符合人类需求，如问答、对话生成等任务。

强化学习（Reinforcement Learning, RL）

采用强化学习（RL）方法进行优化，主要通过人类反馈强化学习（RLHF, Reinforcement Learning from Human Feedback）：

强化学习（RLHF）优化过程

步骤 1：人类标注者提供高质量回答。

步骤 2：模型学习人类评分标准，提高输出质量。

步骤 3：强化训练，使生成的文本更符合人类偏好。