3 DeepSeek 零基础必知
为了更深入理解 DeepSeek-R1,首先需要掌握 LLM 的基础知识,包括其工作原理、架构、训练方法。
近年来,人工智能(AI)技术的快速发展催生了大型语言模型((Large Language Model, LLM))的兴起。LLM 在自然语言处理(NLP)领域发挥着越来越重要的作用,广泛应用于智能问答、文本生成、代码编写、机器翻译等任务。LLM 是一种基于深度学习的人工智能模型,其核心目标是通过预测下一个单词来理解和生成自然语言。训练 LLM 需要大量的文本数据,使其能够掌握复杂的语言模式并应用于不同任务。
接下来,咱们先从较为基础的概念开始。
LLM 基础概念
模型参数。其中比较重要的比如 deepseek-r1:1.5b
、qwen:7b
、llama:8b
,这里的 1.5b、7b、8b 代表什么?b 是英文 “billion”(十亿)的缩写,7b 就是 70 亿,8b 就是 80 亿,70 亿、80 亿是指大模型的神经元参数(权重参数 weight+bias)的总量。目前大模型均基于 Transformer 架构,并由多层 Transformer 结构及全连接层组成,参数总量可能达到 70 亿、80 亿甚至上千亿。
通用性更强。大模型与我们基于某个特定数据集(如 ImageNet、20NewsGroup)训练的模型在本质上存在一些重要区别。主要区别之一是大模型更加通用,因为它们基于大量多样化的数据集进行训练,涵盖了不同领域和任务的数据。这种广泛学习使大模型具备较强的知识迁移能力和多任务处理能力,从而展现出 “无所不知、无所不晓” 的特性。相比之下,基于单一数据集训练的模型通常针对性较强,知识范围仅限于该数据集,因此应用范围较为局限。
Scaling Laws 大家可能在很多场合都见过 Scaling Laws。大模型之所以能通过大量多样化的数据集训练并最终“学得好”,核心原因之一便是 Scaling Laws(扩展规律)的指导以及模型自身架构的优势。Scaling Laws 指出参数越多,模型学习能力越强;训练数据规模越大、越多元化,模型就会越通用;即使数据中存在噪声,模型仍能通过扩展规律提取出通用知识。而 Transformer 架构正是完美契合扩展规律的网络结构,是实现该规律的最佳选择。
Transformer 基础架构
LLM 依赖于 2017 年 Google 提出的 Transformer 模型。与传统的 RNN(递归神经网络)和 LSTM(长短时记忆网络)相比,Transformer 具有更高的训练效率和更强的长距离依赖建模能力。Transformer 的关键组件包括:
- 自注意力机制(Self-Attention):模型在处理文本时自动关注句子中的关键单词,理解词与词之间的关系。
- 多头注意力(Multi-Head Attention):通过多个注意力头同时分析不同的语义信息,增强模型理解能力。
- 前馈神经网络(FFN):通过非线性变换提升模型表达能力。
- 位置编码(Positional Encoding):在无循环结构情况下帮助模型理解单词的顺序信息。
Transformer 结构的优势
- 高效的并行计算:摒弃循环结构,使计算速度大幅提升。
- 更好的上下文理解:注意力机制能够捕捉长文本中的远程依赖关系。
- 良好的可扩展性:适应更大规模模型训练,增强 AI 泛化能力。
LLM 基本训练方法
预训练(Pretraining)
LLM 训练通常采用大规模无监督学习,即:
- 从互联网上收集大量文本数据,如书籍、新闻、社交媒体等。
- 让模型学习词语之间的概率分布,理解句子结构。
- 训练目标是最小化预测误差,使模型能更好地完成语言任务。
监督微调(Supervised Fine-Tuning, SFT)
在预训练之后,通常需要进行监督微调(SFT):使用人工标注的数据集,让模型在特定任务上优化表现,调整参数以更符合人类需求,如问答、对话生成等任务。
强化学习(Reinforcement Learning, RL)
采用强化学习(RL)方法进行优化,主要通过人类反馈强化学习(RLHF, Reinforcement Learning from Human Feedback):
强化学习(RLHF)优化过程
- 步骤 1:人类标注者提供高质量回答。
- 步骤 2:模型学习人类评分标准,提高输出质量。
- 步骤 3:强化训练,使生成的文本更符合人类偏好。