Jupyter AI
📢 新上线功能: 最新题库(点击体验),帮助大家更好实践编程和 AI 练习题!

3 DeepSeek 零基础必知

📅发表日期: 2025-02-07

🏷️分类: DeepSeek学习

👁️阅读次数: 0

为了更深入理解 DeepSeek-R1,首先需要掌握 LLM 的基础知识,包括其工作原理、架构、训练方法。

近年来,人工智能(AI)技术的快速发展催生了大型语言模型((Large Language Model, LLM))的兴起。LLM 在自然语言处理(NLP)领域发挥着越来越重要的作用,广泛应用于智能问答、文本生成、代码编写、机器翻译等任务。LLM 是一种基于深度学习的人工智能模型,其核心目标是通过预测下一个单词来理解和生成自然语言。训练 LLM 需要大量的文本数据,使其能够掌握复杂的语言模式并应用于不同任务。

接下来,咱们先从较为基础的概念开始。


LLM 基础概念

模型参数。其中比较重要的比如 deepseek-r1:1.5bqwen:7bllama:8b,这里的 1.5b、7b、8b 代表什么?b 是英文 “billion”(十亿)的缩写,7b 就是 70 亿,8b 就是 80 亿,70 亿、80 亿是指大模型的神经元参数(权重参数 weight+bias)的总量。目前大模型均基于 Transformer 架构,并由多层 Transformer 结构及全连接层组成,参数总量可能达到 70 亿、80 亿甚至上千亿。

通用性更强。大模型与我们基于某个特定数据集(如 ImageNet、20NewsGroup)训练的模型在本质上存在一些重要区别。主要区别之一是大模型更加通用,因为它们基于大量多样化的数据集进行训练,涵盖了不同领域和任务的数据。这种广泛学习使大模型具备较强的知识迁移能力和多任务处理能力,从而展现出 “无所不知、无所不晓” 的特性。相比之下,基于单一数据集训练的模型通常针对性较强,知识范围仅限于该数据集,因此应用范围较为局限。

Scaling Laws 大家可能在很多场合都见过 Scaling Laws。大模型之所以能通过大量多样化的数据集训练并最终“学得好”,核心原因之一便是 Scaling Laws(扩展规律)的指导以及模型自身架构的优势。Scaling Laws 指出参数越多,模型学习能力越强;训练数据规模越大、越多元化,模型就会越通用;即使数据中存在噪声,模型仍能通过扩展规律提取出通用知识。而 Transformer 架构正是完美契合扩展规律的网络结构,是实现该规律的最佳选择。


Transformer 基础架构

LLM 依赖于 2017 年 Google 提出的 Transformer 模型。与传统的 RNN(递归神经网络)和 LSTM(长短时记忆网络)相比,Transformer 具有更高的训练效率和更强的长距离依赖建模能力。Transformer 的关键组件包括:

  1. 自注意力机制(Self-Attention):模型在处理文本时自动关注句子中的关键单词,理解词与词之间的关系。
  2. 多头注意力(Multi-Head Attention):通过多个注意力头同时分析不同的语义信息,增强模型理解能力。
  3. 前馈神经网络(FFN):通过非线性变换提升模型表达能力。
  4. 位置编码(Positional Encoding):在无循环结构情况下帮助模型理解单词的顺序信息。

Transformer 结构的优势

  1. 高效的并行计算:摒弃循环结构,使计算速度大幅提升。
  2. 更好的上下文理解:注意力机制能够捕捉长文本中的远程依赖关系。
  3. 良好的可扩展性:适应更大规模模型训练,增强 AI 泛化能力。

LLM 基本训练方法

预训练(Pretraining)

LLM 训练通常采用大规模无监督学习,即:

  1. 从互联网上收集大量文本数据,如书籍、新闻、社交媒体等。
  2. 让模型学习词语之间的概率分布,理解句子结构。
  3. 训练目标是最小化预测误差,使模型能更好地完成语言任务。

监督微调(Supervised Fine-Tuning, SFT)

在预训练之后,通常需要进行监督微调(SFT):使用人工标注的数据集,让模型在特定任务上优化表现,调整参数以更符合人类需求,如问答、对话生成等任务。

强化学习(Reinforcement Learning, RL)

采用强化学习(RL)方法进行优化,主要通过人类反馈强化学习(RLHF, Reinforcement Learning from Human Feedback):

强化学习(RLHF)优化过程

  • 步骤 1:人类标注者提供高质量回答。
  • 步骤 2:模型学习人类评分标准,提高输出质量。
  • 步骤 3:强化训练,使生成的文本更符合人类偏好。

💬 评论

暂无评论