3 DeepSeek 零基础必知

我读这类基础概念时，会尽量把它们和本地使用联系起来。比如 1.5B、7B、70B 不只是数字，它们会影响下载体积、内存占用、回答速度和效果上限。理解这些，后面选模型时就不会只看名字。

建议把这一节当作术语表来用。遇到参数、Transformer、预训练、SFT、RLHF 时，不需要一次背完，但要知道它们分别回答哪个问题：模型有多大、怎么理解上下文、怎么学语言、怎么变得更听指令。

为了更深入理解 DeepSeek-R1，首先需要掌握 LLM 的基础知识，包括其工作原理、架构、训练方法。

近年来，人工智能（AI）技术的快速发展催生了大型语言模型（（Large Language Model, LLM））的兴起。LLM 在自然语言处理（NLP）领域发挥着越来越重要的作用，广泛应用于智能问答、文本生成、代码编写、机器翻译等任务。LLM 是一种基于深度学习的人工智能模型，其核心目标是通过预测下一个单词来理解和生成自然语言。训练 LLM 需要大量的文本数据，使其能够掌握复杂的语言模式并应用于不同任务。

接下来，咱们先从较为基础的概念开始。

LLM 基础概念

模型参数。其中比较重要的比如 deepseek-r1:1.5b、qwen:7b、llama:8b，这里的 1.5b、7b、8b 代表什么？b 是英文 “billion”（十亿）的缩写，7b 就是 70 亿，8b 就是 80 亿，70 亿、80 亿是指大模型的神经元参数（权重参数 weight+bias）的总量。目前大模型均基于 Transformer 架构，并由多层 Transformer 结构及全连接层组成，参数总量可能达到 70 亿、80 亿甚至上千亿。

零基础学习 DeepSeek 时，先确认能正常提问、能看懂回答、能保存尝试记录，再逐步接本地部署和资料处理。顺序清楚更少返工。

通用性更强。大模型与我们基于某个特定数据集（如 ImageNet、20NewsGroup）训练的模型在本质上存在一些重要区别。主要区别之一是大模型更加通用，因为它们基于大量多样化的数据集进行训练，涵盖了不同领域和任务的数据。这种广泛学习使大模型具备较强的知识迁移能力和多任务处理能力，从而展现出 “无所不知、无所不晓” 的特性。相比之下，基于单一数据集训练的模型通常针对性较强，知识范围仅限于该数据集，因此应用范围较为局限。

Scaling Laws 大家可能在很多场合都见过 Scaling Laws。大模型之所以能通过大量多样化的数据集训练并最终“学得好”，核心原因之一便是 Scaling Laws（扩展规律）的指导以及模型自身架构的优势。Scaling Laws 指出参数越多，模型学习能力越强；训练数据规模越大、越多元化，模型就会越通用；即使数据中存在噪声，模型仍能通过扩展规律提取出通用知识。而 Transformer 架构正是完美契合扩展规律的网络结构，是实现该规律的最佳选择。

Transformer 基础架构

LLM 依赖于 2017 年 Google 提出的 Transformer 模型。与传统的 RNN（递归神经网络）和 LSTM（长短时记忆网络）相比，Transformer 具有更高的训练效率和更强的长距离依赖建模能力。Transformer 的关键组件包括：

自注意力机制（Self-Attention）：模型在处理文本时自动关注句子中的关键单词，理解词与词之间的关系。
多头注意力（Multi-Head Attention）：通过多个注意力头同时分析不同的语义信息，增强模型理解能力。
前馈神经网络（FFN）：通过非线性变换提升模型表达能力。
位置编码（Positional Encoding）：在无循环结构情况下帮助模型理解单词的顺序信息。

Transformer 结构的优势

高效的并行计算：摒弃循环结构，使计算速度大幅提升。

更好的上下文理解：注意力机制能够捕捉长文本中的远程依赖关系。

良好的可扩展性：适应更大规模模型训练，增强 AI 泛化能力。

LLM 基本训练方法

预训练（Pretraining）

回看《DeepSeek 零基础必知》时，不必一次做大项目，先用一条简单样例确认主线是否清楚。

如果《DeepSeek 零基础必知》还没完全消化，可以从这张卡片的四个动作重新走一遍。

LLM 训练通常采用大规模无监督学习，即：

从互联网上收集大量文本数据，如书籍、新闻、社交媒体等。
让模型学习词语之间的概率分布，理解句子结构。
训练目标是最小化预测误差，使模型能更好地完成语言任务。

监督微调（Supervised Fine-Tuning, SFT）

在预训练之后，通常需要进行监督微调（SFT）：使用人工标注的数据集，让模型在特定任务上优化表现，调整参数以更符合人类需求，如问答、对话生成等任务。

强化学习（Reinforcement Learning, RL）

采用强化学习（RL）方法进行优化，主要通过人类反馈强化学习（RLHF, Reinforcement Learning from Human Feedback）：

强化学习（RLHF）优化过程

步骤 1：人类标注者提供高质量回答。

步骤 2：模型学习人类评分标准，提高输出质量。

步骤 3：强化训练，使生成的文本更符合人类偏好。

读完《DeepSeek 零基础必知》不要只停在“看懂了”。回头挑一个步骤动手做一遍，再记录哪里卡住，后面的学习会更稳。

3 DeepSeek 零基础必知

DeepSeek本地部署 · 第 3 / 34 篇

LLM 基础概念

Transformer 基础架构

LLM 基本训练方法

预训练（Pretraining）

监督微调（Supervised Fine-Tuning, SFT）

强化学习（Reinforcement Learning, RL）

相关入口

相关 AI 教程

读者留言

留言列表

3 DeepSeek 零基础必知

DeepSeek本地部署 · 第 3 / 34 篇

LLM 基础概念

Transformer 基础架构

LLM 基本训练方法

预训练（Pretraining）

监督微调（Supervised Fine-Tuning, SFT）

强化学习（Reinforcement Learning, RL）

相关入口

转发到常用平台

从相近问题继续读

相关 AI 教程

读者留言

留言列表