LLM 核心技术学习大纲

1. 基础知识

1.1 自然语言处理（NLP）基础

NLP 是让计算机理解和生成人类语言的核心技术，包括文本分类、机器翻译和问答等任务。

核心挑战：语义理解、多义性、上下文依赖。
应用场景：如情感分析、知识图谱构建等。

1.2 神经网络基础

掌握常见的神经网络，如 RNN、LSTM 和 Transformer，是学习 LLM 的基石。

RNN：适合处理序列数据，但存在梯度消失问题。
LSTM：通过引入门机制解决长序列依赖问题。
Transformer：采用自注意力机制，支持高效并行计算，是 LLM 的核心架构。

1.3 Transformer 架构

Transformer 以自注意力机制为核心，解决传统 RNN 模型无法高效并行的问题。

自注意力机制（Self-Attention）：捕捉序列中任意位置的关联。
多头注意力（Multi-Head Attention）：增强模型对不同特征的关注能力。
应用：BERT 用于理解任务，GPT 用于生成任务。

2. LLM 的训练技术

2.1 数据处理与预训练

数据的质量和规模决定了模型的能力。LLM 的预训练通常基于大规模的语料库。

Tokenization 技术：将文本分解为模型可处理的基本单元，如 BPE、WordPiece。
预训练目标：
- 自回归任务：预测下一个单词（如 GPT）。
- 掩码语言模型：预测被屏蔽的单词（如 BERT）。

2.2 模型训练技术

LLM 的训练需要解决计算效率和资源限制的问题。

分布式训练：通过模型并行和数据并行处理大规模参数。
混合精度训练：减少内存占用，加速训练速度。
动态学习率调整：使用学习率调度器（如余弦退火）避免训练陷入局部最优。

2.3 模型优化

训练过程中的优化策略是提升模型性能的重要手段。

梯度裁剪：防止梯度爆炸。
正则化技术：如 Dropout 和 Weight Decay，缓解过拟合。
AdamW 优化器：结合 Adam 和 L2 正则化，广泛应用于 LLM。

3. 生成与优化技术

3.1 文本生成策略

不同的生成策略会显著影响生成文本的质量和多样性。

贪婪搜索：选择概率最高的词，但容易重复。
Beam Search：同时探索多条路径，生成更全局最优的句子。
Top-k 和 Top-p 采样：平衡生成多样性和合理性。

3.2 重复控制

解决 LLM 输出重复性内容的问题。

Repetition Penalty：动态调整重复词的生成概率。
禁用词表：屏蔽某些不合理的候选词。

3.3 对抗生成

增强模型的鲁棒性，防止生成受对抗攻击影响。

对抗训练：生成对抗样本用于训练。
检测机制：识别异常输入或输出。

4. 模型微调与应用

4.1 微调技术

微调让大模型在特定任务上表现更优，尤其适合小样本场景。

LoRA（Low-Rank Adaptation）：低秩分解方法，高效调整权重。
Prefix Tuning：只优化提示前缀，保持模型主体不变。
全参数微调：适用于资源丰富的场景。

4.2 迁移学习

LLM 的一个优势是支持少样本和零样本学习。

零样本学习：直接生成任务答案，无需额外训练。
多任务学习：一次性优化多个任务，提高通用性。

5. 增强技术

5.1 增强上下文理解

提升模型对长文本或复杂上下文的处理能力。

Sliding Window：分块处理长文本。
检索增强生成（RAG）：结合知识库提供外部信息支持。

5.2 Prompt Engineering

通过设计合理的提示词，激发模型潜力。

基础提示词优化：手动调整提示内容。
自动提示优化（AutoPrompt）：通过梯度优化提示词。

6. 模型压缩与部署

6.1 模型压缩

通过蒸馏、量化等方法降低模型的计算需求。

蒸馏（Knowledge Distillation）：让小模型学习大模型的输出。
稀疏化（Pruning）：移除不重要的权重，减少模型规模。

6.2 高效部署

高效部署技术确保模型在资源受限场景下运行良好。

TensorRT：优化 GPU 推理效率。
ONNX 模型：支持跨平台部署。

7. 安全性与公平性

7.1 对抗鲁棒性

对抗攻击可能破坏模型性能，鲁棒性技术能有效防御。

FGSM、PGD 攻击：生成对抗样本。
对抗训练：提高模型应对攻击的能力。

7.2 模型偏见与公平性

偏见检测和缓解技术确保模型的结果公平且透明。

偏见检测：分析训练数据和生成结果的偏向性。
公平性调节：通过权重调整减少偏差。

8. 前沿研究

8.1 新架构探索

新型架构进一步提高模型效率和能力。

Mixture of Experts（MoE）：动态激活部分网络以减少计算成本。
稀疏 Transformer：通过稀疏注意力降低复杂度。

8.2 模态融合

支持多模态任务的模型，如文本、图像和语音的联合处理。

CLIP：结合图像和文本。
Flamingo：适用于多模态推理任务。

8.3 开源大模型

掌握最新开源大模型的使用和优化。

GPT 系列：专注生成任务。
LLaMA：轻量级大模型，适合研究和应用。

9. 实践项目

9.1 基础项目

文本分类：分析情感、主题等。
命名实体识别：提取关键实体信息。

9.2 生成项目

对话系统：构建智能聊天机器人。
摘要生成：从长文中提炼关键信息。

9.3 应用项目

基于 RAG 的问答系统：结合外部知识库回答问题。
实时翻译系统：实现多语言实时翻译。

Jupyter AI

大模型LLM核心技术学习大纲