10 ChatGPT的输入处理原理

理解输入处理后，你会更容易写好提示词。模型不是按人类段落直接理解页面，而是按 token 和上下文窗口处理信息；长文档、代码块和多轮对话都会占用这块空间。

读完后可以试着估算一个真实任务：一篇长文、几段代码、十轮对话会占多少上下文。你会发现“把所有材料都塞进去”并不总是好办法，很多时候要先压缩、分段、标注重点，再交给模型处理。

实际使用里，我会把输入分成三层：必须保留的目标和约束，可以压缩的背景材料，以及只在需要时再补充的参考资料。这样做比一次性粘贴所有内容更稳，也更容易定位模型为什么答偏。

在前一篇文章中，我们探讨了模型训练过程中的优化方法。本篇将聚焦在生成过程中的输入处理，我们将了解如何将用户输入转换为模型可以理解的格式，并为后续的生成过程打下基础。最后，我们还将介绍一些实际案例，以方便理解。

输入的原始格式

用户通常与ChatGPT进行文本交互，输入的句子可以是自然语言的任何形式。例如，当用户输入“今天天气怎么样？”时，这句话作为输入，接下来需要进行处理。此时，输入文本的原始格式是字符串。

理解 ChatGPT 输入处理时，先看文本如何分词、如何编码位置、如何进入上下文窗口并参与注意力计算。

1. 文本预处理

在将用户输入传递给模型之前，首先需要对文本进行一系列的预处理。这些步骤通常包括：

文本清理：去除多余的空格、特殊字符和噪声数据。
分词：将输入文本分解为词语或子词。现代NLP模型通常使用BPE（Byte Pair Encoding）或WordPiece等算法进行分词操作。
标准化：比如将所有文本转换为小写字母，以减少词汇表的复杂性。

示例

假设用户输入如下句子：

“今天的天气不错，我打算去外面走走！”

经过文本预处理后，可能会转化为：

"今天 天气 不错 我 打算 去 外面 走走"

2. 编码表示

在分词之后，下一步是将每个词转化为模型可以理解的数字形式。这一过程称为“编码”。每个分词会映射到一个相应的“词嵌入”向量。这些向量通常是高维的，能够捕捉到词汇之间的语义关系。

示例

继续以上述句子为例，编码可能如下：

“今天” -> [0.1, 0.2, ...]
“天气” -> [0.3, 0.1, ...]
“不错” -> [0.0, 0.5, ...]

3. 添加特殊标记

为了使模型更好地理解输入的上下文，通常在处理输入时会添加一些特殊标记。常见的包括：

开始标记 (<sos> 或类似)
结束标记 (<eos> 或类似)
特殊标记用于指示任务类型（如对话、问题、总结等）

示例

对于用户输入的句子，我们可以在开始和结束位置添加特殊标记：

"<sos> 今天的天气不错，我打算去外面走走 <eos>"

4. 批处理与填充

当处理多个输入时，通常会将它们组合成一个批次（batch）。由于每个输入的长度可能不同，我们需要对较短的输入进行“填充”（padding），使其达到相同长度。这可以确保在训练和推理过程中实现高效的计算。

示例

假设有多个用户输入：

“你好吗？”
“今天天气如何？”
“我想吃饭。”

经过编码和填充处理后的结果可能是：

[["<sos>", "你", "好吗？", "<eos>", "pad", "pad"],
 ["<sos>", "今天", "天气", "如何？", "<eos>"],
 ["<sos>", "我", "想", "吃", "饭", "<eos>"]]

其中，"pad" 表示填充的标记。

学完《ChatGPT的输入处理原理》后，不妨换一个自己的场景试一次，重点观察输入、处理和输出是否能对应起来。

如果想把《ChatGPT的输入处理原理》用到自己的任务里，可以先缩小场景，只验证一个最关键的判断点。

总结

在生成过程的输入处理中，我们首先需要对用户输入的文本进行预处理、编码、添加特殊标记和进行批处理。以上步骤为模型生成符合用户需求的回答奠定了基础。

读《ChatGPT的输入处理原理》时，先确定要解决的场景，再把关键概念和练习动作串起来。这样读到细节时，不容易只记住零散名词。

下篇文章将继续讨论生成过程中的采样与生成方法，敬请期待！

10 ChatGPT的输入处理原理

ChatGPT 原理入门 · 第 10 / 18 篇

输入的原始格式

1. 文本预处理

示例

2. 编码表示

示例

3. 添加特殊标记

示例

4. 批处理与填充

示例

总结

相关页面

相关 AI 教程

读者留言

留言列表