最近更新:
分类: 自然语言处理入门
AI 教程网络
专题导读
阅读路径
每个系列都可以先抓主线,再挑重点文章复现,最后回到问题边界和检查表。
第 10 - 22 篇 · 13 个小节
配置、命令、调用链和结果检查。
图文优先
面向“自然语言处理”的入门页,解释 NLP 的核心概念、文本分类、情感分析、分词、信息抽取、机器翻译和大模型之间的关系。
NLP 应用看起来分散,本质都是把语言转成决策线索。不同场景的难点不一样:客服看意图,审核看风险,搜索看匹配。
NLP 的历史可以按“规则写出来”到“表示学出来”理解。每个阶段都在降低人工规则成本,同时引入新的数据和可解释性问题。
自然语言难在同一句话会因为场景、说话人和上下文而改变含义。NLP 系统必须处理模糊性,而不是只匹配关键词。
NLP 技术链可以拆成四段:先整理文本,再把文本变成向量,然后建模,最后用指标和样本一起评估。
文本清理不是越干净越好。URL、数字、标点、表情和大小写有时是噪声,有时又是重要信号。
分词决定模型看到的最小单位。中文、英文、代码混排和新词场景,分词策略会直接影响后续向量和分类结果。
停用词不能机械删除。否定词、程度词和领域高频词在某些任务里非常关键,删掉会改变句子意思。
面向“词干提取、词形还原”的 NLP 教程,解释两者差异、适用场景、NLTK PorterStemmer 示例和 spaCy 词形还原示例。
词袋模型简单但有价值。它丢掉词序,却能快速建立可解释基线,适合先判断任务是否有明显词频信号。
TF-IDF 的价值在于让常见词少抢权重,让更能区分文档的词浮出来。它常用于搜索、聚类和传统分类基线。
Word2Vec 把词放到连续向量空间里,让相似上下文的词更接近。它强调分布式语义,而不是人工写规则。
GloVe 把全局共现统计和向量学习结合起来。理解它时,重点看共现概率如何变成词之间的语义关系。
N-gram 用局部历史估计下一个词,是理解语言模型的经典起点。它简单直观,也清楚暴露了上下文短和稀疏的问题。
RNN 用隐藏状态处理序列,LSTM 用门控机制缓解长依赖问题。它们是理解后续 Transformer 的重要对照。
Transformer 的关键是自注意力:每个 token 都能根据上下文重新分配关注对象。它让长文本建模和并行训练变得更有效。
文本分类先要确认有没有可靠标签。有标签就做监督学习,没有标签则先用聚类、主题发现或人工探索整理结构。
文本分类算法不该按名字新旧来选。小数据和高维稀疏场景,传统方法经常是强基线;复杂模型要用验证结果证明价值。
文本分类不能只看准确率。类别不均衡、漏判代价和误判代价不同,都会改变应该优化的指标。
NER 不是只找关键词,它还要判断实体边界和类型。边界错一个字,后面的知识抽取和检索都会受影响。
语法分析帮助模型理解词之间的结构关系。即使大模型时代,结构化语法信息在检索、抽取和可解释场景仍有价值。
词性标注给每个词加语法角色。中文里很多词会因为上下文改变词性,所以不能只靠静态词典。
机器翻译不是逐词替换,而是把源语言含义重组到目标语言里。词序、文化表达和专业术语都会影响质量。
Seq2Seq 把输入序列压缩成表示,再逐步生成输出。它适合翻译、摘要和改写,但长句会暴露信息瓶颈。
注意力机制让解码器在生成每个词时动态查看输入的不同位置。它缓解了 Seq2Seq 的固定向量瓶颈。
对话系统不是只生成一句回复。它还要理解用户目标、维护上下文状态,并在合适时追问、确认或执行动作。
任务型对话强调完成明确目标,例如订票、查询、预约。关键不是话术漂亮,而是槽位收集和状态转移可靠。
开放域对话追求自然交流,但最难的是事实一致、安全边界和长期上下文。流畅不等于可靠。
深度学习把 NLP 从大量人工特征推进到表示学习和迁移学习。理解它时,要看数据、模型和任务如何配合。
NLP 的趋势不是只追更大模型,也包括低资源语言、多模态、检索增强、可解释性和安全评估。