最近更新:
分类: AI教程
AI 教程
大模型、Agent、机器学习、深度学习、视觉、语音和 AI 工程教程。
当前 AI 教程平均每篇约 6.3 个图文节点。
AI 主题
Agent、RAG、本地模型、AI 编程、工具替代品和模型榜单。
AI 编程
集中整理 Cursor、Claude Code、Codex、Harness、OpenClaw、Hermes、代码 Agent 和真实仓库协作教程。
查看Agent
汇总通用 Agent、Harness、办公自动化、MCP、Dify、Coze、n8n 和多步骤任务执行经验。
查看RAG
围绕 RAG chunk、Embedding、召回、知识库问答、客服资料库和技术文档搜索做专题归档。
查看本地大模型
集中整理 Ollama、LM Studio、GPU 显存估算、开源模型选择、本地知识库和私有化部署。
查看工具替代品
把 Cursor、Manus、Notion AI、Perplexity、AI PPT、AI 图片工具等替代品和选型逻辑放在一起。
查看模型榜单
汇总大模型测评来源、中文场景选型、API 成本、本地部署和不同任务下的模型推荐。
查看DeepSeek 本地部署
DeepSeek、LM Studio、GGUF、Ollama、本地知识库和显存配置。
查看Dify 案例
Dify 应用、工作流、知识库、Agent 和生成式 AI 场景。
查看AI PPT
AI 做 PPT、设计稿、脚本、配图和内容结构。
查看数字人
口播数字人、文生视频、声音、脚本和短视频工作流。
查看本地知识库
本地文件、PDF、RAG、MinerU、DeepSeek 和私有文档问答。
查看编程 Agent
Codex、Claude Code、OpenClaw、仓库级任务、测试和代码审查。
查看目标
电脑配置、Ollama、DeepSeek、知识库和远程算力。
从提示词、LangChain、Dify 到 OpenClaw,把任务拆解、工具调用和结果检查串起来。
按数学、概率、神经网络、PyTorch、TensorFlow 的顺序补基础,读模型文章时更容易看懂。
计算机视觉、目标检测、生成式内容、语音合成和视频生成。
数据隐私、后门攻击、防御和使用边界。
图文速览
模型测评
综合 Arena、Artificial Analysis、Vals AI、HELM 等主流测评来源,解释榜单差异、能力维度和真实场景选型方法。
课程检索
这套教程从零开始讲 Codex。先把一句话说清楚:Codex 不是简单的代码补全,也不是只会回答问题的聊天窗口。官方 manual 里把它定义为 OpenAI 的 coding agent,可以写代码、理解陌生代码库、审查代码、调试问题,也可以自动化重复的开发任务。
这套新系列讲 Harness Engineering。这里说的 Harness,不是某个 CI/CD 品牌,而是 Agent Harness Engineering:把大模型放进一个外部编排系统里,让系统负责目标、状态、计划、工具、检查点和记忆,模型每次只专注当前一步推理。
这套教程从零开始讲 Claude Code。不是“把一句需求丢给 AI,然后等它变魔术”的那种讲法,而是按真实工程工作来:先让它读仓库,再让它解释结构,然后改一个小点,跑测试,看 diff,最后再决定要不要提交。
如果你已经会用 ChatGPT、Claude 或 Gemini,第一眼看到 OpenClaw 可能会想:这不还是一个 AI 聊天工具吗?
如果你已经用过 ChatGPT、Cursor、Claude Code 或 Codex,那么学习 Hermes Agent 最好的方式,不是把它当成一个新的聊天机器人,而是把它理解成一个可以长期运行、会使用工具、会保存记忆、会沉淀技能的个人 AI 智能体。
我重新看这篇路线图时,最想补的一点是学习顺序。很多人一上来就追参数、榜单和各种模型名,结果本地环境还没跑通,就已经被新名词绕晕了。我的做法是先把电脑能运行的小模型跑起来,再回头补 Transformer、RAG、微调这些概念,这样每个概念都有能落地的画面。
嵌入式系统学习要把硬件限制、软件任务、外设接口和运行稳定性一起看。阅读时可以按「嵌入式系统的基本组成 -> 嵌入式系统的功能 -> 简单代码示例 -> 嵌入式系统的应用」建立结构,再回到正文里的代码、案例或指标做验证。
我会把 AI 智能体先讲成一个闭环,而不是讲成一个很玄的概念:它接收环境信息,记住关键上下文,推理下一步怎么做,再通过工具或接口执行。只要这四步没有连起来,就还只是普通问答,不算真正能干活的智能体。
我会把 LangChain 入门看成一条应用链路:输入从哪里来,提示词怎样组织,模型如何调用,结果如何被检查和交付。先把这条线画清楚,后面的组件才不会变成零散名词。
我更愿意把 Dify 看成一张应用工作台,而不是一个单纯的聊天框。真正有价值的部分,是把用户输入、模型、知识库、工具调用和发布入口放到同一条线上,让一个想法能被做成可试用的产品原型。
如果你想要构建一个类似的 AI 应用,你需要一个清晰的提示词(Prompt)来指导 AI 按照预期的方式生成内容。以下是一个示例提示词,可以用于 ChatGPT 来执行类似的任务。
在使用ChatGPT等大型语言模型时,适当的提示词(Prompts)可以极大提升模型生成内容的质量和准确性。提示词是用户输入给模型的一段文本,它不仅可以引导模型的响应方向,还可以确定输出内容的风格、格式和主题。理解提示词的结构及其应用,对于获取更好的结果至关重要。
我更建议先把 ChatGPT 理解成“会根据上下文续写和改写的语言模型”,再去讨论它能不能做客服、写代码或当学习助手。这样学后面的预训练、微调、Transformer 时,不会把产品体验和底层原理混在一起。
生成式 AI 的核心是根据训练到的模式生成新内容。阅读时,先把“识别”和“生成”的差别讲清楚。
Llama3 开发要从模型理解走到数据、训练、评估和部署,形成可复现流程。阅读时可以按「背景 -> 目的 -> 模型结构 -> 数据准备」建立结构,再回到正文里的代码、案例或指标做验证。
Llama Factory 微调要把环境、数据、训练和评估串成闭环,不能只看启动命令。阅读时可以按「教程目的 -> 环境准备 -> 数据格式 -> 训练参数」建立结构,再回到正文里的代码、案例或指标做验证。
我会把微调拆成一条完整流水线:先确认到底要改善什么,再准备可追溯数据,接着选择基座和训练方式,最后用固定评估集决定能不能上线。
这组教程适合先建立一张工作地图:产品经理不需要变成算法工程师,但要能把用户问题、数据条件、模型能力和商业目标放到同一张桌面上讨论。
我讲 AI 安全隐私时,会先把模型放回系统里看。风险不只在算法,也在输入表单、知识库、日志、权限、接口和最后拿结果做决策的人。
我会把机器学习理解成一条从样本到判断的工作链:人先定义问题,数据提供例子,算法寻找规律,最后用新样本检验是否真的有用。
理解深度学习时,先不要急着记模型名。它的核心是让多层网络逐步把原始数据变成更有用的表示,再用这些表示完成分类、生成、预测等任务。
这里可以当作一个小模型拆解来看:先确认它解决什么问题,再看数据如何进入网络,最后检查输出和评估方式。这篇先建立整体地图:它解决什么问题、核心模块是什么、适合放在哪类任务里。
我会把 PyTorch 入门看成一条训练闭环:数据变成张量,模型做前向计算,loss 衡量错误,反向传播更新参数,最后用验证集检查效果。
TensorFlow 学习要把张量、模型、训练和部署放在一条线上,而不是只看单段代码。阅读时可以按「什么是TensorFlow -> 张量 -> 数据流图 -> 灵活性与扩展性」建立结构,再回到正文里的代码、案例或指标做验证。
Keras 的价值在于降低深度学习实验门槛,让模型结构、训练和评估能用更少样板代码跑起来。
我会把 Scikit-Learn 看成一套稳定的机器学习工具箱:它把常见模型、数据处理、评估和调参封装成一致接口,让学习者能把精力放回问题本身。
AutoML 的价值不是替代判断,而是把重复的建模步骤自动化,让人把时间放在数据、目标和上线风险上。
强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「一、什么是强化学习? -> 二、强化学习的目标 -> 三、核心方法分类 -> 值函数方法」建立结构,再回到正文里的代码、案例或指标做验证。
贝叶斯学习的重点是把已有判断和新证据合在一起,并明确表达不确定性。阅读时可以按「课程目标 -> 课程内容 -> 先验 -> 似然」建立结构,再回到正文里的代码、案例或指标做验证。
统计学的价值在于用有限样本做有边界的判断,学习时要同时看数据、假设和结论。阅读时可以按「统计学的核心概念 -> 数据 -> 描述统计与推断统计 -> 统计学的重要性」建立结构,再回到正文里的代码、案例或指标做验证。
线性代数先不要急着背公式。把向量看成数据,把矩阵看成变换,把方程组看成约束,后面的机器学习会更容易接上。
微积分的核心不是复杂符号,而是描述连续变化。导数看瞬时变化,积分看累计效果,这两条线贯穿后面的模型训练和优化。
概率先解决一个问题:在所有可能结果里,某件事发生的可能性有多大。先把样本空间和事件画清楚,公式才有落点。
面向“自然语言处理”的入门页,解释 NLP 的核心概念、文本分类、情感分析、分词、信息抽取、机器翻译和大模型之间的关系。
NLP 进阶学习要把模型结构、任务形式、评估指标和真实样本放在同一条线上。阅读时可以按「什么是深度学习? -> 激活函数 -> 损失函数 -> 优化算法」建立结构,再回到正文里的代码、案例或指标做验证。
话题模型不是只跑出关键词,还要看语料质量、主题解释性和结果稳定性。阅读时可以按「话题模型的基本概念 -> 话题的稳定性 -> 评估话题稳定性的方法 -> 语料准备」建立结构,再回到正文里的代码、案例或指标做验证。
计算机视觉不是简单处理图片,而是让机器从图像和视频里抽取可用信息。阅读时,可以先把任务分成“看见什么、在哪里、属于哪一类、下一步做什么”。
OpenCV 学习要把图像输入、处理步骤、检测结果和工程性能放在一起验证。阅读时可以按「OpenCV的历史 -> 发展历程 -> OpenCV的主要功能 -> 如何安装OpenCV」建立结构,再回到正文里的代码、案例或指标做验证。
目标检测的关键是同时完成识别和定位,评估时要看类别、位置和真实场景错例。阅读时可以按「目标检测的定义 -> 应用场景 -> 图像输入 -> 候选区域」建立结构,再回到正文里的代码、案例或指标做验证。
GAN 的关键是生成器和判别器互相推动,学习时要同时看结构、训练和样本质量。阅读时可以按「GAN的基本构成 -> GAN的工作原理 -> 案例:MNIST数字生成 -> 生成器」建立结构,再回到正文里的代码、案例或指标做验证。
GAN 进阶内容要围绕稳定性、条件控制、架构变化和评估方法建立判断框架。阅读时可以按「什么是生成对抗网络? -> 生成网络 -> 判别网络 -> GAN的训练过程」建立结构,再回到正文里的代码、案例或指标做验证。
文生图学习要同时看输入描述、生成流程、参数影响和最终用途。阅读时可以按「文生图的基本原理 -> 文本描述 -> 扩散过程 -> 参数控制」建立结构,再回到正文里的代码、案例或指标做验证。
文生语音要把文字、发音、语气和听感连起来看,不能只关心能不能发声。阅读时可以按「什么是TTS? -> TTS的工作原理 -> TTS的应用场景 -> 文本处理」建立结构,再回到正文里的代码、案例或指标做验证。
文生视频不只是把文字变成画面,还要控制镜头、时间、动作和前后连贯性。阅读时可以按「教程的目的 -> 文本脚本 -> 镜头结构 -> 视频合成」建立结构,再回到正文里的代码、案例或指标做验证。
数据挖掘不是只跑算法,而是从数据准备、模式发现到结果解释的一整条流程。阅读时可以按「数据挖掘的定义 -> 关键特性 -> 相关技术 -> 案例」建立结构,再回到正文里的代码、案例或指标做验证。
计算几何适合用图来理解,关键是把几何对象、关系判断和算法边界放在一起看。阅读时可以按「几何对象 -> 几何关系 -> 算法与复杂度 -> 应用实例」建立结构,再回到正文里的代码、案例或指标做验证。
神经网络后门内容应从风险识别和防御验证角度理解,重点是知道问题如何被发现和控制。阅读时可以按「后门攻击的基本概念 -> 概念解释 -> 威胁模型 -> 触发条件」建立结构,再回到正文里的代码、案例或指标做验证。
后门防御要先明确威胁假设,再组合检测、清洗、重训和复测流程。阅读时可以按「引言 -> 攻击机制 -> 异常检测 -> 数据清洗」建立结构,再回到正文里的代码、案例或指标做验证。