搭建个人知识库，支持Word、PDF、txt等，一般电脑也能玩

Q: 搭建个人知识库，支持Word、PDF、txt等，一般电脑…测了什么？

看 AI消息 的实际效果、使用门槛和结果表现。

发布日期: 2025-01-06

分类: AI消息

预计阅读: 3 分钟

阅读: -- 次

本地部署大模型，再构建个人知识库，跑自己的文档、数据等，有很多好处。

比如，隐私的财务数据可以借力AI大模型做总结，股票数据实时接入到大模型做数据分析，个人word文档批量读取做总结等。

本篇教程继续系列上一篇教程：自己电脑搭建个人知识库，一般电脑也能玩（支持通义千问、GPT等）。在此基础上，扩展支持PDF和txt文件的读取。

错过上篇教程的，我简单再在这里和大家回顾一下。我提出的方案基于LLM大模型+文档检索方法，具有的优势：

充分释放大模型能力，因为使用的是文档检索，而不是语义向量所以检索会更加高效，大大提升了回复效率；同时对电脑的性能要求直接降到最低，一般电脑也能玩起来了。

你需要做的前期准备

准备一台8G以上内存的电脑，无显卡也问题不大；
再会一点Python安装包的技能，基本就是一条命令：pip install 安装包的名字

总结来说，使用本地大模型（qwen:7b）+ 文档搜索工具（whoosh)，这个方案不花一分钱，一般电脑又能玩。

整体界面和使用demo如下所示，支持多个文件加载，包括PDF，docx等word文档和txt格式，每个文件最大支持到200M：

支持多个文件加载，包括PDF，docx等word文档和txt格

实现上面功能的代码，我已经完整放在公众号里，大家下面回复：知识库，即可领取完整代码文件：

这是第一步，通过界面加载不同类型的本地文档和数据，如下读取了：财务数据1.docx：

如下读取了：财务数据1.docx

再次拖动小明收支账本.pdf到界面，加载后自动显示已处理，因为是在本地进行，并且使用了whoosh检索工具，加载速度非常快：

因为是在本地进行，并且使用了whoosh检索工具，加载速度非常快

PDF读取在此使用比较常用的PyPDF2，大家只需要pip install PyPDF2安装即可使用，开源免费。

只需要下面几行代码，我们就可以读取PDF内容。

我们就可以读取PDF内容

然后再把文档加入到whoose的索引库，代码如下所示，为后续本地检索提供基础文件数据，这就是我们的个人知识库：

再把文档加入到whoose的索引库

等输入「小明收支账本」关键词时，很快就能从本地知识库检索到，如下所示。此处代码使用了模糊查询，所以命中概率会大幅提升：

此处代码使用了模糊查询，所以命中概率会大幅提升

可以看到命中文件为PDF类型，并且显示查询到的内容：

可以看到命中文件为PDF类型，并且显示查询到的内容

紧接着会自动调用大模型做文档总结分析，这里使用通义千问大模型，因为它是开源的，关于详细的部署教程，大家可以参考之前教程，链接在这里：自己电脑搭建AI大模型详细教程，支持通义千问、Llama3、接口调用等。

这是搭建个人知识库最有价值的地方，当自动检索出文档后，会自动输到大模型中，然后自动做总结分析，比较方便。同时，利用大模型的总结能力，总结还是比较全面的：

会自动输到大模型中，然后自动做总结分析，比较方便。同时，利用大模型的总结能力，总结还是比较全面的：

最后总结一下

目前代码支持的功能，包括：

1 支持多种文件：你可以加载 PDF、Word（.docx）、TXT 等格式，文件最大支持到 200M。

2 加载速度快：因为使用的是 Whoosh 检索工具，拖动文件到界面，直接秒处理。

3 大模型辅助分析：比如搜索“小明收支账本”，系统会自动检索相关内容，还能用大模型给出智能总结，堪称你的私人助理。

常见问题

搭建个人知识库，支持Word、PDF、txt等，一般电脑…测了什么？

看 AI消息的实际效果、使用门槛和结果表现。

搭建个人知识库，支持Word、PDF、txt等，一般电脑…适合谁看？

适合正在选工具、做本地部署或验证 AI 工作流的人。

搭建个人知识库，支持Word、PDF、txt等，一般电脑…要注意什么？

重点看配置成本、失败点、数据边界和可替代方案。

分享文章

微信/朋友圈可先复制链接

微博 X LinkedIn Facebook Telegram 邮件

搭建个人知识库，支持Word、PDF、txt等，一般电脑也能玩

最后总结一下

常见问题

更多相关文章

读者留言

留言列表

搭建个人知识库，支持Word、PDF、txt等，一般电脑也能玩

最后总结一下

常见问题

转发到常用平台

更多相关文章

读者留言

留言列表