DeepSeek接入个人知识库,一般电脑也能飞速跑,确实可以封神了
今天这篇教程关于:在自己电脑如何使用大模型,搭建“轻量飞速”个人知识库。
1 功能演示
之前文章已有介绍为什么要在本地搭建个人知识库,在此不再展开,简单来说,本地搭建知识库能做到更加安全地管理个人文档、或企业不方便外传的文档等。
这周末开发的桌面软件,咱们先看看界面功能:包括文件上传,知识库管理,关键词查询及结果显示,然后大模型深度思考分析(部分截图):
2 轻量极速免费
以上个人知识库软件,满足以下要求:
- 轻量。无需向量数据库,对电脑性能要求降到最低;
- 极速。在保证查询性能、AI回答效果前提下,做到尽可能的快。
- 免费。方案包括的所有工具全部开源,不用花一分钱。
3 设计方案和效果展示
基于以上三个要求,设计方案如下:
-
查询选型whoosh。之前文章也有介绍,最大特点轻量、开源、性能够好。
-
大模型配置灵活,选择DeepSeek-r1:1.5b,最新发布的推理模型,选择1.5b尺寸,回复极速,回答效果够好。效果下面会有证明。
总结来说:whoosh(本地查询快) + DeepSeek-r1:1.5b(回答极速、效果还有保证)
whoosh(本地查询快) ,快到什么程度,20页的PDF,按关键词查询能在ms级;
DeepSeek-r1:1.5b(回答极速、效果还有保证),极速到什么程度,我的电脑是m1,会话第一次拿到回复秒(s)级。
下面是GIF动画,受限公众号GIF帧数限制,只能录制有限帧,整个动画无任何加速,全部原始速度,大家重点看下回复延时,是否在秒级以内:
当输入关键词,并点击搜索后,会先从自己的知识库中搜索匹配文件,然后打包命中处的上下文,自动发送到Deepseek-r1:1.5b.
下图是回复完成后的部分截图,deepseek-r1:1.5b的回复效果很不错,回复包括两部分:思考过程+正式回答,如下两个红色文本框所示:
这两天我主要对之前已实现代码,做了如下改进:
1)whoosh查询逻辑优化升级,对中文查询输入更加友好;
- 调整为DeepSeek-r1:1.5b模型及实现逻辑;
3)调整PDF读取方案及对应逻辑;
- 调整为纯本地执行的桌面软件
下一步软件开发功能包括:
- 支持任意网页抓取到本地+自动大模型分析
2)whoosh查询逻辑之分词组合配置查询
目前此软件全部开源,在下面公众号回复:知识库,获取软件代码:
再介绍下最近DeepSeek-r1模型,得分上看300多b的r1模型推理已超越o1,推理代表大模型的聪明程度,所以在社区内引起广泛关注:
它是怎么做到的?有哪些创新?主要三点:
1)冷启动数据与多阶段训练。使用冷启动数据(设计良好的长链式思维数据)对基础模型进行初步微调,为后续的强化学习(RL)奠定更稳定的基础。
2)强化学习驱动的推理优化。应用以目标为导向的 RL(如语言一致性奖励)增强推理能力,通过规则化奖励机制避免奖励黑箱问题,提升任务准确率和用户体验 。
3)蒸馏技术扩展能力。将大型模型的推理能力高效蒸馏到小型稠密模型上,实现高性能与计算效率的平衡。
最后总结
本地搭建个人知识库方案基于 Whoosh(本地查询极速)和 DeepSeek-r1:1.5b(回答迅速效果好),实现轻量、极速、免费。具体以下三点:
1)轻量高效:基于 Whoosh 实现毫秒级关键词查询,无需向量数据库,适合本地运行。
2)极速响应:结合 DeepSeek-r1:1.5b 大模型,实现秒级 AI 回复,兼顾速度与效果。
3)免费开源:所有工具均为开源软件,无需额外费用,适合个人和企业本地知识管理。