Jupyter AI

26 DeepSeek+实在Agent,一句指令生成全自动流程

📅发表日期: 2025-03-26

🏷️分类: DeepSeek学习

👁️阅读次数: 0

最近每天都有近百位读者后台咨询我,问题主要集中在个人知识库软件是否可离线,如何开发和技术原理等。

今天这篇文章我想集中给大家回答下,对此感兴趣的可以看看。

个人知识库软件目前主流的是在远程云端运行,也就是说大家的文件会被上传到远程服务器被运算,那么它们就不能纯离线使用了。

好奇的读者可能会问,为什么主流的知识库软件都需要在线云端运行,而不支持纯离线呢?对这些问题感兴趣的,可以继续看看下面的介绍。

1 个人知识库

大模型已经把人类现有公开的知识学的差不多了,但是唯独很多个人文件、公司未公开的文件,它们都没有学到,因此对这类知识的回答就不会精准。如下所示问DeepSeek这月超市购物花费,它是无法回答的,主要原因就像它说的那样,数据来源缺失:

Image

为了解决这样的问题,第一个方案就是,利用大模很强的泛化能力,它是零样本学习者(zero-shot learner),对从未见过的样本也有很强的学习能力,所以咱们直接上传文档给它,它直接学,然后回答我们,但是这种方法缺点也很明显,就是每次都要先去找文件然后再上传给它,很不方便!

于是,人们就想到了另一种技术方案,咱们能不能构建一个个人知识库,然后把资料集中放到里面,这样就不用每次重复找文件、重复上传文件了。

再后来就有了相关的技术,一般称之为检索增强技术(Retrieval-Augmented Generation),简称RAG,随着AI智能体在最近两年的快速发展,又诞生了更先进的RAG智能体。

2 RAG智能体之大脑

RAG智能体最核心两部分,一是决策大脑,目前主流就是指大模型,二是外部插件接入我们的个人知识。

我也正在开发这样的RAG软件,DeepSeekMine,目前正在迭代v0.6,目标纯离线本地快速运行。

其实早在开发之前,我们调研了目前市场上最流行的RAG智能体,它们绝大多数都是在线远程版,这里面令我印象最深刻的两家,一是ima(腾讯开发),二是实在Agent(实在智能公司开发),ima主要是应用,实在Agent不仅能应用智能体,还能开发智能体,所以下面来重点介绍实在Agent的搭建流程,主要搭建目标就是创建一个个人知识库Agent.

首先进入到实在Agent的搭建界面,如下图所示,这个界面是整体图:

Image

其中右上角的视图局部截图如下所示,点击按钮「创建智能体」,如下所示:

Image

进入智能体创建界面后,生成这样的一个拖拽工作流界面,通俗来说就是输入、大模型、其他插件,最后输出,如下图所示:

Image

对于搭建一个知识库Agent来说,最重要的有两个环节,一是选择合适的大模型,另一个是上传个人知识库。咱们先从选择合适的大模型说起,如下图所示是选择大模型的界面:

Image

这里包括了Qwen2.5,TARS-67B是实在智能自研大模型,还有deepseek-R1大模型,其实对于现在的大模型,尺寸小的性能也正在变得越来越好,所以这实际上给本地跑大模型提供了更加便利条件。大家根据自己喜好选择一个,比如咱们就选deepseek-R1-70B这版:

image-20250327232442570

到这里搭建知识库Agent的第一个环节,界面选择大模型的操作步骤已经结束了。下面介绍搭建的第二个环节,知识库构建部分。

3 RAG智能体之外部插件

大模型是RAG智能体的大脑,那么个人知识库相当于是外部插件,实在Agent的搭建知识库部分,全都是界面操作,可配置型比较强。

比如下面第一个配置项,N选1召回,多路召回,关于这两个选项的区别,N选1召回就是单个知识库中选择最合适的一个文档,多路召回就是多路知识库中查询片段:

Image

在RAG中还有一个很有意思的参数就是Score,如下默认值为0.5,它表示用户的查询向量与此文本片段的相似度,这个值越大表示相似度越高,0.5的默认值已经是很好的相似度了:

Image

根据经验,调低一些如0.45,可以提高召回率,更多文本片段参与进来,叫大模型尽可能多的获取到提问相关的知识片段:

Image

以上就是知识库搭建的参数配置部分,主要的就介绍完了。

接下来,看看上传个人文档到远程部分,如下所示点击+:

Image

然后点击蓝色字体「去创建」:

Image

接下来弹出这样的一个网页:

Image

右上角选择:「新建知识库」按钮,

Image

点击按钮后,弹出下面界面,输入名称和描述:

Image

点击下面蓝色字体「选择文件」,支持多种不同格式的文件后缀,txt, markdown, pdf, html, xlsx, docx, csv, doc等,都可以上传:

Image

接下来上传DeepSeek-R1的论文pdf到上面的知识库里:

Image

还有V3的论文,咱们使用同样方法也上传上去:

Image

当上传完成后,这里会显示上传进度,可以看到都上传完成了:

Image

RAG智能体在上传文档后,要对文档分段处理,我们按照默认的分段逻辑:

Image

全部上传完成后台会做自动的分段切分,接下来会显示文档已上传,界面如下所示:

Image

实在Agent的这个搭建界面,其可视化非常棒,如下所示,我们可以清楚地看到一共划分了46个分段,如下所示为分段14和15,大家注意这里的分段未必是我们普通意义上的自然段:

Image

等到这里,我们已经全部完成了个人知识库的构建工作,接下来就可以愉快的使用这些知识库了,在实在Agent这里直接支持一键拖拽,直接创建一个知识检索的Agent,如下图所示:

Image

并在这个模块里选择知识库,就是我们刚才新建的知识库,咱们先试一下只勾选一个文档的测试,勾选并点击添加按钮:

Image

至此我们使用实在Agent软件已经构建好了我们第一个知识库Agent,接下来提问这个Agent,然后它会自动完成知识库的检索RAG注入并通过配置的大模型回答问题,如下提问它,DeepSeek-R1-Zero怎们训练出来的:

Image

可以看到实在Agent背后的工作流开始工作,从「开始输入」到知识检索2,再到大模型,再到最后回复输出:

Image

当带那几知识检索2时,还可以展开看到里面的详细过程,包括输入的问题,放在query字段里:

Image

并且可以看到命中了知识库文件中哪个片段,得分是0.5486:

Image

下面是其回答,充分参考了资料,将DeepSeek-R1-Zero的介绍和训练分为下面三段:

Image

测试没问题后,接下来就可以发布了,发布前修改下智能体的名字为:知识库Agent:

Image

发布成功后,会在界面显示创建的智能体Agent:

Image

接下来回到实在Agent的聊天界面,我们输入@符号,自动会出现刚才创建的知识库Agent:

Image

点击选择它后,接下来就可以在这里一直提问它了:

Image

比如,我们提问它,DeepSeek-R1另一个重要的算法GRPO(Group Relative Policy Optimization),可以看到这个智能体的回答也是比较准确的:

Image

以上就是使用实在Agent搭建的一个完整知识库智能体,感兴趣的可以直接去这里下载软件,并按照此文步骤去试一试:

https://www.ai-indeed.com/downloadCenter

4 全自动Agent

除了方便构建Agent外,它家还有一个很强的功能,那就是结合大模型,只需输入一句话,全自动生成操作流程。

比如我想获取豆瓣电影排行榜数据(电影名、评分),只需要在下面输入这句话:

Image

然后自动生成如下4步的操作流程:

Image

然后只需要鼠标回车,它会自动执行整个4个步骤,自动打开网页,自动找到电影和排行榜,整个过程1分钟左右,AI就全部干完了。

最后自动输出下面的结果:

Image

一句话,生成操作流程;再一键回车,自动开始干活,确实厉害了。想体验的,根据上面步骤,可以直接去感受下。

不得不感叹,没有大模型和智能体前,程序员开发这样的一个程序,没有个把小时还真搞不定,现在只需要1分钟。

总结一下

本文回答了大家对大模型接入个人知识库的一些常见疑问,包括大模型在线离线问题,目前主流RAG都是在线版。

关于开发知识库智能体,本文使用实在Agent介绍了一种详细搭建方法,这种方法通过上文可以看到,具有特点:

1)普通人也能搞,因为整个过程不需要写一行代码;

2)全部拖拉拽,操作比较方便;

3)知识库的配置UI界面做的比较丝滑,可视化也做得很棒。

知识库Agent的基本原理和技术也在文中做了介绍,包括知识库Agent的由来,主要组成部分,算法核心参数(TOP K, Score,召回策略)。

最后介绍了一个全自动Agent,只需输入一句指令,自动生成操作流程;再按下回车,智能体自动开始干活。

💬 评论

暂无评论

🐳DeepSeek本地部署 (滚动鼠标查看)