26 DeepSeek+实在Agent,一句指令生成全自动流程
最近每天都有近百位读者后台咨询我,问题主要集中在个人知识库软件是否可离线,如何开发和技术原理等。
今天这篇文章我想集中给大家回答下,对此感兴趣的可以看看。
个人知识库软件目前主流的是在远程云端运行,也就是说大家的文件会被上传到远程服务器被运算,那么它们就不能纯离线使用了。
好奇的读者可能会问,为什么主流的知识库软件都需要在线云端运行,而不支持纯离线呢?对这些问题感兴趣的,可以继续看看下面的介绍。
1 个人知识库
大模型已经把人类现有公开的知识学的差不多了,但是唯独很多个人文件、公司未公开的文件,它们都没有学到,因此对这类知识的回答就不会精准。如下所示问DeepSeek这月超市购物花费,它是无法回答的,主要原因就像它说的那样,数据来源缺失:
为了解决这样的问题,第一个方案就是,利用大模很强的泛化能力,它是零样本学习者(zero-shot learner),对从未见过的样本也有很强的学习能力,所以咱们直接上传文档给它,它直接学,然后回答我们,但是这种方法缺点也很明显,就是每次都要先去找文件然后再上传给它,很不方便!
于是,人们就想到了另一种技术方案,咱们能不能构建一个个人知识库,然后把资料集中放到里面,这样就不用每次重复找文件、重复上传文件了。
再后来就有了相关的技术,一般称之为检索增强技术(Retrieval-Augmented Generation),简称RAG,随着AI智能体在最近两年的快速发展,又诞生了更先进的RAG智能体。
2 RAG智能体之大脑
RAG智能体最核心两部分,一是决策大脑,目前主流就是指大模型,二是外部插件接入我们的个人知识。
我也正在开发这样的RAG软件,DeepSeekMine,目前正在迭代v0.6,目标纯离线本地快速运行。
其实早在开发之前,我们调研了目前市场上最流行的RAG智能体,它们绝大多数都是在线远程版,这里面令我印象最深刻的两家,一是ima(腾讯开发),二是实在Agent(实在智能公司开发),ima主要是应用,实在Agent不仅能应用智能体,还能开发智能体,所以下面来重点介绍实在Agent的搭建流程,主要搭建目标就是创建一个个人知识库Agent.
首先进入到实在Agent的搭建界面,如下图所示,这个界面是整体图:
其中右上角的视图局部截图如下所示,点击按钮「创建智能体」,如下所示:
进入智能体创建界面后,生成这样的一个拖拽工作流界面,通俗来说就是输入、大模型、其他插件,最后输出,如下图所示:
对于搭建一个知识库Agent来说,最重要的有两个环节,一是选择合适的大模型,另一个是上传个人知识库。咱们先从选择合适的大模型说起,如下图所示是选择大模型的界面:
这里包括了Qwen2.5,TARS-67B是实在智能自研大模型,还有deepseek-R1大模型,其实对于现在的大模型,尺寸小的性能也正在变得越来越好,所以这实际上给本地跑大模型提供了更加便利条件。大家根据自己喜好选择一个,比如咱们就选deepseek-R1-70B这版:
到这里搭建知识库Agent的第一个环节,界面选择大模型的操作步骤已经结束了。下面介绍搭建的第二个环节,知识库构建部分。
3 RAG智能体之外部插件
大模型是RAG智能体的大脑,那么个人知识库相当于是外部插件,实在Agent的搭建知识库部分,全都是界面操作,可配置型比较强。
比如下面第一个配置项,N选1召回,多路召回,关于这两个选项的区别,N选1召回就是单个知识库中选择最合适的一个文档,多路召回就是多路知识库中查询片段:
在RAG中还有一个很有意思的参数就是Score,如下默认值为0.5,它表示用户的查询向量与此文本片段的相似度,这个值越大表示相似度越高,0.5的默认值已经是很好的相似度了:
根据经验,调低一些如0.45,可以提高召回率,更多文本片段参与进来,叫大模型尽可能多的获取到提问相关的知识片段:
以上就是知识库搭建的参数配置部分,主要的就介绍完了。
接下来,看看上传个人文档到远程部分,如下所示点击+:
然后点击蓝色字体「去创建」:
接下来弹出这样的一个网页:
右上角选择:「新建知识库」按钮,
点击按钮后,弹出下面界面,输入名称和描述:
点击下面蓝色字体「选择文件」,支持多种不同格式的文件后缀,txt, markdown, pdf, html, xlsx, docx, csv, doc等,都可以上传:
接下来上传DeepSeek-R1的论文pdf到上面的知识库里:
还有V3的论文,咱们使用同样方法也上传上去:
当上传完成后,这里会显示上传进度,可以看到都上传完成了:
RAG智能体在上传文档后,要对文档分段处理,我们按照默认的分段逻辑:
全部上传完成后台会做自动的分段切分,接下来会显示文档已上传,界面如下所示:
实在Agent的这个搭建界面,其可视化非常棒,如下所示,我们可以清楚地看到一共划分了46个分段,如下所示为分段14和15,大家注意这里的分段未必是我们普通意义上的自然段:
等到这里,我们已经全部完成了个人知识库的构建工作,接下来就可以愉快的使用这些知识库了,在实在Agent这里直接支持一键拖拽,直接创建一个知识检索的Agent,如下图所示:
并在这个模块里选择知识库,就是我们刚才新建的知识库,咱们先试一下只勾选一个文档的测试,勾选并点击添加按钮:
至此我们使用实在Agent软件已经构建好了我们第一个知识库Agent,接下来提问这个Agent,然后它会自动完成知识库的检索RAG注入并通过配置的大模型回答问题,如下提问它,DeepSeek-R1-Zero怎们训练出来的:
可以看到实在Agent背后的工作流开始工作,从「开始输入」到知识检索2,再到大模型,再到最后回复输出:
当带那几知识检索2时,还可以展开看到里面的详细过程,包括输入的问题,放在query字段里:
并且可以看到命中了知识库文件中哪个片段,得分是0.5486:
下面是其回答,充分参考了资料,将DeepSeek-R1-Zero的介绍和训练分为下面三段:
测试没问题后,接下来就可以发布了,发布前修改下智能体的名字为:知识库Agent:
发布成功后,会在界面显示创建的智能体Agent:
接下来回到实在Agent的聊天界面,我们输入@符号,自动会出现刚才创建的知识库Agent:
点击选择它后,接下来就可以在这里一直提问它了:
比如,我们提问它,DeepSeek-R1另一个重要的算法GRPO(Group Relative Policy Optimization),可以看到这个智能体的回答也是比较准确的:
以上就是使用实在Agent搭建的一个完整知识库智能体,感兴趣的可以直接去这里下载软件,并按照此文步骤去试一试:
https://www.ai-indeed.com/downloadCenter
4 全自动Agent
除了方便构建Agent外,它家还有一个很强的功能,那就是结合大模型,只需输入一句话,全自动生成操作流程。
比如我想获取豆瓣电影排行榜数据(电影名、评分),只需要在下面输入这句话:
然后自动生成如下4步的操作流程:
然后只需要鼠标回车,它会自动执行整个4个步骤,自动打开网页,自动找到电影和排行榜,整个过程1分钟左右,AI就全部干完了。
最后自动输出下面的结果:
一句话,生成操作流程;再一键回车,自动开始干活,确实厉害了。想体验的,根据上面步骤,可以直接去感受下。
不得不感叹,没有大模型和智能体前,程序员开发这样的一个程序,没有个把小时还真搞不定,现在只需要1分钟。
总结一下
本文回答了大家对大模型接入个人知识库的一些常见疑问,包括大模型在线离线问题,目前主流RAG都是在线版。
关于开发知识库智能体,本文使用实在Agent介绍了一种详细搭建方法,这种方法通过上文可以看到,具有特点:
1)普通人也能搞,因为整个过程不需要写一行代码;
2)全部拖拉拽,操作比较方便;
3)知识库的配置UI界面做的比较丝滑,可视化也做得很棒。
知识库Agent的基本原理和技术也在文中做了介绍,包括知识库Agent的由来,主要组成部分,算法核心参数(TOP K, Score,召回策略)。
最后介绍了一个全自动Agent,只需输入一句指令,自动生成操作流程;再按下回车,智能体自动开始干活。