郭震 AI公众号:郭震AI

DeepSeek-V4 + MinerU 知识库教程:扫描 PDF 解析与 RAG 问答实测

发布日期:

最近更新:

分类: AI消息

预计阅读: 4 分钟

阅读次数: 0

预计阅读4 分钟
结构重点5 个
图文要点0 张
正文规模1.9k 字

English edition

Global readers can continue with the English version and buyer guides.

英文版更适合海外搜索、工具选型和软件采购场景;也会继续导向 AI software、tools 和 model benchmark 页面。

Read English edition

你好,我是郭震

这篇主要解决两件事:扫描 PDF 怎么稳定解析,解析后的文档怎么接入 DeepSeek-V4 做知识库问答。

如果你在找“MinerU 扫描 PDF 解析”“DeepSeek-V4 知识库问答”“RAG 文档解析效果”,可以先看这一篇。我用 DeepLocals + MinerU 做了一轮实测,重点看复杂公式、表格、扫描件和学术文献检索是否真的能用。

先说结论:MinerU 的价值不只是把 PDF 转成文字,而是让知识库拿到更干净的结构化输入。输入质量变好了,后面的 RAG 检索、引用定位和 DeepSeek-V4 问答才更稳。

相关阅读:知识库搭建和检索参数可以继续看 RAG 知识库专题,本地模型部署可以看 本地大模型部署专题

你的电脑里应该攒了不少资料吧?

PDF、Word、Excel,还有各种会议纪要、项目文档、论文、合同什么的。刚存的时候觉得以后肯定有用,结果真要用的时候,发现根本找不到。

尤其是文件多了,电脑里存了上千上万个文件时,靠 Windows 自带的搜索或者靠脑子记,基本就废了。你想找某一个具体的合同条款,或者某篇论文里的实验数据,翻半天也对不上号。

跟大家分享我对以上两个挺扎心问题的解决方法,感兴趣的可以看看。

1 难搞的扫描PDF

咱们平时存的 PDF,很多其实是扫码件,或者是排版特别复杂的论文,里面又是多栏排版,又是各种公式、表格:

包含公式和表格的复杂扫描 PDF 示例

以前这种文件丢给 AI,它读出来的格式基本都乱掉了。

如下放到NotebookLM知识库中,解析后公式排版出现问题:

NotebookLM 解析扫描 PDF 后公式排版出错

这里分享一个靠谱的方法,就是使用MinerU,它专门治这种“难啃”的文档。

它能把那些复杂的公式、嵌套的表格,还有乱七八糟的扫描件,尽量保持和原文语义一致。

如下接入到DeepLocals知识库,通过MinerU完成解析,这个公式解析质量好于NotebookLM:

DeepLocals 通过 MinerU 解析 PDF 公式结构

这样你在问它问题的时候,它不再是凭感觉瞎猜,而是真能看清你那张表、那个公式到底写了啥。

如下图所示,在知识库检索问答时,它能精准命中对应的文档片段,并准确输出答案:

知识库问答精准命中文档片段并输出答案

MinerU为啥能做到解析质量如此之高,参考下图,得益于强大的智能文档解析引擎:

MinerU 智能文档解析引擎能力说明

一句话总结,通过MinerU的PDF解析能力,知识问答有了高质量的输入,从而保证了RAG检索的高精度。

2 私有资料+外部联动

很多时候,光看自己电脑里的资料是不够的。比如你写个调研报告,或者查个技术方案,除了看自家的文档,还得查查外面的专业论文才放心。

注意到MinerU最近直接接入了 Sciverse 这个学术库,里面有 2500 万篇公开的文献:

MinerU 接入 Sciverse 学术文献库入口

这几天我经常使用的DeepLocals,也接入了MinerU最新升级的这个功能:

DeepLocals 接入 MinerU 学术文献搜索功能

你在提问的时候,顺手点一下“学术文献搜索”,它就会一边翻你本地的文件,一边帮你去查专业的学术论文。

如下图所示,提问diffusion总结,使用DeepSeek-V4大模型:

用 DeepSeek-V4 提问 diffusion 论文总结

它会从左侧本地知识库中,检索到我的本地PDF论文:

DeepLocals 从本地 PDF 论文中检索相关片段

同时还会从2500万学术文献库中查找到对应文献:

Sciverse 从学术文献库召回 diffusion 相关论文

而且参考的文献有多篇,如下文献11:

DeepLocals 显示第 11 篇参考文献来源

文献9:

DeepLocals 显示第 9 篇参考文献来源

文献8:

DeepLocals 显示第 8 篇参考文献来源

一句话总结:这种“本地私有资料 + 外部专业证据”一起出来的效果,不仅能省掉大量查资料的时间,而且能得到更好、更全面的总结答案。

3 DeepSeek-V4+知识库

如下图所示,DeepLocals学习了我电脑的海量PDF、Word等文档:

DeepLocals 学习电脑中的 PDF 和 Word 文档

学习完成后还能看到文字+图片,支持多模态学习:

DeepLocals 学习完成后展示文字和图片内容

结合学习到你的文件以图文形式回答,是一个更懂你的AI,支持云端和本地双模式,如下图所示:

DeepLocals 云端和本地双模式图文问答演示

自动结合学习到的电脑文件,支持图文回复:

DeepLocals 结合电脑文件生成图文回答

四大专业预设模式:通用模式、法律模式、医学模式和科研模式:

DeepLocals 通用法律医学科研四种专业模式

另外,还支持多个知识库间联合回答问题:

DeepLocals 支持多个知识库联合回答问题

比较常用的知识库,还有腾讯IMA等,感兴趣的大家也可以去体验IMA

最后总结一下

本文实测了DeepSeek-V4结合MinerU,解决扫描PDF处理问题,以及本地和外部知识联动,提供更好问答。** **

** 具体来说,通过 MinerU 把乱码的文档理顺,再通过 Sciverse 把全球的学术证据拉进来,这种“本地资料理得顺、外部文献找得准”的体验,成为一个称手的 AI 工作台该有的样子。**

如果你也深陷文档堆,想让 AI 带着证据帮你干活,那这套组合方法值得试一试。

全文1329字,26图,如果你觉得这篇文章对你有帮助,也欢迎给我一个三连击:点赞、转发和在看;如果可以,再帮我点一个⭐️。谢谢你看到这里,我们下篇再见。

分享文章

转发到常用平台

微信/朋友圈可先复制链接

相关内容

更多相关文章

返回栏目

Reader Messages

读者留言

有问题、补充资料或实测结果,可以直接留下。这里不需要登录。

最多 800 字

为了防刷,每条留言会做长度、链接数量和提交频率限制。

0/800

留言列表

0
正在加载留言...