长上下文处理超越DeepSeek，超长知识库也能飞速跑

2025年1月23日DeepSeek发布最强推理R1模型后，在业界引起强烈反响，迅速登顶app下载榜榜首，并在短短7天内累积用户1.25亿，成为历史上最快用户破亿的应用。

除了DeepSeek外，咱们还有哪些优秀的开源大模型？开源模型性能是否会超越闭源模型？这篇文章来解答这几个问题。

1 开源和闭源之争

如今DeepSeek模型爆火，大家有没有注意到其他开源模型，如MiniMax-01、Qwen系列。说起MiniMax，大家首先想到的是他家的海螺AI，文生视频业界领先。Qwen是阿里开发的大模型，一直坚持开源。

说起闭源比如国外的GPT, Claude等，国内的文心一言等，他们一直坚持大模型闭源，有的人曾经还倡议用大模型就用闭源的。

关于大模型开源和闭源，曾经一度都在圈内争论激烈。然后最近随着开源大模型性能不断变强，那些闭源收费的模型正面临与日俱增的压力。如果未来开源都比闭源的好，相信没有人再去使用闭源，当闭源没有了日活用户，价值将直接归零，所以现在很多闭源模型包括Altman在内已经开始反思他们是不是战略有问题：

MiniMax-01模型发布

其实在DeepSeek-R1发布之前，还有一家公司大模型开源了，它就是有国内大模型六小龙之称的MiniMax（除此以外还有智谱AI、百川、Kimi、零一万物、阶跃星辰），开源了MiniMax-01模型，我当时获取这个消息是从公司创始人闫俊杰接受《晚点》采访的公众号文章里看到的。

里面有些话让我记忆深刻。闫俊杰认为大模型就应该开源，大模型是产品出现的驱动力，更好的模型才可能做出更好的APP，更多的用户未必迭代出更好的大模型。好用的大模型才是一切的基础，笃定MiniMax首要目标不是增长，不是收入，而是大模型技术加速迭代，认为内核永远都是大模型核心技术。

因此，我们可以合理推测，MiniMax-01模型选择在年前开源，这一时间点甚至早于DeepSeek-R1的发布，这或许预示着MiniMax-01和DeepSeek将共同推动行业趋势，引领更多企业加入大模型开源的行列。未来随着越来越多的大模型开源，随着开源大模型的性能逐日突破并超越闭源模型，到那时答案就会更加清晰明了了。

现在这些开源大模型整体性能如何？是否已经接近闭源模型？前几期文章我们已经领略了DeepSeek、Qwen，接下来咱们了解下MiniMax开源的MiniMax-01大模型。

2 MiniMax-01大模型

MiniMax-01模型开源后，业界当时反响还是挺大的，比如他们家的模型支持400万token上下文，400万token远大于闭源大模型支持的20万token

MiniMax-01模型发布

400万的token在业界肯定是领先了，就像媒体VentureBeat所说的那样：

MiniMax-01模型发布

400万的token是个什么概念？路遥《平凡世界》三部小说加起来差不多100万字，按照汉字与token一比一计算下来大概100万token！从如此浩瀚的文字里查询信息，无异于大海捞针，保证既快又准，难度还是不小的，但是根据MiniMax-01的技术报告，看到性能还是几乎不亚于先进的闭源模型，在C-SimpleQA、IFEval、Arena-Hard、DROP等数据集得分超越DeepSeek-V3，如下图所示：

MiniMax-01模型发布

MiniMax-01尤其擅长处理超长的上下文，接下来我来测试验证下性能到底如何！

这两天大概看了下MiniMax-01模型68页的技术报告，普通单栏英文论文一页通常1k英文单词，所以MiniMax-01大概有68k，6万8千个英文单词。

MiniMax-01模型发布

我先尝试扔给DeepSeek提取下这篇含6万8千个英文单词的论文，DeepSeek反馈这个上下文长度已经超过能力范围，只能读取前74%的内容：

MiniMax-01模型发布

然而6万8千英文单词这样的上下文长度对于MiniMax-01开源模型处理起来是没有压力的，根据论文测试结果他们能高效处理400万个token的超长知识库，按照1个token约等于0.75个单词计算，MiniMax-01能高效处理大约300万个英文单词，300万是远大于6.8万的。所以，当我扔给MiniMax-01模型（访问入口：chat.minimax.io）时，它很快加载并处理完成，如下图所示：

MiniMax-01模型发布

加载文档后，当提问DeepSeek让它总结论文并在适当位置添加关键图，中文回复时，下面是DeepSeek的回复，它是以图1，图3这样的文字来添加关键图片：

MiniMax-01模型发布

然而大家看看MiniMax-01模型（处理文本对话的准确模型名称：MiniMax-Text-01），它能准确提取这68页PDF知识库里的关键图片到回复文本内容中，能做到文字和图片多模态回复，如下图所示：

MiniMax-01模型发布

接下来，咱们进一步加大测试难度，大幅增加处理PDF的页数，咱们来个几百页的PDF电子书，就用邱锡鹏老师的《神经网络与深度学习》开源版本，一共440页，学习AI很经典的一本书，想直接获取PDF学习的可在下面我的公众号回复：nndl，获取这本书

郭震AI

440页如果按照一页800字，大约有35万汉字，直接加载到MiniMax-01模型中，如下图所示，然后叫它总结这本书的核心要点：

MiniMax-01模型发布

大概30秒左右MiniMax就学习完这本书了，AI的学习效率简直了，处理完成得到下面回复，这是部分截图，我把回复放进word里看了下大概有7页，并且内容提炼准确，这样一本440多页的PDF30秒时间就总结出了这样的一个7页文档。

MiniMax-01模型发布

经过这些测试我们已经看到了MiniMax在处理长知识库的能力，在下面红框所示截图右侧竖长图中，展示了MiniMax在处理长文本时准确率变动情况，大家看看红线所示的折线图一直在上方较为稳定，随着处理的知识库文本长度越长，它的性能优势就越凸显，更是超越了国外一众闭源收费的大模型。不仅能够处理的文本更长，而且处理速度也是比DeepSeek要快很多。

MiniMax-01模型发布

能做到这点，得益于MiniMax-01模型创新提出的Lighting Attention，Attention是Transformer架构的核心，是一个二维矩阵存储了句子中每个单词之间的两两语义关系，两个单词语义强取值就越大，一般处理时间复杂度是二次方，然后Lighting Attention通过分块(Tiling)技术，计算分块注意力，提出增量存储机制在推理下一个Token时，只计算新增部分而不是整个序列，从而让时间复杂度从二次方讲到一次线性：

MiniMax-01模型发布

正像DeepSeek、Qwen国产开源大模型一样，MiniMax也在对大模型内的关键组件不断创新，也是和DeepSeek、Qwen一样优秀，在处理超长知识库时展现出强于DeepSeek的优势。

这样在处理超长知识库构建的上下文时，MiniMax-01的作用就显现出来，后期我打算在构建本地个人知识库时，接入MiniMax-01模型，利用其高效超长400万Token处理能力，再加上文字+图片的回复，进一步提升大模型+个人知识库的功能。

3 MiniMax总结

通过上面大家看到，MiniMax在处理长文本、超长知识库，有着较大的优势，优秀的开源大模型不止DeepSeek一家，大家在日常遇到较长PDF知识库需要总结时，使用MiniMax-01是非常好的一个选择。

现在再回头看MiniMax老大闫俊杰在年前对开源的判断，对大模型研发战略的研判：

把大模型开源更利于行业发展
好用的大模型才是一切的基础，只有不断迭代大模型的内核，才是做好其他一切的根基

这让我对国产大模型MiniMax有了更多期待，他们越强对我们读者朋友们越有益处，越能加速我们的日常开发和工作效率。

希望透过这篇文章让大家更加好的认识到MiniMax的优秀和独特优势，更好的利用好目前这些优秀的国产开源大模型。

长上下文处理超越DeepSeek，超长知识库也能飞速跑

1 开源和闭源之争

2 MiniMax-01大模型

3 MiniMax总结

💬 评论

🧠AI 最新技术 (滚动鼠标查看)