长上下文处理超越DeepSeek,超长知识库也能飞速跑
2025年1月23日DeepSeek发布最强推理R1模型后,在业界引起强烈反响,迅速登顶app下载榜榜首,并在短短7天内累积用户1.25亿,成为历史上最快用户破亿的应用。
除了DeepSeek外,咱们还有哪些优秀的开源大模型?开源模型性能是否会超越闭源模型?这篇文章来解答这几个问题。
1 开源和闭源之争
如今DeepSeek模型爆火,大家有没有注意到其他开源模型,如MiniMax-01、Qwen系列。说起MiniMax,大家首先想到的是他家的海螺AI,文生视频业界领先。Qwen是阿里开发的大模型,一直坚持开源。
说起闭源比如国外的GPT, Claude等,国内的文心一言等,他们一直坚持大模型闭源,有的人曾经还倡议用大模型就用闭源的。
关于大模型开源和闭源,曾经一度都在圈内争论激烈。然后最近随着开源大模型性能不断变强,那些闭源收费的模型正面临与日俱增的压力。如果未来开源都比闭源的好,相信没有人再去使用闭源,当闭源没有了日活用户,价值将直接归零,所以现在很多闭源模型包括Altman在内已经开始反思他们是不是战略有问题:
其实在DeepSeek-R1发布之前,还有一家公司大模型开源了,它就是有国内大模型六小龙之称的MiniMax(除此以外还有智谱AI、百川、Kimi、零一万物、阶跃星辰),开源了MiniMax-01模型,我当时获取这个消息是从公司创始人闫俊杰接受《晚点》采访的公众号文章里看到的。
里面有些话让我记忆深刻。闫俊杰认为大模型就应该开源,大模型是产品出现的驱动力,更好的模型才可能做出更好的APP,更多的用户未必迭代出更好的大模型。好用的大模型才是一切的基础,笃定MiniMax首要目标不是增长,不是收入,而是大模型技术加速迭代,认为内核永远都是大模型核心技术。
因此,我们可以合理推测,MiniMax-01模型选择在年前开源,这一时间点甚至早于DeepSeek-R1的发布,这或许预示着MiniMax-01和DeepSeek将共同推动行业趋势,引领更多企业加入大模型开源的行列。未来随着越来越多的大模型开源,随着开源大模型的性能逐日突破并超越闭源模型,到那时答案就会更加清晰明了了。
现在这些开源大模型整体性能如何?是否已经接近闭源模型?前几期文章我们已经领略了DeepSeek、Qwen,接下来咱们了解下MiniMax开源的MiniMax-01大模型。
2 MiniMax-01大模型
MiniMax-01模型开源后,业界当时反响还是挺大的,比如他们家的模型支持400万token上下文,400万token远大于闭源大模型支持的20万token
400万的token在业界肯定是领先了,就像媒体VentureBeat所说的那样:
400万的token是个什么概念?路遥《平凡世界》三部小说加起来差不多100万字,按照汉字与token一比一计算下来大概100万token!从如此浩瀚的文字里查询信息,无异于大海捞针,保证既快又准,难度还是不小的,但是根据MiniMax-01的技术报告,看到性能还是几乎不亚于先进的闭源模型,在C-SimpleQA、IFEval、Arena-Hard、DROP等数据集得分超越DeepSeek-V3,如下图所示:
MiniMax-01尤其擅长处理超长的上下文,接下来我来测试验证下性能到底如何!
这两天大概看了下MiniMax-01模型68页的技术报告,普通单栏英文论文一页通常1k英文单词,所以MiniMax-01大概有68k,6万8千个英文单词。
我先尝试扔给DeepSeek提取下这篇含6万8千个英文单词的论文,DeepSeek反馈这个上下文长度已经超过能力范围,只能读取前74%的内容:
然而6万8千英文单词这样的上下文长度对于MiniMax-01开源模型处理起来是没有压力的,根据论文测试结果他们能高效处理400万个token的超长知识库,按照1个token约等于0.75个单词计算,MiniMax-01能高效处理大约300万个英文单词,300万是远大于6.8万的。所以,当我扔给MiniMax-01模型(访问入口:chat.minimax.io)时,它很快加载并处理完成,如下图所示:
加载文档后,当提问DeepSeek让它总结论文并在适当位置添加关键图,中文回复时,下面是DeepSeek的回复,它是以图1,图3这样的文字来添加关键图片:
然而大家看看MiniMax-01模型(处理文本对话的准确模型名称:MiniMax-Text-01),它能准确提取这68页PDF知识库里的关键图片到回复文本内容中,能做到文字和图片多模态回复,如下图所示:
接下来,咱们进一步加大测试难度,大幅增加处理PDF的页数,咱们来个几百页的PDF电子书,就用邱锡鹏老师的《神经网络与深度学习》开源版本,一共440页,学习AI很经典的一本书,想直接获取PDF学习的可在下面我的公众号回复:nndl,获取这本书
440页如果按照一页800字,大约有35万汉字,直接加载到MiniMax-01模型中,如下图所示,然后叫它总结这本书的核心要点:
大概30秒左右MiniMax就学习完这本书了,AI的学习效率简直了,处理完成得到下面回复,这是部分截图,我把回复放进word里看了下大概有7页,并且内容提炼准确,这样一本440多页的PDF30秒时间就总结出了这样的一个7页文档。
经过这些测试我们已经看到了MiniMax在处理长知识库的能力,在下面红框所示截图右侧竖长图中,展示了MiniMax在处理长文本时准确率变动情况,大家看看红线所示的折线图一直在上方较为稳定,随着处理的知识库文本长度越长,它的性能优势就越凸显,更是超越了国外一众闭源收费的大模型。不仅能够处理的文本更长,而且处理速度也是比DeepSeek要快很多。
能做到这点,得益于MiniMax-01模型创新提出的Lighting Attention,Attention是Transformer架构的核心,是一个二维矩阵存储了句子中每个单词之间的两两语义关系,两个单词语义强取值就越大,一般处理时间复杂度是二次方,然后Lighting Attention通过分块(Tiling)技术,计算分块注意力,提出增量存储机制在推理下一个Token时,只计算新增部分而不是整个序列,从而让时间复杂度从二次方讲到一次线性:
正像DeepSeek、Qwen国产开源大模型一样,MiniMax也在对大模型内的关键组件不断创新,也是和DeepSeek、Qwen一样优秀,在处理超长知识库时展现出强于DeepSeek的优势。
这样在处理超长知识库构建的上下文时,MiniMax-01的作用就显现出来,后期我打算在构建本地个人知识库时,接入MiniMax-01模型,利用其高效超长400万Token处理能力,再加上文字+图片的回复,进一步提升大模型+个人知识库的功能。
3 MiniMax总结
通过上面大家看到,MiniMax在处理长文本、超长知识库,有着较大的优势,优秀的开源大模型不止DeepSeek一家,大家在日常遇到较长PDF知识库需要总结时,使用MiniMax-01是非常好的一个选择。
现在再回头看MiniMax老大闫俊杰在年前对开源的判断,对大模型研发战略的研判:
- 把大模型开源更利于行业发展
- 好用的大模型才是一切的基础,只有不断迭代大模型的内核,才是做好其他一切的根基
这让我对国产大模型MiniMax有了更多期待,他们越强对我们读者朋友们越有益处,越能加速我们的日常开发和工作效率。
希望透过这篇文章让大家更加好的认识到MiniMax的优秀和独特优势,更好的利用好目前这些优秀的国产开源大模型。