53万美金训练出顶级AI?揭秘MiniMax的「省钱」绝招

极客邦科技InfoQ·2025年06月20日 08:06
全球最长上下文推理模型
我要联系

这几天,MiniMax 搞起了技术周,第一天就放出“王炸”,开源了全球首个大规模混合架构推理模型 MiniMax-M1。据最新消息,M1 已经成为全球前二的开源模型。

MiniMax 分别用最大生成长度的 40K 和 80K token,训练了两个版本的 MiniMax-M1 模型——MiniMax-M1-40k 和 MiniMax-M1-80k。MiniMax-M1-80k 在复杂的数学和编码任务上优于 MiniMax-M1-40k。

据观察,MiniMax-M1 在全球科技领域引起了强烈的反响。产品不仅迅速占据海外主流媒体如 VentureBeat、Seekingalpha 等重要版面,更获得 Aran Komatsuzaki 等行业 KOL 的深度解读,同时在 TestTM 等国际社交平台引发讨论,形成多维度、跨圈层的传播矩阵。

(全球科技领域大V评论截图)

(VentureBeat 报道截图)

而引发海外关注的原因,来自于 M1 的三个核心能力——长上下文窗口、RL 训练成本上的优势、Agent 工具调用

M1 技术报告显示,在业内主流的 17 个评测集上,M1 的性能表现超越了当前很多头部模型。例如 MiniMax-M1-40k 和 MiniMax-M1-80k 在 SWE-bench 验证基准上分别取得 55.6% 和 56.0% 的优异成绩。在长上下文理解任务中,全面超越所有开源权重模型。在代理工具使用场景(TAU-bench)中,MiniMax-M1-40k 同样领跑所有开源权重模型,并战胜 Gemini-2.5 Pro。

全球最长上下文,MiniMax-M1 是如何做到的?

MiniMax-M1 基于之前的 MiniMax-Text-01 模型开发,总共包含 4560 亿个参数,459 亿个激活函数,并具备 32 层架构,其最大的亮点是支持目前业内最高的 100 万上下文的输入。

从报告测评结果来看,MiniMax-M1 的上下文输入长度达到 1M,与闭源模型中的 Google Gemini 2.5 Pro 持平,却是 DeepSeek R1(128K)的 8 倍。

不仅如此,MiniMax-M1 的推理输出可达 8 万 Token,同样位居业内之首。这使得 M1 特别适合解决需要处理长文本(比如代码、论文)和复杂推理(比如数学题、软件调试)的任务。

依托其百万级上下文窗口,M1 系列在长上下文理解任务中表现卓越,其中在上下文能力的评测基准 OpenAI-MRCR (128k/1M) 以及 LongBench-v2 中,M1 的表现远超包括 DeepSeek-R1-0528 和 Qwen3-235B 在内的所有开源模型,甚至超越 OpenAI o3 和 Claude 4 Opus,仅以微弱差距落后于 Gemini 2.5 Pro。

目前,超长上下文在多个领域展现出了更多的实际应用价值。例如在文档分析领域,百万级上下文窗口能够处理超长合同、科研文献等复杂文档,提升信息提取和理解的准确性;在代码生成领域,百万级上下文窗口能够理解并修复整个代码库中的问题,甚至生成完整的长篇代码。

以文档分析写作领域为例,过去,“写一篇 10000 字的长文,详细分析 XX 议题”这种看似简单的要求,实际上有一些大模型做不到,而现在极有可能实现。

M1模型上下文能力的提升,得益于MiniMax独创了Lightning Attention(闪电注意力)神经网络架构,以及全新的强化学习算法CISPO(Clipped IS-weight Policy Optimization)。

当前,主流大语言模型的核心架构均以 Transfolmer 架构为基础框架。然而,传统 Transformer 架构在处理长序列时存在明显弊端,其注意力机制的计算量会随序列长度呈平方级增长,进而导致显存占用和计算成本急剧上升。

而 MiniMax 一直对非传统 Transformer 路线十分感兴趣,动作积极,并且实践了“非主流”的线性注意力机制。

双重创新,RL训练成本降至53万美金

MiniMax-M1 和 MiniMax-Text-01 系列,都是基于闪电注意力机制开发的。

其中,MiniMax-M1 中每 7 个带有闪电注意力的 Transformer 模块后会跟一个带有 softmax 注意力的 Transformer 模块。这种设计理论上可以将推理长度高效扩展到数十万个,同时大幅降低成本。

从图中可以看到,和 DeepSeek R1 相比,M1 在 64 个 token 的生成长度下,消耗的 FLOP 不到 50%,在 100K 个 token 长度下消耗 FLOP 约为 25%。

闪电注意力机制实则是线性注意力机制变体的 I/O 感知实现。

具体来看,传统 Transformer 的 Softmax 注意力机制需要为输入序列构建一个 N×N 的全连接矩阵,用以计算注意力权重,当处理超长序列时,这个矩阵会变得极其庞大,导致计算和存储成本急剧增加。

闪电注意力机制等线性注意力机制采用“分块计算”策略,将长序列分割成多个小块,先在小块内部计算词与词之间的关系,再通过块间信息传递整合全局语义,这种方法显著降低了计算复杂度,同时仍能捕捉到长距离的语义关联。

这种模式下,计算复杂度不再是随着序列长度的增加指数级上升,而是变成了和序列长度成线性关系,也就是说,序列变长时,计算量也只按比例增加,大大提高了处理效率。

它先确保了计算复杂度是线性的,在此基础上,再结合输入数据的稀疏性、结构等特性,以及输出任务的具体需求,甚至还考虑了底层硬件的内存访问效率,去对线性注意力的计算和实现方式进行设计或调整。这样做的目的,就是在保持线性复杂度的同时,让模型在特定任务或数据上能获得更优表现,比如运行速度更快、内存占用更少,或者能生成更相关的注意力分布,从而提升整体效果。

换句话说,这本身就是一种更精细化、更贴合实际应用场景的优化思路。

正是这种独特的架构设计,让采用它的 M1 模型在处理那些非常长的序列数据时表现特别出色,能够在保证处理效果(性能)的同时,也兼顾了计算速度(效率)。

但由此带来的问题是,高速推理会加速强化学习(RL)的缩放进程,让模型生成的响应越来越长,变得冗余。而且,传统混合架构模型所使用的 RL 算法,在这种快速变化的环境下,很容易因为各种未知因素而变得不稳定,进而影响模型的整体表现和可靠性。

为此,MiniMax 用两种方法来稳定提高 RL 的缩放效率。

首先是 RL 算法的创新。M1 技术报告中提到,在零 RL 设置下的混合架构的初步实验中,GRPO 算法对训练性能反而产生了不利影响,并且无法促进长 CoT 推理为的出现。

MiniMax 提出了一种新的强化学习算法 CISPO。CISPO 不直接裁剪 token,而是保留所有 token 的更新,修剪重要性采样(importance sampling)权重来保持训练的稳定性。

实验显示,在相同训练步数下,CISPO 的性能优于 GRPO 和 DAPO,并且只用一半的训练步数就能达到与 DAPO 相当的性能。

此外,MiniMax 还注意到,M1 的混合注意力机制的设计还会 RL 扩展的稳定性带来挑战。

例如,模型训练架构的训练内核和推理内核之间精度不匹配(如下图左图所示)。这导致训练内核学到的策略可能无法在推理阶段被准确执行,导致实际执行的动作与预期策略存在偏差。简单来说,就像大脑(训练内核)想好了最优方案,但手脚(推理内核)却跟不上或执行不到位,自然难以取得好成绩。

在一系列调整后,MiniMax-M1 将训练概率和推理概率之间的相关性从 0.9 倍提升至 0.99 倍(如下图右图所示)。

上述一系列优化下,MiniMax 最终将 MiniMax-M1 整个强化训练成本打下了一个数量级,只用 512 块 H800,用时三周,租赁成本只有 53.74 万美金。

从 Demo 到生产力,工具才是 Agent 的终极“外挂”

无论是长上下文窗口,还是强化学习训练成本上的优势,本质都是为上层 Agent 应用提供底层支撑,加速规模化落地。

但真正决定 Agent 应用在复杂场景中用得好不好,更多取决于其能否与外部系统无缝协同。这也是为什么越来越多的企业和开发者开始将 工具使用(Tool Use) 视作 Agent 最重要的能力。MiniMax-M1 能在海内外引起广泛讨论的一部分原因,也来自于此。

在代理工具使用场景(TAU-bench)中,MiniMax-M1-40k 领跑所有开源权重模型,在 30 多轮长链路思考与工具调用任务中,展现出极高的稳定性。

TAU-bench 被视为评估 Agent 工具使用能力的“黄金标准”,其由顶尖 AI 研究机构联合推出,通过对 Agent 在航空、零售两个垂直领域的场景评测,衡量 Agent 在复杂现实任务中,与用户和工具交互的能力。对于开发者、企业甚至是研究机构而言,TAU-bench 的评测结果都具有重要的参考价值。

稳定是工具能力的基础,易用性则决定了工具能否被广泛应用。这也是 MiniMax-M1 在工具调用方面,区别于传统模型的关键。

在传统方案中,开发者需要为每个 API 单独设计 Prompt 模板、处理参数映射、调试上下文传递,这种方式不仅效率低,还严重依赖开发者个人经验。MiniMax-M1 支持开发者以简单的 XML 格式工具结构描述工具功能,模型能够自动理解工具的输入输出、参数约束,并生成符合要求的调用代码。开发者甚至不需要专门学习工具的使用方法,就能实现工具调用。

在实际的应用场景中,MiniMax-M1 在工具调用能力上的优势得到了进一步放大。在 MiniMax-M1 的 Hugging Face 主页上,专门设置了一个“代码游乐场”,用户可以通过这个交互式环境,快速且直观地感受 MiniMax-M1 工具调用能力对开发效率的提升。

比如,MiniMax-M1 内置了很多 UI 组件。通过输入提示词,MiniMax-M1 能快速生成 3D 翻转卡片动画,也能立即创建一个具有粒子动画背景的 HTML 页面。

MiniMax-M1 还支持交互式应用程序。以打字速度测试工具为例,MiniMax-M1 能够快速生成包含实时打字速度(以每分钟字数 WPM 计算)的 Web 应用,整个过程不需要任何插件,也不需要做额外的设置。

此外,MiniMax-M1 还支持工具 & 编辑器、游戏 & 可视化能力。比如,输入提示词:“创建一个迷宫生成器和路径寻找可视化工具,随机生成迷宫并用 A* 算法逐步可视化解法。使用 canvas 和动画呈现,视觉效果炫酷。”MiniMax-M1 快速就能做出一个迷宫小游戏,可玩性也相当不错。

当 Agent 规模化应用已成定局,MiniMax-M1 开源更大的意义在于,给行业提供了一个新思路:RAG 等“外挂”或许能短期内提高 Agent 的落地效果,但长期来看,基座模型本身的持续进化,或许才是解决 Agent 落地难题的“第一性原理”。

MiniMax 围绕模型升级的重点之一,始终是上下文处理能力,迭代速度堪称迅猛。年初,MiniMax 发布并开源 MiniMax-01 系列模型,其中,MiniMax-Text-01 模型能够高效处理多达 400 万 token 的上下文,这一数据是 GPT-4o 的 32 倍,更是 Claude-3.5-Sonnet 的 20 倍。如今 MiniMax-M1 支持 100 万上下文输入,不难发现,MiniMax 在技术路线与战略方向上,始终保持着连贯性与坚定性。

这是因为在 Agent 系统里,无论是单 Agent 实现长期记忆,还是多 Agent 达成协同通信,都高度依赖强大的上下文处理能力。另外,随着 AI Agent 逐渐进入企业生产环境,来自各领域大量的上下文信息正在输入,不确定性很高,支持的上下文长度越大,对业务的兼容性越好。

与市面上的基础模型厂商不同,MiniMax 对技术的考量,是以业务为中心的,“技术摸高”是 MiniMax 的重要任务,但不是唯一任务。而随着企业对 AI 的需求越来越贴合业务实际情况,MiniMax 这样的厂商,无疑增强了企业对 AI 的信心。在本次 MiniMax-M1 开源后,我们完全可以期待 2025 下半年 AI 市场的增长曲线,将因此抵达新的高峰。

本文来自微信公众号“InfoQ”(ID:infoqchina),作者:杨楠、凌敏,36氪经授权发布。

+1
11

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

报道的项目

MiniMax
我要联系
人工智能技术研发商

下一篇

“创造型人才永远稀缺。”

5小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业