Mistral的首个强推理模型:拥抱开源,推理速度快10倍
强推理终于要卷速度了。
大模型强推理赛道,又迎来一位重量级玩家。
本周二,欧洲人工智能公司 Mistral AI 发布了 Magistral,这是一个全新的大语言模型(LLM)系列,展现了强大的推理能力。它能够进行不断反思,并解决更复杂的任务。
此次发布包含两个版本:面向企业客户的大型专有模型 Magistral Medium,以及一个 24B 参数的开源版本 Magistral Small。其中开源版本使用 Apache 2.0 许可,可以自由使用、商用化;Magistral Medium 则可通过 Mistral 的 Le Chat 界面和 La Plateforme API 访问。
- 直接使用:https://chat.mistral.ai/chat
- 模型开源:https://huggingface.co/mistralai/Magistral-Small-2506
- 论文:https://mistral.ai/static/research/magistral.pdf
在基准测试中,新模型取得了不错的成绩。这里主要是 Magistral 与其前身 Mistral-Medium 3 和 DeepSeek 系列的对比。Magistral Medium 在 AIME2024 上的得分为 73.6%,其中多数投票为 64%,得分为 90%。Magistral Small 的得分分别为 70.7% 和 83.3%。
新模型在一些其他高要求测试中也表现出色,包括研究生水平的问答基准测试 GPQA Diamond 和用于编程挑战的 LiveCodeBench。
Mistral 进一步展示了一些实际使用的案例。
Magistral Medium 展示了自身的编程能力,一次生成输出的代码就能模拟出重力、摩擦力。
除了通过 Benchmark 和编程等「必考题」,Magistral 模型还擅长在多种语言中保持高保真推理。它尤其适合用于英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语、中文等语言的推理。
借助 Le Chat 中的 Flash Answers,Magistral Medium 还能实现比大多数竞争对手多达 10 倍的 token 吞吐量。Mistral 称,这基本可以实现大规模的实时推理和用户反馈。
因为以上一系列特性,Mistral 认为 Magistral 非常适合需要长时间思考和更高准确度的通用任务,相比非推理类的大模型,提升更为明显。
在技术报告中,Mistral 表示 Magistral 应用了自主研发的可扩展强化学习流水线,其并非依赖现有实现和从先前模型中提炼出的强化学习痕迹,而是采用自下而上的方法,完全依赖自己的模型和基础设施。
在 Magistral 工作中研究人员发现,基于文本的强化学习能够保持甚至提升多模态理解、指令遵循和函数调用能力。
有趣的是,Magistral 的核心设计原则是使用与用户相同的语言进行推理。在未经任何处理的数学和编程问题上进行强化学习通常会导致模型在推理过程中出现混合语言。在没有语言限制的初步实验中,Mistral 工程人员也经常观察到混合英语、中文和俄语单词的输出。虽然这些输出是连贯的,但为了避免语言切换,他们在计算对话(由问题、想法、答案组成)的奖励时,首先通过删除 LaTeX 内容和代码块对这三个部分进行归一化,然后对每个部分应用 fastText 分类器。如果分类器指示所有三个部分都使用相同的语言,则会额外给予 0.1 的奖励。
这样简单的修改足以使模型能够紧密跟踪用户的语言,最大限度地减少代码切换,同时保持推理任务的性能。尽管只将原始英语问题翻译成几种语言,但我们能观察到 Magistral 模型能够成功生成任意语言的思维链、系统提示。
Mistral 进一步在系统提示中指定了格式和语言要求,如下图所示。实验发现强化学习训练对这些系统提示非常敏感。例如,系统提示中的「尽可能随意,尽可能长」部分增加了模型的熵,从而改善了模型的探索能力。
Mistral 正在把 Magistral Medium 模型应用于包括 Amazon SageMaker 在内的主流云平台,Azure AI、IBM WatsonX 和 Google Cloud Marketplace 也将紧随其后。
在使用成本方面,Mistral 把 Magistral Medium 定位为一款独特的高端产品,因此价格也是大幅上涨。
它的每百万输入 token 价格为 2 美元,每百万输出 token 是 5 美元,相比老款 Mistral Medium 3 价格大幅上涨,后者输入成本仅为 0.4 美元,输出成本为 2 美元。
然而,与外部竞争对手相比,Magistral Medium 的定价策略却显得极具竞争力。它的输入成本比 OpenAI 最新型号便宜,与 Gemini 2.5 Pro 的价格处于同一水平,输出成本也远低于这两款产品。
看起来,推理速度比竞品快 10 倍的竞争优势确实很大。
Magistral API 与其他领先 LLM 的推理成本对比。
在 Magistral 推出之后,Mistral 的目标是从此版本开始快速迭代模型。
参考内容:
https://mistral.ai/news/magistral
https://venturebeat.com/ai/mistrals-first-reasoning-model-magistral-launches-with-large-and-small-apache-2-0-version/
本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:泽南,36氪经授权发布。