Mistral AI 发布 Leanstral 1.5：开源 6B 活跃参数模型刷新形式化验证纪录

Mistral AI 宣布推出 Leanstral 1.5，这是一款采用 Apache-2.0 协议的开源模型，拥有 119B 总参数及 6B 活跃参数。该模型在形式化验证领域取得了重大突破，不仅在 miniF2F 基准测试中达到饱和，更在 PutnamBench 中成功解决 587/672 道难题。通过结合中段训练、监督微调及 CISPO 强化学习，Leanstral 1.5 展现了强大的智能体证明工程能力，并在实际代码验证中发现了 5 个此前未知的漏洞。目前，该模型已通过 Hugging Face 和免费 API 开放使用。

核心要点

卓越的基准表现：Leanstral 1.5 在 miniF2F 测试中达到饱和状态，并在 PutnamBench 中解决了 672 个问题中的 587 个，同时在 FATE-H (87%) 和 FATE-X (34%) 上创下新纪录。
高效的架构设计：模型总参数量为 119B，但通过优化，活跃参数仅为 6B，在保持高性能的同时提升了运行效率。
先进的训练流程：采用了三阶段训练法，包括中段训练（mid-training）、监督微调（SFT）以及利用 CISPO 进行的强化学习（RL）。
现实世界影响力：不仅限于理论证明，该模型在对 57 个代码仓库的测试中，成功发现了 5 个此前未知的软件漏洞。
全面开源开放：采用 Apache-2.0 协议，用户可通过 Hugging Face 下载或通过 Mistral AI 的免费 API 调用。

详细分析

形式化验证的性能新标杆

Leanstral 1.5 的发布标志着 AI 在数学推理和形式化验证领域进入了新阶段。通过在 Lean 4 环境下的深度优化，该模型在处理极其复杂的数学竞赛题目时表现出色。在 PutnamBench 这一衡量高级数学能力的基准测试中，它成功攻克了 587 道题目，这一数据远超前代版本。此外，模型在 FATE-H 和 FATE-X 上的表现证明了其在处理逻辑严密性要求极高的任务时，具备极高的准确率和可靠性。

强化学习与编译器反馈的闭环

Leanstral 1.5 的核心竞争力源于其独特的训练机制。在强化学习阶段，模型被置于多轮对话环境中，不仅需要提出定理证明，还要接受 Lean 编译器的实时反馈。如果证明未能通过编译，模型会根据错误信息自动调整策略并重新尝试。这种基于编译器反馈的迭代过程，使得 Leanstral 1.5 能够像人类专家一样进行“思考”和“纠错”，从而在复杂的证明工程中实现智能体化的操作。

从学术研究走向工业实战

与许多仅停留在实验室阶段的模型不同，Leanstral 1.5 已经证明了其在真实软件工程中的价值。通过对 57 个开源存储库的自动化验证，该模型不仅验证了代码的复杂属性，还精准定位了 5 个开发者此前未曾察觉的漏洞。这表明形式化验证技术正在变得更加实用和易于获取，能够有效提升关键软件系统的安全性和健壮性。Mistral AI 通过 Apache-2.0 协议将其开源，进一步降低了企业和开发者采用严谨形式化方法的门槛。

行业影响

Leanstral 1.5 的推出对 AI 行业和软件工程领域具有深远意义。首先，它证明了通过特定领域的强化学习，活跃参数较小的模型（6B）也能在垂直领域超越通用巨型模型。其次，它推动了 Lean 4 这一形式化语言的普及，为自动化数学发现和零缺陷软件开发提供了强有力的工具。最后，Mistral AI 坚持的开源策略将加速形式化验证技术的民主化，让更多开发者能够利用 AI 确保代码的绝对正确性。

常见问题

问题 1：Leanstral 1.5 的开源协议是什么？

Leanstral 1.5 采用 Apache-2.0 协议发布，这意味着开发者可以自由地使用、修改和分发该模型，无论是用于商业还是研究目的。

问题 2：该模型在实际开发中有什么用途？

它主要用于 Lean 4 环境下的形式化证明工程。开发者可以利用它来验证代码逻辑的正确性、自动生成数学证明，或者在现有的代码库中寻找潜在的逻辑漏洞。

问题 3：如何访问和使用 Leanstral 1.5？

用户可以直接从 Hugging Face 平台下载模型权重进行本地部署，也可以通过 Mistral AI 提供的免费 API 接口进行在线调用，快速集成到现有的工作流中。

Mistral AI 发布 Leanstral 1.5：开源形式化验证模型性能飞跃，解决 587 道 Putnam 难题