返回列表
Ornith-1.0发布:开源自我进化编程智能体模型,刷新多项SOTA纪录
开源项目AI编程大模型强化学习

Ornith-1.0发布:开源自我进化编程智能体模型,刷新多项SOTA纪录

Ornith-1.0是由deepreinforce-ai推出的开源自我进化编程智能体模型系列,涵盖9B到397B多种规模。该模型基于Gemma 4和Qwen 3.5构建,采用创新的强化学习(RL)框架,通过联合优化脚手架(scaffold)与解决方案,实现了在Terminal-Bench、SWE-Bench等多个编程基准测试中的领先表现。Ornith-1.0采用MIT协议,旨在为全球开发者提供高性能、无地域限制的智能编程工具。

Hacker News

核心要点

  • 多规模模型矩阵:Ornith-1.0提供9B-Dense、31B-Dense、35B-MoE以及397B-MoE四种版本,满足不同算力需求。
  • 自我进化训练框架:利用强化学习(RL)不仅优化解决方案,还同步优化驱动方案生成的脚手架(scaffold),提升搜索轨迹质量。
  • 卓越的基准表现:在Terminal-Bench 2.1、SWE-Bench、NL2Repo等权威编程测试中,性能均优于同规模的开源模型。
  • 完全开源与全球化:采用MIT许可协议,全球范围内可自由访问,无任何地域限制。
  • 强大的底座支持:模型是在Gemma 4和Qwen 3.5的基础上进行后期训练(post-trained)而成。

详细分析

多规模模型矩阵与卓越基准表现

Ornith-1.0系列模型展示了在智能编程(Agentic Coding)领域的强大竞争力。该系列涵盖了从轻量级的9B-Dense到超大规模的397B-MoE等多种架构。根据发布的数据,Ornith-1.0在多个核心基准测试中均取得了同类模型中的最优成绩(State-of-the-Art)。

在Terminal-Bench 2.1(Terminus-2)测试中,Ornith-1.0-9B版本得分达到43.1,远超Qwen3.5-9B的21.3;而Ornith-1.0-35B版本更是取得了64.2的高分,甚至超过了规模更大的Qwen3.5-397B(53.5分)。在备受关注的SWE-bench Verified测试中,Ornith-1.0-35B取得了75.6的成绩,优于Qwen3.5-35B的70。这些数据表明,通过精细的后期训练和架构优化,Ornith-1.0在处理复杂的软件工程任务、多语言编程以及仓库级代码理解(NL2Repo)方面具有显著优势。

强化学习驱动的自我进化机制

Ornith-1.0的核心竞争力源于其独特的“自我进化训练框架”。与传统仅关注最终代码产出的训练方式不同,Ornith-1.0采用了强化学习(RL)来同时学习生成解决方案的“展开过程”(rollouts)以及驱动这些过程的“脚手架”(scaffold)。

这种联合优化机制允许模型在训练过程中发现更优的搜索路径。通过不断迭代,模型能够识别哪些思考步骤和中间环节能导向更高质量的代码方案。这种“脚手架”与“方案”的协同进化,使得Ornith-1.0在面对未见过的编程难题时,能够展现出更强的逻辑推理能力和自主纠错能力,从而在Agentic Coding(智能体编程)任务中表现出色。

开源生态与全球可访问性

在当前AI模型竞争日益激烈的背景下,Ornith-1.0坚持了彻底的开源路线。该模型采用MIT许可协议,这意味着全球的开发者、研究机构和企业都可以自由地下载、使用、修改并分发该模型,而无需担心复杂的版权约束或地域限制。

Ornith-1.0基于Gemma 4和Qwen 3.5这两个优秀的底座模型进行开发,充分吸收了现有大模型的语言理解能力,并针对编程场景进行了深度强化。这种基于成熟底座进行二次创新的模式,不仅保证了模型的基础素质,也为开源社区贡献了高质量的垂直领域模型,有助于推动全球范围内自动化软件工程技术的发展。

行业影响

Ornith-1.0的发布对AI编程行业具有深远意义。首先,它证明了通过强化学习优化“思考过程”(脚手架)是提升编程智能体性能的有效路径,这可能引发行业内对训练方法论的新一轮讨论。其次,Ornith-1.0以较小的参数规模(如35B)在多项指标上超越了参数量大得多的模型,展示了极高的参数效率,这对于降低企业部署AI编程助手的成本具有重要价值。最后,其MIT协议的开放性将进一步削弱技术壁垒,促进编程智能体技术在各种开发环境和工具链中的集成。

常见问题

问题 1:Ornith-1.0主要针对哪些编程场景进行了优化?

Ornith-1.0专门针对“智能体编程”(Agentic Coding)进行了优化。这包括在终端环境下的交互操作(Terminal-Bench)、解决真实的GitHub问题(SWE-bench)、从自然语言到仓库级代码的转换(NL2Repo)以及多语言编程环境。它不仅能写代码,还能像人类程序员一样思考解决问题的步骤。

问题 2:Ornith-1.0的自我进化是如何实现的?

它采用了一种基于强化学习(RL)的训练框架。该框架不仅训练模型生成最终的代码答案,还训练模型生成引导这些答案的逻辑结构(即脚手架)。通过联合优化这两者,模型能够自主发现更高效的解题路径,实现性能的自我提升。

问题 3:开发者可以免费商用Ornith-1.0吗?

是的。Ornith-1.0采用MIT许可协议发布,这是开源界最宽松的协议之一。开发者可以免费将其用于商业用途,且该模型明确表示没有地域限制,全球开发者均可访问。

相关新闻

LongCat-Flash-Prover开源:美团助力AI从“猜答案”迈向严谨数学定理证明
开源项目

LongCat-Flash-Prover开源:美团助力AI从“猜答案”迈向严谨数学定理证明

美团技术团队正式开源LongCat-Flash-Prover模型,旨在解决AI在数学定理证明中的严谨性难题。该模型专注于数学形式化与定理证明,强调逻辑链条的极端严苛性。相比于仅追求数值正确性的常规模型,LongCat-Flash-Prover致力于消除自然语言的歧义,确保证明过程的每一步都具备逻辑支撑,推动AI推理从简单的结果预测转向深度的严谨证明。

从月球漫步到赛博都市:美团开源WBench,定义交互式世界模型评测新标准
开源项目

从月球漫步到赛博都市:美团开源WBench,定义交互式世界模型评测新标准

美团LongCat团队正式开源WBench,这是全球首个针对交互式视频世界模型的系统性多轮评测基准。该工具被喻为世界模型的“CT扫描仪”,旨在精准识别模型在从传统的“被动观看”模式向“主动交互”模式转型过程中的技术瓶颈,为AI视频生成与交互领域提供了关键的度量工具。

美团开源海报生成AIGC技术体系:构建“生成-编辑-评判”闭环助力业务创新
开源项目

美团开源海报生成AIGC技术体系:构建“生成-编辑-评判”闭环助力业务创新

美团智能创作团队近日宣布开源其海报生成AIGC技术体系。该体系通过构建“生成-编辑-评判”的技术闭环,解决了AI创作中的可控性与质量评估难题。目前,该技术已在美团外卖、品牌IP等核心业务场景中成功落地,旨在通过自动化手段提升设计效率,并为行业提供可借鉴的智能创作解决方案。