Ornith-1.0开源编程智能体发布：基于RL自我进化，性能超越同类模型

Ornith-1.0是由deepreinforce-ai推出的开源自我进化编程智能体模型系列，涵盖9B到397B多种规模。该模型基于Gemma 4和Qwen 3.5构建，采用创新的强化学习（RL）框架，通过联合优化脚手架（scaffold）与解决方案，实现了在Terminal-Bench、SWE-Bench等多个编程基准测试中的领先表现。Ornith-1.0采用MIT协议，旨在为全球开发者提供高性能、无地域限制的智能编程工具。

核心要点

多规模模型矩阵：Ornith-1.0提供9B-Dense、31B-Dense、35B-MoE以及397B-MoE四种版本，满足不同算力需求。
自我进化训练框架：利用强化学习（RL）不仅优化解决方案，还同步优化驱动方案生成的脚手架（scaffold），提升搜索轨迹质量。
卓越的基准表现：在Terminal-Bench 2.1、SWE-Bench、NL2Repo等权威编程测试中，性能均优于同规模的开源模型。
完全开源与全球化：采用MIT许可协议，全球范围内可自由访问，无任何地域限制。
强大的底座支持：模型是在Gemma 4和Qwen 3.5的基础上进行后期训练（post-trained）而成。

详细分析

多规模模型矩阵与卓越基准表现

Ornith-1.0系列模型展示了在智能编程（Agentic Coding）领域的强大竞争力。该系列涵盖了从轻量级的9B-Dense到超大规模的397B-MoE等多种架构。根据发布的数据，Ornith-1.0在多个核心基准测试中均取得了同类模型中的最优成绩（State-of-the-Art）。

在Terminal-Bench 2.1（Terminus-2）测试中，Ornith-1.0-9B版本得分达到43.1，远超Qwen3.5-9B的21.3；而Ornith-1.0-35B版本更是取得了64.2的高分，甚至超过了规模更大的Qwen3.5-397B（53.5分）。在备受关注的SWE-bench Verified测试中，Ornith-1.0-35B取得了75.6的成绩，优于Qwen3.5-35B的70。这些数据表明，通过精细的后期训练和架构优化，Ornith-1.0在处理复杂的软件工程任务、多语言编程以及仓库级代码理解（NL2Repo）方面具有显著优势。

强化学习驱动的自我进化机制

Ornith-1.0的核心竞争力源于其独特的“自我进化训练框架”。与传统仅关注最终代码产出的训练方式不同，Ornith-1.0采用了强化学习（RL）来同时学习生成解决方案的“展开过程”（rollouts）以及驱动这些过程的“脚手架”（scaffold）。

这种联合优化机制允许模型在训练过程中发现更优的搜索路径。通过不断迭代，模型能够识别哪些思考步骤和中间环节能导向更高质量的代码方案。这种“脚手架”与“方案”的协同进化，使得Ornith-1.0在面对未见过的编程难题时，能够展现出更强的逻辑推理能力和自主纠错能力，从而在Agentic Coding（智能体编程）任务中表现出色。

开源生态与全球可访问性

在当前AI模型竞争日益激烈的背景下，Ornith-1.0坚持了彻底的开源路线。该模型采用MIT许可协议，这意味着全球的开发者、研究机构和企业都可以自由地下载、使用、修改并分发该模型，而无需担心复杂的版权约束或地域限制。

Ornith-1.0基于Gemma 4和Qwen 3.5这两个优秀的底座模型进行开发，充分吸收了现有大模型的语言理解能力，并针对编程场景进行了深度强化。这种基于成熟底座进行二次创新的模式，不仅保证了模型的基础素质，也为开源社区贡献了高质量的垂直领域模型，有助于推动全球范围内自动化软件工程技术的发展。

行业影响

Ornith-1.0的发布对AI编程行业具有深远意义。首先，它证明了通过强化学习优化“思考过程”（脚手架）是提升编程智能体性能的有效路径，这可能引发行业内对训练方法论的新一轮讨论。其次，Ornith-1.0以较小的参数规模（如35B）在多项指标上超越了参数量大得多的模型，展示了极高的参数效率，这对于降低企业部署AI编程助手的成本具有重要价值。最后，其MIT协议的开放性将进一步削弱技术壁垒，促进编程智能体技术在各种开发环境和工具链中的集成。

常见问题

问题 1：Ornith-1.0主要针对哪些编程场景进行了优化？

Ornith-1.0专门针对“智能体编程”（Agentic Coding）进行了优化。这包括在终端环境下的交互操作（Terminal-Bench）、解决真实的GitHub问题（SWE-bench）、从自然语言到仓库级代码的转换（NL2Repo）以及多语言编程环境。它不仅能写代码，还能像人类程序员一样思考解决问题的步骤。

问题 2：Ornith-1.0的自我进化是如何实现的？

它采用了一种基于强化学习（RL）的训练框架。该框架不仅训练模型生成最终的代码答案，还训练模型生成引导这些答案的逻辑结构（即脚手架）。通过联合优化这两者，模型能够自主发现更高效的解题路径，实现性能的自我提升。

问题 3：开发者可以免费商用Ornith-1.0吗？

是的。Ornith-1.0采用MIT许可协议发布，这是开源界最宽松的协议之一。开发者可以免费将其用于商业用途，且该模型明确表示没有地域限制，全球开发者均可访问。

Ornith-1.0发布：开源自我进化编程智能体模型，刷新多项SOTA纪录