Step 3.7 Flash
Step 3.7 Flash:引领智能体效率新前沿的高效多模态大模型
Step 3.7 Flash 是一款专为智能体(Agent)打造的高效 Flash 模型,发布于 2026 年 5 月 29 日。它具备原生多模态理解能力,在 Agentic Coding、搜索增强及 GUI 自动化领域表现卓越。凭借每秒高达 400 TPS 的处理速度和独特的 Advisor Mode,该模型在显著降低成本的同时,实现了接近顶级闭源模型的性能。它是构建企业级、高可靠智能体生态的理想基座。
2026-06-01
--K
Step 3.7 Flash 产品信息
Step 3.7 Flash:重塑智能体效率的先锋多模态大模型
在人工智能技术飞速发展的 2026 年,智能体的效率已成为技术竞争的新前沿。Step 3.7 Flash 作为一款专为现实世界智能体打造的高效 Flash 级别模型,正式于 2026 年 5 月 29 日发布。其核心使命是通过“看(See)、思(Think)、行(Act)”的有机结合,为开发者和企业提供极致的推理速度与卓越的执行能力。
什么是 Step 3.7 Flash?
Step 3.7 Flash 是由 StepFun 研发的最新一代 Flash 级大模型。它不仅具备极高的吞吐量(最高可达 400 TPS),更在架构设计上专注于智能体(Agent)的实际应用需求。Step 3.7 Flash 被定位为智能体基座模型,旨在解决从感知到行动的闭环挑战,使其在复杂的数字化办公、软件工程及多模态交互场景中能够游刃有余。
“智能体效率是新一代模型竞争的关键。” Step 3.7 Flash 正是通过原生多模态理解与精准的工具调用,打破了传统模型在执行长链路任务时的瓶颈。
Step 3.7 Flash 核心功能特性
1. 原生多模态理解与行动能力
Step 3.7 Flash 能够跨范围理解多种图像类型,包括产品 UI 界面、各类文档、复杂图表以及自然场景。它不仅能“看懂”,还能在此基础上编写代码或调用相关工具进行响应,实现从感知到执行的无缝衔接。
2. 网页与视觉搜索增强
该模型在搜索深度与广度上进行了深度优化:
- 网页搜索:覆盖更多来源,支持更深层次的追问与信息过滤。
- 视觉搜索:能够识别竞争对手难以捕捉的“长尾实体”和刚出现的新概念,极大地增强了信息的实时性。
3. 可靠的工具调用与编排
Step 3.7 Flash 具备驱动终端(Terminal)、浏览器、Office 办公工具及搜索模块的能力。即便在长周期的运行任务中,也能保持高度的逻辑连贯性,减少了工具调用中断(Broken toolcalls)和任务失败的情况。
4. 智能体生态兼容性
为了降低集成成本,Step 3.7 Flash 深度适配了主流的智能体框架,如 Claude Code、KiloCode、Hermes Agent 和 OpenClaw。开发者无需大规模重构现有工作流即可快速接入。
核心技术:Agentic Coding 与 Advisor Mode
在 Agentic Coding(智能体编程)领域,Step 3.7 Flash 表现尤为突出。代码是数字化智能体执行“计划-执行-观察-迭代”闭环的最纯粹形式。相比于前代模型,Step 3.7 Flash 在 SWE-Bench Pro 上提升了 5%,在 Terminal-Bench 2.1 上提升了 6.1%。
Advisor Mode:平衡性能与成本
为了在保持 Flash 级别效率的同时追求极致质量,Step 3.7 Flash 引入了 Advisor Mode(顾问模式):
- 执行者模型:Step 3.7 Flash 负责全流程的端到端执行,包括调用工具和处理结果。
- 顾问模型:仅在规划受阻或遇到重复失败等关键拐点时,咨询更大规模的顾问模型。
这种策略使得 Step 3.7 Flash 能够以约 1/9 的成本(每项任务仅 $0.19,而 Claude Opus 4.6 需要 $1.76),达到顶级模型 97% 的编程性能,显著提升了生产环境下的投资回报率。
企业级应用与深层搜索行为
企业级任务优化
Step 3.7 Flash 针对企业办公环境进行了深度优化,尤其是在财务、会计和数据分析领域。通过与行业专家的深度合作,模型内置了专业知识。在 GDPval 职业评估中,它涵盖了 44 个职业场景,准确率达到 45.8%。
深度搜索与行为轨迹
在复杂的搜索任务中,Step 3.7 Flash 不再仅仅是 pack 知识,而是学会了如何“调用”知识。例如在法律冲突审查案例中,它能结合论文、官方规则和案例分析,捕捉到问题中隐藏的复杂陷阱,在 DeepSearchQA 任务中 F1 分数高达 92.82%。
视觉智能体:Agents That Can SEE
Step 3.7 Flash 强化了对视觉工具的调用能力:
- Python 工具集成:支持裁剪(Crop)、缩放(Zoom)、像素绘图及边界框定位。在 V* 视觉感知测试中获得 95.29% 的高分。
- GUI 操作:特别针对手机端(Phone-use)进行了优化。在 Android Daily 基准测试中,其稳定性和鲁棒性远超同类大尺寸模型,能够自主完成跨 App 的长链路任务。
使用场景 (Use Case)
- 自动化编程开发:通过集成到 IDE 中,自主修复代码漏洞、运行测试并迭代修复,适配各种主流智能体框架。
- 企业级知识工程:独立处理复杂的截图、文档和电子表格,生成可直接交付的研究报告或排程计划。
- 深度市场调研:利用增强型视觉搜索识别新奇产品,并结合网页搜索进行深度的竞争对手分析。
- 移动端自动化:在手机上执行跨 App 操作,如差旅规划、社交媒体管理等,支持从“草图”直接生成“网页”。
获取与部署方案
Step 3.7 Flash 提供灵活的部署选项:
- API 平台:通过
platform.stepfun.ai或OpenRouter接入。 - 本地化部署:支持在 NVIDIA DGX Station、AMD Ryzen AI Max+ 以及拥有 128GB 以上统一内存的 Mac Studio 上运行。
- 生态支持:全面兼容 vLLM、SGLang、llama.cpp 以及 NVIDIA NeMo 框架。
常见问题解答 (FAQ)
Q: Step 3.7 Flash 的处理速度有多快?
A: Step 3.7 Flash 在实际应用中最高支持 400 TPS,是目前市面上最高效的 Flash 级别模型之一。
Q: 什么是 Advisor Mode?它如何节省成本?
A: Advisor Mode 让 Step 3.7 Flash 作为主要执行者,仅在遇到难题时向更高级模型请教。这使得任务成本从传统顶级模型的 $1.76 降至 $0.19,降幅显著。
Q: 它支持中文界面和部署吗?
A: 是的,Step 3.7 Flash 完美支持中文与英文,并在国内 platform.stepfun.com 平台提供服务,支持多种国产及国际主流硬件环境部署。
Q: Step 3.7 Flash 能处理图形界面(GUI)吗?
A: 可以。它支持 GUI 视觉感知和动作执行,特别是在 Android 系统自动化操作方面表现优异,能自主完成跨应用的复杂交互任务。








