Step 3.7 Flash
Step 3.7 Flash: 視覚・思考・行動を統合した、400 TPSの超高速・高能率エージェント型AIモデル
Step 3.7 Flashは、エージェントの効率性を追求した次世代の超高速AIモデルです。400 TPSのスループットを誇り、マルチモーダル理解、エージェント型コーディング、Web検索、複雑なツール操作を統合。Advisor Modeにより低コストで最高峰の性能を実現します。企業の自動化やGUI操作、専門的なデータ分析など、実用的なエージェント構築に不可欠な最新の基盤モデルです。
2026-06-01
--K
Step 3.7 Flash 製品情報
Step 3.7 Flash - 視覚・思考・行動を統合した次世代の超高速エージェントAI
AIエージェントの新たなフロンティアは「効率性」にあります。2026年5月29日に発表された Step 3.7 Flash は、現実世界の課題を解決するエージェントのために設計された、高能率なフラッシュモデルです。
「See(見る)・Think(考える)・Act(行動する)」をコンセプトに掲げる Step 3.7 Flash は、最大 400 TPS (Tokens Per Second) という圧倒的な処理速度を誇り、マルチモーダル理解、Web・ビジュアル検索、そして信頼性の高いツール・オーケストレーションを単一のモデルで実現します。
Step 3.7 Flashとは
Step 3.7 Flash は、StepFunが提供するエージェント特化型の基盤モデルです。総パラメータ数196B(アクティブパラメータ11B)のMoEアーキテクチャを採用し、軽量モデルならではのスピードと、大規模モデルに匹敵する高度な推論・行動能力を両立させています。
従来のAIが単に質問に答えるだけだったのに対し、Step 3.7 Flash はデジタル世界において自律的に行動すること(Agentic capability)を目的に最適化されています。コーディング、ブラウジング、ターミナル操作、そしてGUI操作に至るまで、複雑なワークフローを長時間にわたって一貫性を保ちながら遂行することが可能です。
主要機能 (Features)
Step 3.7 Flash には、実社会のエージェント活用を支える4つの柱があります。
1. ネイティブなマルチモーダル理解と行動
Step 3.7 Flash は、UI、ドキュメント、チャート、自然界の風景など、幅広い画像を理解する能力を備えています。単に画像を説明するだけでなく、目にした情報に基づいてコードを記述したり、適切なツールを呼び出してアクションを起こしたりすることができます。
2. Webおよびビジュアル検索の強化
Web検索機能はより広範囲かつ深層まで到達し、複数のソースを統合して深掘りすることが可能です。また、ビジュアル検索機能により、他のシステムでは認識が困難なロングテールな実体や最新の概念までも正確に特定します。
3. 信頼性の高いツール利用とオーケストレーション
ターミナル、ブラウザ、Officeツール、検索エンジンなど、多様なツールを自在に操ります。Step 3.7 Flash は実行時間が長くなってもドリフト(目的からの逸脱)が少なく、ツール呼び出しの失敗やエラーを最小限に抑え、一貫した出力を提供します。
4. エージェント・エコシステムへの適合性
Claude Code、KiloCode、Hermes Agent、OpenClawといった主要なエージェント・ハーネスやスキルと互換性があります。これにより、既存のワークフローを大幅に書き換えることなく、低コストで統合することが可能です。
専門領域での活用事例 (Use Case)
エージェント型コーディングとAdvisor Mode
コーディングは、AIエージェントの能力を測る最も重要な指標です。Step 3.7 Flash は「計画・実行・観察・反復」のループを完璧にこなし、SWE-Bench Proで56.3%という高いスコアを記録しています。
特筆すべきは、Advisor Mode の導入です。これは Step 3.7 Flash がツール実行などの実作業(Executor)を担い、複雑な判断が必要なポイントでのみ上位の「アドバイザーモデル」に相談する仕組みです。これにより、Claude Opus 4.6の約9分の1のコストで、その97%に相当するパフォーマンスを実現しています。
エンタープライズ・タスクの自動化
企業実務において、Step 3.7 Flash は自律的なタスク遂行とドメイン固有の知識提供の両面で活躍します。
- 金融・会計・データ分析: 専門家レベルの知見を学習しており、複雑な書類やスプレッドシートを直接解析し、実行可能な計画を策定します。
- 製造・エンジニアリング: 生産スケジューリングや熱処理分析など、垂直統合的な知識が必要な現場でも高い精度を発揮します。
視覚ツールを用いた高度な推論
Step 3.7 Flash は「Pythonツール」を介して画像を操作(クロップ、ズーム、ピクセル描画など)する能力を持ち、HR-BenchやVisualProbeといった難易度の高い視覚ベンチマークで、自身の5倍以上の規模を持つモデルに匹敵する成績を収めています。
ベンチマーク・パフォーマンス
Step 3.7 Flash は、主要なフラッシュ級モデルおよびフロンティア級モデルと比較して、極めてバランスの取れた性能を示しています。
- General Agent (ClawEval-1.1): 67.1%(DeepSeek V4 Flashの57.8%を上回る)
- Multimodal (SimpleVQA): 79.2%(GPT 5.5の79.1%と同等)
- Android Daily (GUI操作): 61.87%(Kimi K2.6やGLM 5V Turboを凌駕)
- Coding (Terminal-Bench 2.1): 59.6%(Step 3.5 Flashから大幅進化)
これらの結果は、Step 3.7 Flash が単なる高速モデルではなく、極めて高い「知能の密度」を持っていることを証明しています。
導入と利用方法 (Availability)
Step 3.7 Flash は、多様なプラットフォームを通じて即座に利用可能です。
- APIプラットフォーム: StepFun Open Platform (platform.stepfun.ai / .com)にて提供中。
- 外部サービス: OpenRouter、NVIDIA NIM、DeepInfra、Fireworks AIを通じて順次拡大予定。
- ローカル展開: NVIDIA DGX Stationや、128GB以上のユニファイドメモリを搭載したMac Studio / MacBook Proなどの高メモリデバイスで実行可能です。
- 開発エコシステム: vLLM、SGLang、Hugging Face Transformers、llama.cppをサポート。また、NVIDIA NeMoエコシステム(AutoModel, Megatron Core等)にも対応しています。
よくある質問 (FAQ)
Q: Step 3.7 Flashの最大の特徴は何ですか? A: 400 TPSという圧倒的なスピードを維持しながら、視覚理解と自律的な行動能力(エージェント機能)をネイティブに統合している点です。特に「Advisor Mode」による圧倒的なコストパフォーマンスが強みです。
Q: どのようなデバイスでローカル実行できますか? A: NVIDIA DGX Stationや、AMD Ryzen AI Max+ 395搭載システム、または最低128GBのユニファイドメモリを備えたMacデバイスなどで展開可能です。
Q: 以前のモデル(Step 3.5 Flash)と比較して何が進化しましたか? A: コーディング能力(SWE-Bench Proで+5%)、検索精度(HLE w. toolで+11.5%)、そしてGUI操作の安定性が大幅に向上しています。また、マルチモーダル(画像入力)への対応が追加されました。
Q: GUI操作はどの程度可能ですか? A: Android Dailyベンチマークにおいて、他社の大型モデルを凌ぐ61.87%のスコアを記録しており、複数のアプリを跨ぐ長時間タスクも安定して遂行できます。
Step 3.7 Flash は、単なる言語モデルの枠を超え、デジタル空間で「見て、考え、動く」真のエージェント時代の到来を告げるモデルです。その圧倒的な効率性と実行力を、ぜひ貴社のビジネスやプロジェクトで体感してください。








