Step 3.7 Flash

Step 3.7 Flash: 視覚・思考・行動を統合した、400 TPSの超高速・高能率エージェント型AIモデル

導入:

Step 3.7 Flashは、エージェントの効率性を追求した次世代の超高速AIモデルです。400 TPSのスループットを誇り、マルチモーダル理解、エージェント型コーディング、Web検索、複雑なツール操作を統合。Advisor Modeにより低コストで最高峰の性能を実現します。企業の自動化やGUI操作、専門的なデータ分析など、実用的なエージェント構築に不可欠な最新の基盤モデルです。

追加日:

2026-06-01

月間訪問者数:

--K

コードとIT

Step 3.7 Flash - AI Tool Screenshot and Interface Preview

Step 3.7 Flash 製品情報

Step 3.7 Flash - 視覚・思考・行動を統合した次世代の超高速エージェントAI

AIエージェントの新たなフロンティアは「効率性」にあります。2026年5月29日に発表された Step 3.7 Flash は、現実世界の課題を解決するエージェントのために設計された、高能率なフラッシュモデルです。

「See（見る）・Think（考える）・Act（行動する）」をコンセプトに掲げる Step 3.7 Flash は、最大 400 TPS (Tokens Per Second) という圧倒的な処理速度を誇り、マルチモーダル理解、Web・ビジュアル検索、そして信頼性の高いツール・オーケストレーションを単一のモデルで実現します。

Step 3.7 Flashとは

Step 3.7 Flash は、StepFunが提供するエージェント特化型の基盤モデルです。総パラメータ数196B（アクティブパラメータ11B）のMoEアーキテクチャを採用し、軽量モデルならではのスピードと、大規模モデルに匹敵する高度な推論・行動能力を両立させています。

従来のAIが単に質問に答えるだけだったのに対し、Step 3.7 Flash はデジタル世界において自律的に行動すること（Agentic capability）を目的に最適化されています。コーディング、ブラウジング、ターミナル操作、そしてGUI操作に至るまで、複雑なワークフローを長時間にわたって一貫性を保ちながら遂行することが可能です。

主要機能 (Features)

Step 3.7 Flash には、実社会のエージェント活用を支える4つの柱があります。

1. ネイティブなマルチモーダル理解と行動

Step 3.7 Flash は、UI、ドキュメント、チャート、自然界の風景など、幅広い画像を理解する能力を備えています。単に画像を説明するだけでなく、目にした情報に基づいてコードを記述したり、適切なツールを呼び出してアクションを起こしたりすることができます。

2. Webおよびビジュアル検索の強化

Web検索機能はより広範囲かつ深層まで到達し、複数のソースを統合して深掘りすることが可能です。また、ビジュアル検索機能により、他のシステムでは認識が困難なロングテールな実体や最新の概念までも正確に特定します。

3. 信頼性の高いツール利用とオーケストレーション

ターミナル、ブラウザ、Officeツール、検索エンジンなど、多様なツールを自在に操ります。Step 3.7 Flash は実行時間が長くなってもドリフト（目的からの逸脱）が少なく、ツール呼び出しの失敗やエラーを最小限に抑え、一貫した出力を提供します。

4. エージェント・エコシステムへの適合性

Claude Code、KiloCode、Hermes Agent、OpenClawといった主要なエージェント・ハーネスやスキルと互換性があります。これにより、既存のワークフローを大幅に書き換えることなく、低コストで統合することが可能です。

専門領域での活用事例 (Use Case)

エージェント型コーディングとAdvisor Mode

コーディングは、AIエージェントの能力を測る最も重要な指標です。Step 3.7 Flash は「計画・実行・観察・反復」のループを完璧にこなし、SWE-Bench Proで56.3%という高いスコアを記録しています。

特筆すべきは、Advisor Mode の導入です。これは Step 3.7 Flash がツール実行などの実作業（Executor）を担い、複雑な判断が必要なポイントでのみ上位の「アドバイザーモデル」に相談する仕組みです。これにより、Claude Opus 4.6の約9分の1のコストで、その97%に相当するパフォーマンスを実現しています。

エンタープライズ・タスクの自動化

企業実務において、Step 3.7 Flash は自律的なタスク遂行とドメイン固有の知識提供の両面で活躍します。

金融・会計・データ分析: 専門家レベルの知見を学習しており、複雑な書類やスプレッドシートを直接解析し、実行可能な計画を策定します。
製造・エンジニアリング: 生産スケジューリングや熱処理分析など、垂直統合的な知識が必要な現場でも高い精度を発揮します。

視覚ツールを用いた高度な推論

Step 3.7 Flash は「Pythonツール」を介して画像を操作（クロップ、ズーム、ピクセル描画など）する能力を持ち、HR-BenchやVisualProbeといった難易度の高い視覚ベンチマークで、自身の5倍以上の規模を持つモデルに匹敵する成績を収めています。

ベンチマーク・パフォーマンス

Step 3.7 Flash は、主要なフラッシュ級モデルおよびフロンティア級モデルと比較して、極めてバランスの取れた性能を示しています。

General Agent (ClawEval-1.1): 67.1%（DeepSeek V4 Flashの57.8%を上回る）
Multimodal (SimpleVQA): 79.2%（GPT 5.5の79.1%と同等）
Android Daily (GUI操作): 61.87%（Kimi K2.6やGLM 5V Turboを凌駕）
Coding (Terminal-Bench 2.1): 59.6%（Step 3.5 Flashから大幅進化）

これらの結果は、Step 3.7 Flash が単なる高速モデルではなく、極めて高い「知能の密度」を持っていることを証明しています。

導入と利用方法 (Availability)

Step 3.7 Flash は、多様なプラットフォームを通じて即座に利用可能です。

APIプラットフォーム: StepFun Open Platform (platform.stepfun.ai / .com)にて提供中。
外部サービス: OpenRouter、NVIDIA NIM、DeepInfra、Fireworks AIを通じて順次拡大予定。
ローカル展開: NVIDIA DGX Stationや、128GB以上のユニファイドメモリを搭載したMac Studio / MacBook Proなどの高メモリデバイスで実行可能です。
開発エコシステム: vLLM、SGLang、Hugging Face Transformers、llama.cppをサポート。また、NVIDIA NeMoエコシステム（AutoModel, Megatron Core等）にも対応しています。

よくある質問 (FAQ)

Q: Step 3.7 Flashの最大の特徴は何ですか？ A: 400 TPSという圧倒的なスピードを維持しながら、視覚理解と自律的な行動能力（エージェント機能）をネイティブに統合している点です。特に「Advisor Mode」による圧倒的なコストパフォーマンスが強みです。

Q: どのようなデバイスでローカル実行できますか？ A: NVIDIA DGX Stationや、AMD Ryzen AI Max+ 395搭載システム、または最低128GBのユニファイドメモリを備えたMacデバイスなどで展開可能です。

Q: 以前のモデル（Step 3.5 Flash）と比較して何が進化しましたか？ A: コーディング能力（SWE-Bench Proで+5%）、検索精度（HLE w. toolで+11.5%）、そしてGUI操作の安定性が大幅に向上しています。また、マルチモーダル（画像入力）への対応が追加されました。

Q: GUI操作はどの程度可能ですか？ A: Android Dailyベンチマークにおいて、他社の大型モデルを凌ぐ61.87%のスコアを記録しており、複数のアプリを跨ぐ長時間タスクも安定して遂行できます。

Step 3.7 Flash は、単なる言語モデルの枠を超え、デジタル空間で「見て、考え、動く」真のエージェント時代の到来を告げるモデルです。その圧倒的な効率性と実行力を、ぜひ貴社のビジネスやプロジェクトで体感してください。

Alternatives Tools

mectrics

mectrics - macOSメニューバー対応の軽量・オープンソースなシステムモニター

mectricsは、macOSのメニューバーでCPU、メモリ、ディスク、GPUなどの稼働状況をリアルタイムに監視できる軽量なオープンソースツールです。しきい値設定による通知機能やCLIツールを備え、プライバシーに配慮したローカル動作が特徴です。

コードとIT

SKI

SKI - コーディングエージェントと対話しながら開発できる次世代音声プログラミングツール

SKIは、コーディングエージェントと自然な声で対話しながら開発を進められる革新的な音声コーディングツールです。100%オンデバイスでの動作により、プライバシーを完全に保護しながら、音声認識と音声合成を実現。MacのノッチやWindowsのフローティングバーとして常駐し、会議の書き起こしやAIエージェントの参加機能も備えた、開発者のための次世代ハンズフリー体験を無料で提供します。

コードとIT

Claude Code usage tracking by LangWatch

Claude Codeの利用状況とコストを可視化するLLMエンジニアリングプラットフォーム「LangWatch」

LangWatchは、Claude CodeやCursorなどのAIエージェントの利用状況を詳細に追跡・分析できるLLMエンジニアリングプラットフォームです。トークン消費量、正確なAPIコスト、キャッシュヒット率、ツールの実行履歴をリアルタイムで可視化。OpenTelemetryを活用し、デバイスを跨いだトレース履歴の保存や、秘密情報の自動マスキングにも対応しています。AI開発の効率化とコスト管理を強力にサポートする、エンジニア必携のツールです。

コードとIT

Prefactor

Prefactor：AIエージェントの品質・リスクをリアルタイムで評価・制御する信頼性プラットフォーム

Prefactorは、AIエージェントの実行をリアルタイムでスコアリングし、品質、ドリフト、リスクを管理する革新的なプラットフォームです。単なる監視に留まらず、評価に基づいたリアルタイムの介入を可能にします。SDKやCLIを通じて既存のスタックに数分で導入でき、人間の介入や自動ブロック機能により、AIエージェントの信頼性を劇的に向上させます。開発から本番運用まで、エージェントのライフサイクルを統合管理します。

コードとIT

Lottie Creator 2.0

Lottie Creator：LottieFilesによる誰でも簡単にアニメーションが作れるツール

Lottie Creatorは、LottieFilesが提供する直感的なアニメーション制作ツールです。ブラウザ上で簡単にLottieアニメーションを作成・編集でき、コードの知識がなくてもプロフェッショナルな動きを実現。ウェブサイトやアプリのUX向上に不可欠な軽量アニメーションを、効率的に制作・カスタマイズするための決定版です。SEO対策にも最適な、次世代のクリエイティブソリューションを詳しく紹介します。

コードとIT

Claude Opus 5

Claude Opus 5 - Fable 5級の知性を半額で提供する、Anthropicの次世代最上位AIモデル

Claude Opus 5は、Claude Fable 5に迫る知性を半分のコストで提供する、Anthropicの最新AIモデルです。コーディング、知識作業、科学研究において業界最高水準の性能を誇り、自己修正能力や視覚的アウトプットも大幅に強化されています。高い安全性とコスト効率を両立し、企業のビジネス自動化から高度な研究開発まで幅広く対応する、次世代のデファクトスタンダードモデルです。

コードとIT

Openbase

Openbase - 音声で操作するエンジニア向け次世代AIコーディングIDE

Openbaseは、音声指示でコーディングエージェントを動かし、外出先でもスマホからコマンド承認やコードレビューが可能な「音声IDE」です。Macと連携し、CodexやClaude Code、Cursorといった最新AIスタックに対応。エンジニアがデスクに縛られず、効率的に開発を進めるための画期的なツールです。本記事ではその機能や使い方、活用シーンを詳しく解説します。

コードとIT

OpenComputer

OpenComputer: マネージドエージェントを最も簡単にデプロイ・管理できるプラットフォーム

OpenComputerは、インフラ構築不要でAIエージェントをデプロイ・運用できる最も簡単なツールです。常時稼働、実行中の操作、永続的なURL付与を特徴とし、Claude CodeやCursorなどの主要な開発環境とシームレスに統合。プロンプトを書くだけで、Slack連携やCron実行が可能な永続的エージェントを即座に構築できる、開発者に最適なマネージドサービスを提供します。

コードとIT

Loading related products...