Step 3.7 Flash
Step 3.7 Flash : Modèle IA multimodal ultra-rapide pour agents autonomes et codage agentique
Découvrez Step 3.7 Flash, le modèle IA haute efficacité de StepFun capable de 400 TPS. Idéal pour le codage agentique, l'orchestration d'outils et l'analyse visuelle, il surpasse les modèles Pro grâce à son mode Advisor innovant.
2026-06-01
--K
Step 3.7 Flash Informations sur le produit
Step 3.7 Flash : La Nouvelle Frontière de l'Efficacité des Agents Multimodaux
Lancé le 29 mai 2026, Step 3.7 Flash s'impose comme un modèle de fondation agentique révolutionnaire, conçu spécifiquement pour répondre aux exigences de rapidité et d'intelligence des agents autonomes du monde réel. Avec une vitesse de traitement impressionnante atteignant jusqu'à 400 TPS (tokens par seconde), Step 3.7 Flash incarne la philosophie : Voir. Penser. Agir.
Qu'est-ce que Step 3.7 Flash ?
Step 3.7 Flash est un modèle « Flash » à haute efficacité optimisé pour les agents IA. Alors que le domaine de l'intelligence artificielle passe de la simple réponse aux questions à l'exécution d'actions concrètes, Step 3.7 Flash se positionne comme le moteur principal de cette transition. Il combine une compréhension multimodale native avec une capacité d'action robuste, permettant de naviguer sur le web, d'utiliser des outils de productivité et de coder de manière autonome.
Comparé à ses prédécesseurs et à la concurrence, Step 3.7 Flash se distingue par son équilibre parfait entre performance de niveau « Frontier » et efficacité opérationnelle, réduisant considérablement les coûts sans sacrifier la fiabilité.
Caractéristiques Principales de Step 3.7 Flash
1. Compréhension et Action Multimodales Natives
Step 3.7 Flash possède la capacité innée de comprendre une vaste gamme d'images, allant des interfaces utilisateur (UI) de produits aux documents complexes, en passant par les graphiques et les scènes naturelles. Après analyse, le modèle peut écrire du code ou appeler des outils spécifiques pour interagir avec ce qu'il voit.
2. Amélioration de la Recherche Web et Visuelle
La recherche avec Step 3.7 Flash est plus profonde et plus étendue.
- Recherche Web : Explore davantage de sources avec un suivi rigoureux.
- Recherche Visuelle : Identifie des entités rares (long-tail) ou des concepts fraîchement émergents que d'autres systèmes ne reconnaissent pas.
3. Utilisation Fiable des Outils et Orchestration
Le modèle est capable de piloter des terminaux, des navigateurs, des outils de la suite Office et des moteurs de recherche. Step 3.7 Flash maintient une cohérence parfaite sur de longues sessions, réduisant les dérives, les appels d'outils interrompus et les échecs d'exécution.
4. Compatibilité avec l'Écosystème des Agents
Step 3.7 Flash s'intègre parfaitement aux frameworks et harnais populaires tels que Claude Code, KiloCode, Hermes Agent et OpenClaw. Cela permet une intégration rapide avec des coûts de développement réduits.
5. Mode Advisor (Conseiller)
Pour maximiser la qualité tout en conservant l'efficacité du niveau Flash, Step 3.7 Flash supporte le Mode Advisor. Dans cette configuration, le modèle gère l'exécution de bout en bout et ne consulte un modèle plus puissant qu'aux points d'inflexion critiques (échecs répétés, planification complexe). Cela permet d'atteindre 97 % des performances d'un modèle comme Claude Opus 4.6 pour seulement 1/9ème du coût par tâche ($0.19 contre $1.76).
Le Codage Agentique avec Step 3.7 Flash
Le codage est le substrat de l'agence numérique. Step 3.7 Flash a été massivement optimisé pour cette tâche. Par rapport à Step 3.5 Flash, il gagne +5 % sur SWE-Bench Pro et 6,1 % sur Terminal-Bench 2.1.
Le modèle excelle dans le cycle « Planifier–Exécuter–Observer–Itérer ». Dans les tests de production, Step 3.7 Flash se montre plus équilibré sur l'ensemble de la pile technologique (harnesses), réduisant l'écart de performance entre les différents outils de développement (Step-SWE-Bench moyen de 67,08 %).
Cas d'Utilisation de Step 3.7 Flash
Excellence en Milieu Entreprise
Step 3.7 Flash est conçu pour les tâches professionnelles autonomes dans des environnements dynamiques :
- Finance et Comptabilité : Analyse de rapports financiers et de feuilles de calcul denses.
- Analyse de Données : Extraction d'informations clés à partir de sources mixtes (textes et visuels).
- Planification de Production : Utilisation dans l'industrie manufacturière pour l'ordonnancement.
- Analyse de Traitement Thermique : Support à l'ingénierie complexe.
Capacités Visuelles Avancées
Le modèle utilise un espace d'action enrichi pour interagir avec les images (recadrage, zoom, dessin de pixels) via l'outil Python.
- Android Daily : Complétion de tâches sur plusieurs applications mobiles avec une stabilité accrue.
- Draft to Code : Transformation d'un brouillon visuel en code fonctionnel.
- Sketch to Web Page : Génération d'une page web à partir d'un simple croquis.
- Video to Summary : Synthèse de contenus vidéo.
Recherche Approfondie
Dans les benchmarks de recherche comme ResearchRubrics, Step 3.7 Flash obtient un score de 71,68 %, surpassant GPT 5.5. Il est capable de synthétiser des preuves provenant de documents juridiques, de manuels de cours et d'analyses de cas pour résoudre des problèmes complexes, comme les conflits d'intérêts juridiques.
Disponibilité et Déploiement
Disponibilité
Step 3.7 Flash est accessible via :
- StepFun Open Platform (global et Chine).
- OpenRouter et NVIDIA NIM.
- Partenariats à venir avec DeepInfra, Fireworks AI et Modal.
Déploiement Flexible
- Cloud et Data Center : Pour une production à grande échelle.
- Local et Station de travail : Compatible avec NVIDIA DGX Station, systèmes AMD Ryzen AI Max+ et Mac Studio (minimum 128 Go de mémoire unifiée).
Écosystème
Le modèle est supporté par les infrastructures open-source majeures : vLLM, SGLang, Hugging Face Transformers et llama.cpp. Il est également intégré à l'écosystème NVIDIA NeMo.
FAQ sur Step 3.7 Flash
Q : Quelle est la vitesse réelle de Step 3.7 Flash ? A : Le modèle peut atteindre jusqu'à 400 TPS (tokens par seconde), ce qui en fait l'un des modèles les plus rapides pour les déploiements d'agents en temps réel.
Q : Step 3.7 Flash est-il multimodal ? A : Oui, il possède une compréhension multimodale native (196B + 1.8B ViT) capable de traiter des images, des documents, des graphiques et des interfaces GUI.
Q : Qu'est-ce que le benchmark Terminal-Bench 2.1 ? A : C'est un test évaluant la capacité du modèle à utiliser un terminal. Step 3.7 Flash y obtient un score de 59,6 %, démontrant sa supériorité sur les versions précédentes.
Q : Le modèle peut-il fonctionner sans connexion cloud ? A : Oui, Step 3.7 Flash supporte le déploiement local sur des appareils haute performance disposant d'au moins 128 Go de mémoire unifiée.
Q : Comment le mode Advisor réduit-il les coûts ? A : En utilisant Step 3.7 Flash comme exécuteur principal pour la majorité de la tâche et en ne faisant appel à un modèle "Pro" plus coûteux que lorsque cela est strictement nécessaire, le coût par tâche chute de $1.76 à $0.19.








