GLM-5V-Turbo
GLM-5V-Turbo: Z.AIが提供する革新的なマルチモーダル・コーディング基盤モデル
GLM-5V-Turboは、画像、ビデオ、テキストをネイティブに処理するZ.AI初のマルチモーダル・コーディングモデルです。200Kのコンテキスト長と128Kの出力トークンを誇り、ビジュアルベースのコーディング、GUI探索、長期的なプランニングに最適化されています。Claude Code等のエージェントと連携し、「環境理解・計画・実行」のサイクルを完結させる強力なエージェント性能を備えています。
2026-04-04
--K
GLM-5V-Turbo 製品情報
GLM-5V-Turbo:次世代のマルチモーダル・コーディング基盤モデル
GLM-5V-Turboは、Z.AIが開発した初のマルチモーダル・コーディング基盤モデルです。このモデルは、ビジョン(視覚)ベースのコーディングタスクに特化して設計されており、画像、ビデオ、テキスト、ファイルをネイティブに処理する能力を備えています。
What's GLM-5V-Turbo
GLM-5V-Turboは、単なる言語モデルを超え、複雑な「環境理解 → アクションプランニング → タスク実行」というループを完結させるために最適化されています。200Kのコンテキスト長と128Kの最大出力トークンをサポートし、Claude CodeやOpenClawといったエージェントワークフローとシームレスに連携します。
基本仕様
- ポジショニング: マルチモーダル・コーディングモデル
- 入力形式: ビデオ、画像、テキスト、ファイル
- 出力形式: テキスト
- コンテキスト長: 200,000トークン
- 最大出力トークン: 128,000トークン
Features (主な特徴)
GLM-5V-Turboは、4つのレイヤーにわたる系統的なアップグレードにより、高いパフォーマンスを実現しています。
1. ネイティブ・マルチモーダル・フュージョン
プリトレーニングからポストトレーニングまで、視覚とテキストのアライメントを継続的に強化。新しいCogViTビジョンエンコーダーと推論効率の高いMTPアーキテクチャを採用し、マルチモーダルの理解と推論効率を向上させています。
2. 思考モードとリアルタイム性
- Thinking Mode: シナリオに応じた複数の思考モードを提供し、深い推論を可能にします。
- ストリーミング出力: リアルタイムのストリーミングレスポンスにより、ユーザーインタラクションを向上させます。
3. 強力なツール連携とエージェント機能
- Function Calling: 外部ツールセットを呼び出し、複雑なアクションを実行。ボックス描画、スクリーンショット、ウェブページ閲覧などのマルチモーダルツールチェーンが拡張されました。
- コンテキスト・キャッシング: 長い会話におけるパフォーマンスを最適化するインテリジェントなキャッシュ機構を搭載。
4. 30種類以上のタスクによる強化学習
STEM、ビデオ、GUIエージェント、コーディングなど、30種類以上のタスクタイプで共同最適化。AndroidWorldやWebVoyagerといったGUI環境での操作ベンチマークでも優れた成績を収めています。
Use Case (活用シーン)
GLM-5V-Turboは、開発者やエージェント開発に幅広い可能性を提供します。
- フロントエンドの再構築: デザインモックアップの画像から、モバイルページやウェブサイトのコードを生成します。
- GUIの自律探索: 実際のGUI環境を理解し、ウェブ探索やアプリケーション操作を自律的に行います。
- 高度なデバッグ: コードのバグ修正や、複雑なロジックの解析をビジュアル情報を含めて実施します。
- ドキュメント理解: 膨大なファイルや画像ベースの資料から、必要な情報を抽出・要約します。
公式スキル (Official Skills)
GLM-5V-Turboは、以下の専門的なスキルも提供しています:
- 画像キャプション生成
- ビジュアル・グラウンディング(座標指定)
- 履歴書スクリーニング
- プロンプト生成
- ビデオオブジェクトトラッキング
How to Use (クイックスタート)
GLM-5V-TurboはAPIを通じて簡単に利用可能です。以下はcURLを使用した基本的な呼び出し例です。
基本的なAPI呼び出し
curl -X POST \
https://api.z.ai/api/paas/v4/chat/completions \
-H "Authorization: Bearer your-api-key" \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5v-turbo",
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://example.com/image.png"
}
},
{
"type": "text",
"text": "画像内のテーブルの上にある右から2番目のビール瓶はどこですか? [[xmin,ymin,xmax,ymax]] 形式で座標を教えてください。"
}
]
}
],
"thinking": {
"type":"enabled"
}
}'
FAQ
Q: GLM-5V-Turboはどのような入力形式に対応していますか?
A: 画像、ビデオ、テキスト、およびファイル入力に対応しています。
Q: 他のGLMモデルとの違いは何ですか?
A: GLM-5V-Turboは、特にマルチモーダルなコーディングとエージェントタスクに特化して最適化されており、ビジュアル情報をコードやアクションに変換する能力に長けています。
Q: 長い会話でも利用できますか?
A: はい、200Kのコンテキスト長をサポートしており、コンテキスト・キャッシング機能により長い対話でも効率的に処理できます。
Q: どのようなエージェントと連携できますか?
A: Claude CodeやOpenClawなどの主要なエージェントツールとシームレスに統合できるように設計されています。








