GLM-5V-Turbo favicon

GLM-5V-Turbo

GLM-5V-Turbo: Z.AIが提供する革新的なマルチモーダル・コーディング基盤モデル

導入:

GLM-5V-Turboは、画像、ビデオ、テキストをネイティブに処理するZ.AI初のマルチモーダル・コーディングモデルです。200Kのコンテキスト長と128Kの出力トークンを誇り、ビジュアルベースのコーディング、GUI探索、長期的なプランニングに最適化されています。Claude Code等のエージェントと連携し、「環境理解・計画・実行」のサイクルを完結させる強力なエージェント性能を備えています。

追加日:

2026-04-04

月間訪問者数:

--K

GLM-5V-Turbo - AI Tool Screenshot and Interface Preview

GLM-5V-Turbo 製品情報

GLM-5V-Turbo:次世代のマルチモーダル・コーディング基盤モデル

GLM-5V-Turboは、Z.AIが開発した初のマルチモーダル・コーディング基盤モデルです。このモデルは、ビジョン(視覚)ベースのコーディングタスクに特化して設計されており、画像、ビデオ、テキスト、ファイルをネイティブに処理する能力を備えています。

What's GLM-5V-Turbo

GLM-5V-Turboは、単なる言語モデルを超え、複雑な「環境理解 → アクションプランニング → タスク実行」というループを完結させるために最適化されています。200Kのコンテキスト長128Kの最大出力トークンをサポートし、Claude CodeやOpenClawといったエージェントワークフローとシームレスに連携します。

基本仕様

  • ポジショニング: マルチモーダル・コーディングモデル
  • 入力形式: ビデオ、画像、テキスト、ファイル
  • 出力形式: テキスト
  • コンテキスト長: 200,000トークン
  • 最大出力トークン: 128,000トークン

Features (主な特徴)

GLM-5V-Turboは、4つのレイヤーにわたる系統的なアップグレードにより、高いパフォーマンスを実現しています。

1. ネイティブ・マルチモーダル・フュージョン

プリトレーニングからポストトレーニングまで、視覚とテキストのアライメントを継続的に強化。新しいCogViTビジョンエンコーダーと推論効率の高いMTPアーキテクチャを採用し、マルチモーダルの理解と推論効率を向上させています。

2. 思考モードとリアルタイム性

  • Thinking Mode: シナリオに応じた複数の思考モードを提供し、深い推論を可能にします。
  • ストリーミング出力: リアルタイムのストリーミングレスポンスにより、ユーザーインタラクションを向上させます。

3. 強力なツール連携とエージェント機能

  • Function Calling: 外部ツールセットを呼び出し、複雑なアクションを実行。ボックス描画、スクリーンショット、ウェブページ閲覧などのマルチモーダルツールチェーンが拡張されました。
  • コンテキスト・キャッシング: 長い会話におけるパフォーマンスを最適化するインテリジェントなキャッシュ機構を搭載。

4. 30種類以上のタスクによる強化学習

STEM、ビデオ、GUIエージェント、コーディングなど、30種類以上のタスクタイプで共同最適化。AndroidWorldやWebVoyagerといったGUI環境での操作ベンチマークでも優れた成績を収めています。

Use Case (活用シーン)

GLM-5V-Turboは、開発者やエージェント開発に幅広い可能性を提供します。

  • フロントエンドの再構築: デザインモックアップの画像から、モバイルページやウェブサイトのコードを生成します。
  • GUIの自律探索: 実際のGUI環境を理解し、ウェブ探索やアプリケーション操作を自律的に行います。
  • 高度なデバッグ: コードのバグ修正や、複雑なロジックの解析をビジュアル情報を含めて実施します。
  • ドキュメント理解: 膨大なファイルや画像ベースの資料から、必要な情報を抽出・要約します。

公式スキル (Official Skills)

GLM-5V-Turboは、以下の専門的なスキルも提供しています:

  • 画像キャプション生成
  • ビジュアル・グラウンディング(座標指定)
  • 履歴書スクリーニング
  • プロンプト生成
  • ビデオオブジェクトトラッキング

How to Use (クイックスタート)

GLM-5V-TurboはAPIを通じて簡単に利用可能です。以下はcURLを使用した基本的な呼び出し例です。

基本的なAPI呼び出し

curl -X POST \
    https://api.z.ai/api/paas/v4/chat/completions \
    -H "Authorization: Bearer your-api-key" \
    -H "Content-Type: application/json" \
    -d '{
        "model": "glm-5v-turbo",
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "image_url",
                        "image_url": {
                        "url": "https://example.com/image.png"
                        }
                    },
                    {
                        "type": "text",
                        "text": "画像内のテーブルの上にある右から2番目のビール瓶はどこですか? [[xmin,ymin,xmax,ymax]] 形式で座標を教えてください。"
                    }
                ]
            }
        ],
        "thinking": {
            "type":"enabled"
        }
    }'

FAQ

Q: GLM-5V-Turboはどのような入力形式に対応していますか?

A: 画像、ビデオ、テキスト、およびファイル入力に対応しています。

Q: 他のGLMモデルとの違いは何ですか?

A: GLM-5V-Turboは、特にマルチモーダルなコーディングとエージェントタスクに特化して最適化されており、ビジュアル情報をコードやアクションに変換する能力に長けています。

Q: 長い会話でも利用できますか?

A: はい、200Kのコンテキスト長をサポートしており、コンテキスト・キャッシング機能により長い対話でも効率的に処理できます。

Q: どのようなエージェントと連携できますか?

A: Claude CodeやOpenClawなどの主要なエージェントツールとシームレスに統合できるように設計されています。

Loading related products...