Z.ai (GLM-4.6V)

ネイティブ視覚機能呼び出しを備えたオープンウェイトマルチモーダルモデル

マルチモーダルAIオープンソース関数呼び出しコーディング支援視覚エージェント

102 閲覧

100 使用

LinkStart 総評

GLM-4.6Vは、オープンウェイトモデルのパラダイムを「視覚認識」から「視覚的自律性（Visual Agency）」へと移行させる画期的な存在です。Qwen-VLなどの競合他社が描写に重点を置く中、GLM-4.6Vは「行動」のために設計されており、ツール使用を視覚的推論チェーンに直接統合しています。これにより、UI操作や複雑なドキュメント処理を行う自律エージェントの開発において強力な武器となります。純粋なテキストコーディングでは専門モデルに及ばない場面もありますが、スクリーンショットをコードに変換する能力は開発者にとって魅力的です。

好きなポイント

視覚と行動を結びつけるネイティブな関数呼び出し機能
106Bと9Bの両バージョンでMITライセンスのオープンウェイト
視覚入力からのフロントエンドコーディング能力が非常に高い

注意点

純粋なテキストコーディングではGLM-4.5 Airに劣る場合がある
106Bモデルは非常に高いハードウェアスペックを要求する
llama.cppなどの初期ツールサポートが不安定な場合がある

について

GLM-4.6VはGLMシリーズの最新版であり、128kのコンテキストウィンドウと最先端の視覚理解機能を備えています。独自の特徴として、ツール使用を視覚モデルに直接統合しており、スクリーンショットやチャートなどの視覚入力に基づいてアクションを実行できます。106Bの基盤モデルと軽量な9B Flashバージョンの2種類が提供されています。

主な機能

✓ネイティブ視覚機能呼び出し
✓128kコンテキストウィンドウ
✓フロントエンド複製（スクショからコードへ）
✓デュアルモデルサイズ (106B & 9B)
✓画像テキスト交互生成

Z.ai (GLM-4.6V)

ネイティブ視覚機能呼び出しを備えたオープンウェイトマルチモーダルモデル

好きなポイント

注意点

について

主な機能

よくある質問