Z.ai (GLM-4.6V)
ネイティブ視覚機能呼び出しを備えたオープンウェイトマルチモーダルモデル
マルチモーダルAIオープンソース関数呼び出しコーディング支援視覚エージェント
102 閲覧
100 使用
LinkStart 総評
GLM-4.6Vは、オープンウェイトモデルのパラダイムを「視覚認識」から「視覚的自律性(Visual Agency)」へと移行させる画期的な存在です。Qwen-VLなどの競合他社が描写に重点を置く中、GLM-4.6Vは「行動」のために設計されており、ツール使用を視覚的推論チェーンに直接統合しています。これにより、UI操作や複雑なドキュメント処理を行う自律エージェントの開発において強力な武器となります。純粋なテキストコーディングでは専門モデルに及ばない場面もありますが、スクリーンショットをコードに変換する能力は開発者にとって魅力的です。
好きなポイント
- 視覚と行動を結びつけるネイティブな関数呼び出し機能
- 106Bと9Bの両バージョンでMITライセンスのオープンウェイト
- 視覚入力からのフロントエンドコーディング能力が非常に高い
注意点
- 純粋なテキストコーディングではGLM-4.5 Airに劣る場合がある
- 106Bモデルは非常に高いハードウェアスペックを要求する
- llama.cppなどの初期ツールサポートが不安定な場合がある
について
GLM-4.6VはGLMシリーズの最新版であり、128kのコンテキストウィンドウと最先端の視覚理解機能を備えています。独自の特徴として、ツール使用を視覚モデルに直接統合しており、スクリーンショットやチャートなどの視覚入力に基づいてアクションを実行できます。106Bの基盤モデルと軽量な9B Flashバージョンの2種類が提供されています。
主な機能
- ✓ネイティブ視覚機能呼び出し
- ✓128kコンテキストウィンドウ
- ✓フロントエンド複製(スクショからコードへ)
- ✓デュアルモデルサイズ (106B & 9B)
- ✓画像テキスト交互生成