Z.ai (GLM-4.6V)

Modelo multimodal de peso abierto con llamada de función visual nativa

IA MultimodalCódigo AbiertoLlamada de FunciónAsistente de CódigoAgente Visual

102 vistas

100 usos

Veredicto de LinkStart

GLM-4.6V marca una evolución significativa en el panorama de pesos abiertos, cambiando el paradigma de la 'Percepción Visual' a la 'Agencia Visual'. Mientras que competidores como Qwen-VL se centran en la descripción, GLM-4.6V está diseñado para la *acción*, integrando el uso de herramientas directamente en su cadena de razonamiento visual. Esto lo convierte en un potencial cambio de juego para desarrolladores que construyen agentes autónomos. Aunque en tareas de solo texto puede quedarse un poco atrás de su hermano especializado (GLM-4.5 Air), su capacidad para convertir capturas de pantalla de UI en código HTML/CSS lo convierte en una herramienta única.

Por qué nos encanta

Verdadero puente entre visión y acción con llamada de función nativa
Pesos abiertos con licencia MIT para versiones de 106B y 9B
Capacidades excepcionales de codificación frontend a partir de entradas visuales

Lo que debes saber

Escenarios de codificación de solo texto pueden ir a la zaga de GLM-4.5 Air
Requisitos de hardware muy altos para el modelo de 106B
El soporte inicial de herramientas (como llama.cpp) puede ser irregular

Acerca de

GLM-4.6V es la última iteración de la serie GLM, con una ventana de contexto de 128k y comprensión visual de vanguardia. De manera única, integra el uso de herramientas directamente en el modelo visual, permitiéndole ejecutar acciones basadas en entradas visuales como capturas de pantalla o gráficos.

Características Clave

✓Llamada de Función Visual Nativa
✓Ventana de Contexto de 128k
✓Replicación Frontend
✓Tamaños de Modelo Duales
✓Generación Intercalada de Imagen-Texto