Z.ai (GLM-4.6V)
Modelo multimodal de peso abierto con llamada de función visual nativa
GLM-4.6V marca una evolución significativa en el panorama de pesos abiertos, cambiando el paradigma de la 'Percepción Visual' a la 'Agencia Visual'. Mientras que competidores como Qwen-VL se centran en la descripción, GLM-4.6V está diseñado para la *acción*, integrando el uso de herramientas directamente en su cadena de razonamiento visual. Esto lo convierte en un potencial cambio de juego para desarrolladores que construyen agentes autónomos. Aunque en tareas de solo texto puede quedarse un poco atrás de su hermano especializado (GLM-4.5 Air), su capacidad para convertir capturas de pantalla de UI en código HTML/CSS lo convierte en una herramienta única.
Por qué nos encanta
- Verdadero puente entre visión y acción con llamada de función nativa
- Pesos abiertos con licencia MIT para versiones de 106B y 9B
- Capacidades excepcionales de codificación frontend a partir de entradas visuales
Lo que debes saber
- Escenarios de codificación de solo texto pueden ir a la zaga de GLM-4.5 Air
- Requisitos de hardware muy altos para el modelo de 106B
- El soporte inicial de herramientas (como llama.cpp) puede ser irregular
Acerca de
GLM-4.6V es la última iteración de la serie GLM, con una ventana de contexto de 128k y comprensión visual de vanguardia. De manera única, integra el uso de herramientas directamente en el modelo visual, permitiéndole ejecutar acciones basadas en entradas visuales como capturas de pantalla o gráficos.
Características Clave
- ✓Llamada de Función Visual Nativa
- ✓Ventana de Contexto de 128k
- ✓Replicación Frontend
- ✓Tamaños de Modelo Duales
- ✓Generación Intercalada de Imagen-Texto