Base multimodal unificada (fusión temprana)
Visión y lenguaje se optimizan en un mismo espacio de representación, reduciendo desajustes de plantillas y pérdidas de información frente a pipelines de dos etapas; facilita conectar visión directamente con razonamiento y acciones.
