ChatGPT y Gemini superados: Conoce la IA china que crea imágenes en segundos

Por
Qwen-VLo es un modelo de Alibaba que genera y edita imágenes al estilo de Ghibli o Pixar, similar a ChatGPT.

Alibaba ha lanzado un avanzado modelo de inteligencia artificial, denominado Qwen-Vlo, diseñado para competir con los líderes del sector. Este sistema multimodal es capaz de crear y modificar imágenes basadas en descripciones textuales, representando un avance significativo respecto a otros modelos como Imagen o el generador de ChatGPT.

En una entrada reciente en su blog, el grupo Alibaba ha introducido a Qwen-Vlo, un modelo unificado de comprensión y generación multimodal que maneja texto, imágenes, audio y vídeo. Este modelo se destaca principalmente por su capacidad de generar y editar imágenes de forma novedosa.

Según Alibaba, su inteligencia artificial comprende el entorno y es capaz de crear representaciones de alta fidelidad. Describen a Qwen-Vlo como una herramienta creativa de IA que facilita a los usuarios la elaboración de escenas complejas de manera gradual. Esta capacidad se basa en una técnica de generación progresiva, permitiendo a los usuarios observar la construcción de la imagen en tiempo real.

Leer  ¡Envía dinero al extranjero con Bizum ahora! Descubre cómo hacerlo fácilmente.

A diferencia de modelos como DALL-E y Stable Diffusion, que generan imágenes a partir de ruido aleatorio, Qwen-VLo desarrolla las imágenes paso a paso. Este método progresivo posibilita que se vea el proceso como si la propia IA estuviera dibujando en tiempo real, procediendo de izquierda a derecha y de arriba abajo. Este proceso comienza con una estructura básica o una imagen difuminada, sobre la cual se van superponiendo capas que añaden contornos, colores, texturas y detalles finales.

Qwen-VLo genera las imágenes paso a paso

La empresa afirma que esta técnica incrementa la transparencia para el usuario y le otorga la capacidad de editar la imagen mientras se genera. Qwen-VLo también puede alterar imágenes preexistentes, cambiando colores o estilos sin alterar la estructura base. Por ejemplo, es posible subir una fotografía y solicitar su conversión a estilo Ghibli o Pixar, similar a lo que hemos visto con ChatGPT hace algunos meses.

Entre otras habilidades, se incluyen cambiar fondos, añadir o eliminar elementos, transferir estilos o modificar la imagen mediante instrucciones en lenguaje natural. Qwen-VLo soporta múltiples idiomas, permitiendo que los prompts se redacten en español, inglés o chino. Alibaba asegura que su modelo elimina las barreras lingüísticas y garantiza resultados acordes a las expectativas del usuario.

Leer  ¡Impactante revelación de Xiaomi! Lanza MiMo, su versión de ChatGPT: ¿Superará a OpenAI?

Aunque Qwen-VLo no alcanza la calidad de Imagen o ChatGPT en términos de imágenes realistas, que tienden a ser excesivamente suavizadas, las creaciones al estilo Ghibli o Pixar son de alta calidad. Además, la IA de Alibaba brilla en otras áreas, como la detección y localización de objetos o la creación de composiciones a partir de múltiples entradas.

Qwen-VLo está actualmente en fase de prueba, por lo que aún puede generar imágenes con errores. Alibaba ha prometido ajustar el modelo sobre la marcha, apoyándose en los comentarios de los usuarios y en su propia tecnología subyacente para mejorar la comprensión y el desempeño del sistema.

4.8/5 - (36 votos)

Deja un comentario

Partages