Amazon presenta Titan: así es su generación de imágenes por IA que se enfrenta a Stable Diffusion y DALL-E

Manuel Ramírez

Amazon justo después de presentar su alternativa a ChatGPT ha mostrado su nueva herramienta para la generación de imágenes por IA, Titan. De esta manera se sube directamente a la tendencia actual de herramientas dedicadas a la creación de imágenes desde texto con el objetivo puesto en DALL-E de OpenAI y las soluciones de Adobe con Firefly, Stable Diffusion y Midjourney entre otras.

No son pocos los gigantes tecnológicos que están lanzando sus propias propuestas para no perder de vista a los que golpearon primero sobre la mesa de la generación de imágenes con inteligencia artificial. A bien seguro que llegarán otros como la misma Apple, que va un poco por detrás en esta carrera, tanto en la de imágenes como en la de ofrecer su propio chatbot.

Hay un punto en Titan que lo diferencia del resto de alternativas al ser una IA generativa para imágenes dedicada principalmente al entorno empresarial o corporativo. No quita que intente mejorar algunas de las carencias del resto de soluciones como la capacidad de ocultar el sistema de marca de agua para evitar el plagio, la capacidad de editar imágenes usando prompts de texto y optimizar el sistema usando un repositorio local para asegurarse que las imágenes siguen un lenguaje de diseño basado en la marca.

Imagen de dos de los modos de Titan de Amazon Slash Gear El Androide libre

Las distorsiones son otro de los aspectos en los que ha trabajado Amazon para que Titan reduzca al máximo la posible generación de imágenes Frankenstein; aquellas en las que se distorsiona la mirada, aparecen más manos de lo normal o los dedos no tienen una lógica cuando sujetan una copa o simplemente forman parte del gesto del abrazo en una imagen.

El gigante de las tiendas online también se vanagloria de la capacidad de su herramienta para procesar prompts complejos en los que se detalle múltiples objetos y se tenga que generar una serie de variaciones. Lo resume así: "grandes volúmenes a bajo coste", la clave de Titan de Amazon para que así la compañía se establezca con un nombre entre creadores de contenido, publicidad, venta online y todo el entorno relacionado con los medios.

Las claves de Titan

Mientras que otras soluciones como Midjourney se dedican más a la generación de imágenes desde cero, aunque sí hay vías de poder acceder a esta generación, según Slash Gear, la de Amazon ofrece varios modos:

Titan ofrece un gran rango de capacidades para la edición de imágenes con IA.
Uso de prompts de texto para modificar la imagen gracias a un modelo de segmentación integrado.
Este modelo permite editar una imagen con una máscara y alterar el fondo usado o incluso usar extensiones (lo que Adobe llama como relleno generativo en Photoshop).
Los cuatro modos son estos: edición automática con prompts, Inpainting para editar partes de una imagen, Outpainting para sustituir el fondo y Generative Re-sizing para añadir detalles extras o incluso extender la cola de una iguana con IA.

Titan lo que hace es traer todo lo que ofrecen el resto de soluciones y así incluso distanciarse de DALL-E de OpenAI que de momento no es capaz de procesar imágenes locales o propias. Titan tiene sus limitaciones, ya que en un principio solo está disponible en inglés y solo se puede acceder desde Amazon Bedrock.

El Español

Amazon presenta Titan: así es su generación de imágenes por IA que se enfrenta a Stable Diffusion y DALL-E

Firefly de Adobe o Midjourney ya tienen a otro competidor que es capaz de reducir la distorsión en lo llamado como imágenes <em>Frankenstein</em>.

Las claves de Titan

Te puede interesar