
Editando imágenes con la voz El Androide Libre
Edita fotos con la voz o texto con esta impresionante inteligencia artificial gratuita de Google
La compañía ha estrenado una nueva IA de acceso libre que se puede usar desde el móvil para editar fotos de manera muy rápida y sencilla.
Más información: OpenAI reta a Google: actualiza ChatGPT y ya permite activarlo como el asistente de voz por defecto en tu móvil
La apuesta de Google por la inteligencia artificial está siendo enorme. No en vano la tecnología transformer, que es la esencia de la IA generativa, salió de sus laboratorios. Actualmente estamos viendo una fortísima integración en Android, como contaba Sameer Samat, presidente del ecosistema Android en Google, en una entrevista con EL ESPAÑOL - Omicrono.
Hemos pasado en poco tiempo de poder usar chatbots como ChatGPT en aplicaciones de escritorio a que Gemini se postule como el sucesor del Asistente de Google o que Samsung posicione Galaxy AI como el mayor elemento diferencial de sus nuevos smartphones. Y con éxito.
La revolución no sólo está siendo rápida, sino constante. Y empresas como Google siguen innovando, aunque las funciones más llamativas se prueban antes en entornos de desarrollo controlados para luego legar a aplicaciones y móviles. Un buen ejemplo es Google AI Studio, una plataforma diseñada para comenzar a compilar con Gemini, la familia de nueva generación de modelos de IA generativa multimodal de la filial de Alphabet.
Editando con la voz
Dentro de esta plataforma web la compañía prueba diferentes modelos de IA que se especializan en diferentes cosas. Uno de los últimos que ha puesto a disposición de usuarios y desarrolladores es Gemini 2.0 Flash (Image Generation) Experimental, centrado en edición y generación de imágenes. Este modelo es capaz de cambiar cosas de una imagen que subamos simplemente escribiendo o dictando lo que queremos.
Tanto en ordenadores como en móviles podemos usar el dictado por voz para crear complejas peticiones. Como se puede comprobar, con frases sencillas ya es posible cambiar elementos de una imagen, como si estuviéramos controlando Photoshop de manera remota y el programa hiciera lo que le pedimos.

Ejemeplo de IA controlada por texto El Androide Libre
En esta primera imagen, por ejemplo, hemos cambiado el color del jersey de una de las personas, y lo ha hecho de forma correcta y extremadamente rápida, ya que la ejecución del comando ha llevado entre 5 y 10 segundos. Eso sí, no siempre funciona bien.
Por ejemplo, el segundo comando ha sido decirle que le pusiera gafas de sol a las dos personas. Ha entendido lo que queríamos, pero no que lo queríamos en las dos personas, por lo que solo se las ha puesto al hombre. Si le pedimos que corrija y se las ponga a la mujer, extrañamente las quita de la otra persona. También hemos cambiado el fondo.

Ejemplo de IA controlada por texto El Androide Libre
Esto demuestra que en todo momento trabaja con la imagen original, ya que no tiene fallos al volver a quitar las gafas de la persona y mostrar su cara. Por supuesto, podemos seguir haciendo iteraciones sobre las modificaciones añadiendo cada vez más.
La cuestión es que, si detallamos mucho más la petición, expresamente diciendo que queremos unas gafas rojas en el caso de ella y unas azules en el caso de él, el sistema sí que lo entiende y lo hace. Está claro que aún es un sistema experimental, pero el funcionamiento es impresionante.

Ejemplo de IA controlada por texto El Androide Libre
Además de poder cambiar los colores o ciertos elementos de las imágenes, se pueden añadir otros con una consistencia muy fuerte. En el segundo ejemplo hemos cogido una fotografía de la catedral de Mallorca y le hemos pedido que añada un barco rojo.
El sistema ha entendido lo que queríamos y lo ha creado, pero además sabe que tenía que crear también el reflejo en el agua del mismo, porque es así como hubiera quedado en una fotografía real. Esto nos da una idea de la cantidad de decisiones autónomas que pueden tomar estos modelos con un simple comando.

Añadiendo elementos El Androide Libre
La interfaz de Google AI Studio no es complicada, pero no es tan sencilla como la de Gemini. Se nota que está pensada para un tipo de usuario más avanzado, sobre todo desarrolladores, y da herramientas que permiten modificar los resultados. Por ejemplo, podemos extraer el código de programación, cambiar el modelo o el formato de salida.
También es posible ver el número de tokens que ha usado un comando en concreto, o modificar los parámetros de seguridad para que el sistema no nos arroje imágenes que sean violentas o desagradables. En la parte superior, incluso podemos activar el modo comparación, que nos permite ejecutar un comando en dos modelos a la vez para ver qué diferencias arrojan.

Interfaz de Google AI Studio El Androide Libre
Creando historias
Este modelo de IA, Gemini 2.0 Flash (Image Generation) Experimental, tiene otras posibilidades además de editar imágenes. En la propia interfaz nos muestran que se pueden crear tarjetas de cumpleaños, por ejemplo, o una mucho más interesante, como es crear una historia en unas viñetas simplemente con un comando.
Lo que hace el sistema es crear sus propios comandos para cada viñeta, infiriendo lo que tiene que poner en base al comando original, que no tiene que ser ni especialmente concreto ni extenso. El resultado es un cuento con imágenes que se podría usar para contar por la noche a un niño, por ejemplo.

Interfaz de Google AI Studio El Androide Libre
Uno de los ejemplos que hemos creado es una historia sobre un fantasma que quiere escapar del infierno. Para quitarle un poco de hierro, las ilustraciones las hemos pedido en un estilo Pixel Art, como si fuera casi el storyboard de un juego de los años 80. El resultado es bastante convincente y mantiene la coherencia a lo largo de las creaciones de las distintas viñetas.
Pese a que todas estas herramientas son plenamente utilizables y de forma gratuita (sólo necesitamos una cuenta de Google para usar Google AI Studio), se harán masivas cuando se integren en los sistemas de la empresa, en aplicaciones como Google Drive o en Android a través de Gemini.