Quien nos iba a decir que una de las aplicaciones más innovadoras que llegase como exclusiva para un móvil iba a ser una simple grabadora de sonidos. Así lo pensaron en Google, que queriendo añadir machine learning a casi cualquier cosa, terminaron creando la grabadora de voz más sofisticada que existe.
Aunque pueda parecer que el funcionamiento es tan sencillo como grabar y transcribir texto, hay mucho más trabajo detrás. O eso es lo que nos cuentan los chicos de Google en su blog de inteligencia artificial.
Así funciona la grabadora de voz de los Google Pixel
Los Google Pixel 4 estrenaron una aplicación de grabadora de voz que es impresionante, aunque tiene la pega de que todo lo que tiene de espectacular actualmente sólo funciona en inglés. Aunque del mismo modo que se ha expandido al resto de móviles Pixel, también esperamos que termine llegando a más idiomas.
El primer componente de esta grabadora, y el más evidente, es la transcripción de audio. La transcripción de audio no es una nueva tecnología (y la utilizamos continuamente en el dictado de voz o en el asistente) pero Google ha conseguido perfeccionar dicha tecnología en un modelo neuronal capaz de funcionar sin conexión, siendo una aplicación práctica para las NPU que cada vez son más presentes en los procesadores móviles.
Conforme cada palabra es transcrita, es también indexada, asignándole un índice que nos permitirá saber en qué momento fue dicha, manteniendo un orden lógico para toda la grabación. Google asegura que su tecnología es capaz de grabar audio de forma fiable durante horas, por lo que dicha indexación también es útil para buscar una palabra o frase completa durante una larga grabación (imagina estar en clase y tener que buscar en qué momento de la grabación el profesor dijo algo concreto).
Además de la transcripción de sonido, la inteligencia artificial de esta aplicación hace un segundo análisis centrado en la clasificación. En la clasificación, la grabadora va reconociendo de forma continua si el sonido es una voz, música, el ladrido de un perro o un susurro.
Por si no fuera poco, la grabadora de voz hace un tercer análisis de nuestra grabación. Conforme va creando el texto, analiza el contenido del mismo para crear etiquetas de las palabras clave. Esas etiquetas serán ofrecidas como sugerencias para poner un título a la grabación, un añadido extra que nunca está de más tener.