Google desarrolla una herramienta para Android que analiza las manos para entender los gestos y la lengua de signos

Invertia | EP

MADRID, 22 (Portaltic/EP)

Google ha desarrollado una herramienta para dispositivos móviles que percibe e interpreta los movimientos y los gestos realizadas con las manos en vídeo y en tiempo real que puede utilizarse para la interpretación de gestos e incluso del lenguaje de signos.

El equipo de investigadores de Inteligencia Artificial de Google ha presentado una función para móviles Android que a través de la cámara percibe los movimientos y las formas de las manos a través del aprendizaje automático. El sistema está basado en un rastreo de la palma y los dedos de la mano para luego detectar 21 puntos clave 3D de un solo fotograma.

Google ha empleado la plataforma de código abierto MediaPipe para desarrollar el proyecto de percepción y según la empresa el modelo podría "formar la base para la comprensión del lenguaje de signos", así como otras funciones orientadas a la realidad aumentada en las que las manos se superponen al contenido digital.

El sistema está basado en tres partes distintas: un detector de palmas que recorta la forma de la mano del fotograma, un modelo que detecta puntos de referencia en 3D de la imagen recortada y un detector de gestos que clasifica los puntos claves configurados previamente en un set de gesto.

Para detectar la forma de la palma de la mano emplean un modelo de detección de disparo único llamado BlazePalm, que trabaja en una variedad de tamaños de manos y tiene un alcance de gran escala en relación con el marco de la imagen. Además, es capaz de detectar manos tapadas o sobrepuestas y tiene una precisión del 95,7 por ciento, superando en casi diez puntos a los sistemas anteriores.

La falta de características físicas y contraste de color en las manos hace que sea relativamente difícil detectarlas de manera precisa por eso, que el modelo tenga contexto adicional, como las características del brazo, el cuerpo o la persona, ayuda la localización de las manos. Google ha empleado un detector de palma ya que en aprendizaje automático la detección de objetos rígidos como las palmas y los puños es más simple que detectar manos con dedos articulados.

En segundo lugar, tras la detección de la palma, el modelo de puntos de referencia localiza los 21 puntos clave 3D de nudillos y dedos dentro de las distintas regiones de la mano. Con estos puntos obtiene una representación de postura interna de la mano y funciona incluso con gestos parcialmente visibles y dedos autotapados.

Por último el modelo de aplica un algoritmo para descifrar los gestos que está realizando la mano. Primero se detecta la posición de los dedos: recto o doblado. Luego, comparan el conjunto de dedos con conjuntos de gestos predeterminados con el fin de identificar el gesto en cuestión. Por ahora el modelo incluye gestos de una variedad de culturas y varios signos de manos como los números, 'el dedo hacia arriba', 'OK', 'yeah', 'rock y el gesto de 'Spiderman'.