Subtítulos portátiles para personas sordas cuando llevas mascarilla

Subtítulos portátiles para personas sordas cuando llevas mascarilla Deepgram- Kevin Lewis Omicrono

Tecnología

Este teleprónter casero pone subtítulos a lo que dices cuando llevas la mascarilla puesta

Kevin Lewis ha ideado un monitor que escribe lo que dice el usuario en tiempo real y detalla el proceso para hacerlo en casa.

31 enero, 2022 00:56

Noticias relacionadas

La imposibilidad que sufren muchas personas sordas o con problemas de audición de comunicarse por culpa de las mascarillas ha propiciado la creación de numerosas versiones transparentes. Incluso el CSIC en España ha diseñado su mascarilla para que deje leer los labios. Sin embargo, estos modelos no terminan de popularizarse, haciendo necesarias otras propuestas como esta pantalla portátil que genera subtítulos al momento. El modelo es al revés que un teleprónter de televisión. Aquí no se recita lo que pone la pantalla, sino que la pantalla escribe lo que se dice. 

Tomando el concepto de los subtítulos instantáneos generados por inteligencia artificial que usan plataformas como YouTube, el desarrollador Kevin Lewis ha diseñado este pequeño panel donde leer lo que la persona está narrando bajo la mascarilla. Su proyecto se basa en la tecnología de reconocimiento de voz de Deepgram, la empresa en la que trabaja, y también permite traducir la conversación en tiempo real a varias voces.

Al igual que ocurrió en los primeros meses de pandemia, una vez más el ingenio particular se convierte en un proyecto de código abierto que da respuesta a una necesidad para muchas personas y que se puede replicar en casa, sin depender de que una empresa lo comercialice por el mundo. Lewis explica en YouTube como fabricar su invento paso a paso.

Subtítulos en directo

En la calle, las oficinas o en televisión, se ven mascarillas de todos los colores, pero ninguna transparente y muchas personas reconocen tener problemas para comprender a los demás cuando hablan con ella puesta. Es comprensible, entonces, pensar en las dificultades a las que se enfrentan quienes dependían de leer los labios antes de la pandemia para entenderse con una población que conoce poco las lenguas de signos.

Aunque son muchas las personas que se enfrentan a este problema, no suelen ser escuchadas, por lo que facilitar que esta solución se pueda replicar de forma casera entre quienes la necesiten, es importante. El dispositivo cuenta con varias secciones y gracias a su condición de open source puede mejorarse con el tiempo.

Por un lado, Lewis muestra en sus redes sociales que es posible colocar en la pantalla tu nombre y una pequeña descripción personal, como las clásicas etiquetas de conferencias. Por otro lado, ha integrado distintas funciones de transcripción instantánea.

Además, de la transcripción instantánea de la conversación para que la persona con problemas de audición pueda distinguir mejor lo que se le está contando, el sistema cuenta con la posibilidad de redactar varias voces. Cada una se muestra con un color de letra distinto, dando más versatilidad al dispositivo.


Las herramientas de comunicación no terminan aquí, el usuario de Twitter y desarrollador de software en Microsoft, Tierney Cyren, sugirió a Lewis incluir la opción de traducir la conversación en el momento. Con esta cualidad, la pantalla podría servir para muchas otras situaciones en las que el idioma frena la conversación, al igual que han surgido múltiples aplicaciones de traducción instantánea.

Estos son de momento los diferentes usos que ofrece este invento, cuyo creador ha compartido las instrucciones y componentes necesarios para construir la pantalla en casa y que cualquier pueda seguir añadiéndole mejoras, la esencia de la comunidad maker.

Componentes necesarios

Los componetes cuestan aproximadamente 70 libras (unos 80 euros), aunque el proyecto al completo puede suponer ina inversión algo mayor, pero estaría al alcance de muchas personas. Hacerse con los componentes físicos es fácil y montarlos también, el proceso se complica algo a la hora de trabajar con el software de código abierto, pues requiere ciertos conocimientos de programación, aunque no muy avanzados.

Componentes para crear un monitor portátil con subtítulos

Componentes para crear un monitor portátil con subtítulos Deepgram- Kevin Lewis Omicrono

Entre los componentes que ha usado este desarrollador, los dos más importantes son la placa Raspberry Pi Zero 2 W y un monitor Hyperpixel 4 Touch. Además, se necesita un micrófono de solapa, una tarjeta microSD con RPI OS (sistema operativo de Raspberry) y una power bank para dotar de energía al equipo.

Es importante contar con la Raspberry Zero 2 en versión W, por ser el modelo que cuenta con conexión WiFi y Bluetooth, otra de sus ventajas es que es pequeña y barata, cuesta unos 15 dólares (14 euros) en la web de Raspberry. El monitor, por su parte, cuesta unas 49 libras (58 euros), no está disponible en Amazon. El resto de componentes pueden ser de distintos modelos y marcas, al gusto del usuario, aunque hay que asegurarse que los conectores coinciden con los puertos de la Raspberry Pi. 

Software open source

Tras conseguir el hardware, toca instalar los códigos y programas de inteligencia artificial para modular el sistema operativo del dispositivo. Lewis ha utilizado JavaScript y el software de Deepgram, una plataforma centrada en la transcripción instantánea.

Monitor con subtítulos para mascarilla Deepgram- Kevin Lewis

"Somos la única plataforma que aprende en función de los patrones fonéticos de las personas que llaman", así se describen en su página web. Hacen hincapié en la necesidad de que los modelos inteligentes basados en el aprendizaje profundo puedan distinguir entre acentos, voces y atributos vocales, algo que a los asistentes como el de Amazon o Google todavía les cuesta.

En el canal de YouTube de Deepgram, junto al tutorial de Lewis, se incluyen los enlaces de cada uno de los programas y drivers que se necesitan para dar vida al proyecto, como la API de Deepgram que cuesta 150 dólares (134 euros) o el software de traducción. 

Monitor portátil con subtítulos para mascarillas

Monitor portátil con subtítulos para mascarillas Deepgram-Kevin Lewis Omicrono

Para conseguir esta última función, Lewis ha usado la API de iTranslate, que puede traducir a más de 100 idiomas cualquier palabra frase o conversación. Este ingeniero, aclara que "la traducción es súper rápida, pero he decidido enviar solo frases transcritas "finales" para poder respetar los límites de la API de traducción. Podría obtener transcripciones inmediatas, pero luego estaría haciendo muchas más solicitudes".

Con esta tecnología, Lewis ha dado vida a este proyecto personal en pocos días compartiendo sus avances con otros usuarios en redes sociales. Sin embargo, el software que utiliza es el resultado de años de investigación y desarrollo que se han visto incrementados con la llegada de la pandemia y los confinamientos.

La transcripción instantánea ha despuntado en estos años en las aplicaciones de videollamadas, tan necesarias actualmente. El avance de la inteligencia artificial y los modelos de procesamiento del lenguaje para estas aplicaciones, asistentes virtuales y otras herramientas digitales han favorecido que hoy se puedan crear productos como el que hoy protagoniza este artículo. 

También te puede interesar...