ocr-texto-manuscrito

ocr-texto-manuscrito

Software

Los archivos secretos del Vaticano, desvelados por una Inteligencia Artificial

Un grupo de investigadores italianos ha creado un proyecto con el que digitalizar los archivos secretos del Vaticano. El programa se llama In Codice Ratio

5 mayo, 2018 20:00

Noticias relacionadas

Los Archivos Secretos del Vaticano son una de las mayores colecciones de documentos históricos del mundo. Son el hogar de más de 85 kilómetros de estanterías, con piezas que se remontan a más de 12 siglos en el pasado. Entre ellas, la bula de excomunión de Martín Lutero o los archivos de la Santa Inquisición.

El problema de esta enorme colección es que, a pesar de su tamaño, la mayoría no está digitalizada. Para indagar más a fondo en ella es necesario pedir un permiso especial, ir hasta Roma e ir revisando a mano cada documento. Sin embargo, un proyecto llamado In Codice Ratio podría cambiar todo eso.

Reconocimiento óptico para leer caracteres antiguos

In Codice Ratio ha sido desarrollado por científicos de la Universidad Tre de Roma, y utiliza una mezcla de inteligencia artificial y software de reconocimiento óptico de caracteres (OCR). El OCR lleva años usándose para escanear documentos, y ahora se ha adaptado para digitalizar los antiguos códices del Archivo.

Su funcionamiento es muy simple: “rompe” las palabras en una serie de letras buscando los espacios entre ellas. Después compara cada una con las que tiene en su banco de memoria y, después de decidir cuál se ajusta mejor a las letras que ha visto, transcribe el texto de un libro en la pantalla de un ordenador.

Sin embargo, este proceso sólo funciona bien con texto impreso. El texto manuscrito está conectado entre sí, por lo que el escáner OCR no puede encontrar espacios entre las letras. Algunos ingenieros intentaron solventar esto haciendo que reconociese palabras completas, pero no es viable.

La principal razón es la necesidad de enormes bancos de memoria; no se trata de reconocer caracteres individuales, sino palabras completas. Entonces, ¿cómo se ha solucionado el problema?

Adaptar el OCR a las necesidades del proyecto

escanear documentos iphone ipad ios 11 aplicacion notas

escanear documentos iphone ipad ios 11 aplicacion notas

 

Aunque pueda parecer una perogrullada, no ha sido fácil adaptar la tecnología de reconocimiento de caracteres a lo que los científicos necesitaban. La tarea ha supuesto recurrir a unos ayudantes inesperados: estudiantes de instituto.

Los impulsores de In Codice Ratio reclutaron estudiantes en 24 escuelas, que serían los encargados de construir los bancos de memoria del nuevo sistema. Para ello se los colocaba delante de un ordenador, se conectaban a una web y en ella encontraban una pantalla dividida en tres secciones:

in-codice-ratio

in-codice-ratio

En la primera de ellas se encuentran ejemplos legibles de una letra de un texto medieval en latín. La segunda contiene lo que los científicos han dado en llamar “falsos positivos”. La tercera es lo que el OCR ha devuelto, su intento de adivinar qué es lo que ha visto.

Después, los estudiantes tenían que juzgar si el OCR lo había hecho bien o no; comparando las tres líneas de la pantalla y marcando una casilla. Este procedimiento ha recibido el nombre de “segmentación en puzzle”. De esta manera, se ha construido un banco de memoria capaz de interpretar los trazos de una pluma.

Un porcentaje muy alto de aciertos

lovecraft manuscrito 1

lovecraft manuscrito 1

Llegó un momento en el que los estudiantes ya no eran necesarios. El software de In Codice Ratio ya era capaz de detectar letras manuscritas por sí solo. Ellos habían “enseñado” a la máquina, y ahora ella podía demostrar si realmente había aprendido algo.

Sin embargo, quedaba aún algo por solucionar: deserntrañar las letras conectadas del texto manuscrito. Los científicos decidieron enseñar al OCR algo de sentido común. Encontraron un corpus en latín con más de un millón de palabras ya digitalizado; las examinaron en grupos de dos y tres letras, dedujeron qué combinaciones son las más comunes y cuáles no se dan nunca.

Una vez se hubo introducido esto en el software, el OCR ya podía empezar a leer texto por su cuenta. Se pasaron más de 18.000 páginas de los Archivos por el programa y, aunque casi un tercio de lo que devolvió contenía errores tipográficos, en total logró un 96% de aciertos.

El software irá mejorando con el tiempo, conseguirá refinar sus imperfecciones y volverse todavía más preciso. El objetivo de In Codice Ratio es poder adaptarse para leer textos en otros idiomas además del latín. Las posibilidades que ofrece son asombrosas, así que tendremos que esperar para ver cómo evoluciona. Para saber más puedes consultar el documento publicado por los responsables del proyecto.