Streetview-numeros

Streetview-numeros

Omicrono

La red neuronal de Google que identifica los números de las casas en Street View

7 enero, 2014 21:22

Noticias relacionadas

Cuando se tiene acceso a tanta cantidad de información como la que tiene Google, es difícil gestionarla y procesarla sin gastar una enorme cantidad de recursos. Por ejemplo, pongamos el número de las casas en las calles de Google Street View; averiguar qué número pertenece a cada casa es mas complicado de lo que parece, ya que son detalles que normalmente no aparecen en los mapas sino que deben ser obtenidos procesando la imagen que obtiene.

Un problema mundial

 

En cada parte del mundo las casas están ordenadas de una manera diferente. A veces los números se refieren solo a los de una acera, otras veces van saltando de una acera a otra, y en otros lugares como Corea del Sur los números se ponen según el orden en el que se hayan construido las viviendas. Esto presenta una serie de desafíos cuando tienes un programa que se dedica específicamente a encontrar direcciones en todo el mundo como es Google Street View.

Redes neuronales que sustituyen a los humanos

Para ello, Google confía en una red neuronal compuesta por once unidades llamadas “neuronas”. La idea es que esta red aprenda cómo es un número de una casa, y sea capaz de encontrarlo, guardarlo y asociarlo a una posición en el mapa. Para el ser humano es fácil reconocer el número de una casa aunque su aspecto cambie entre barrios e incluso entre casas de una misma calle, pero para una máquina, o red de máquinas, no lo es tanto. Para ello, la red tarda unos seis días en “aprender” qué es un número basándose en una base de datos de mas de 200,000 ejemplos.

Este sistema tiene sus limitaciones. Por ejemplo, solo es capaz de reconocer el número si ya se ha establecido de antemano la zona en la que se encuentra, ya que recorrer todas las imágenes de Street View sería demasiado. Igualmente, el número no puede ser de mas de 5 dígitos, algo que no es un problema en la mayor parte del mundo.

Identificación de una pasada

¿Por qué 5 dígitos? Porque este sistema no detecta los números uno por uno y luego los junta, sino que el objetivo es localizar el número completo en la imagen e identificarlo, todo de una vez y por parte de una sola “neurona”. Esto permite darle una gran velocidad a un proceso que de otra manera sería demasiado largo y costoso. Google asegura que este sistema es capaz de localizar y procesar todos los números de Francia en apenas una hora.

Sin embargo, este sistema nunca podrá ser perfecto, básicamente porque ni siquiera los seres humanos lo son a la hora de reconocer números de casas. Los operadores humanos que ejecutan esta tarea tienen un índice de éxito del 98%, y ya que la red neuronal no tiene acceso a todas las imágenes sino solo a una selección, “solo” es capaz de llegar al 95% de éxito.

reCAPTCHA, la opción barata

recaptcha-numeros

recaptcha-numeros

¿Qué pasa con el 5% restante? Si alguna vez has tenido que demostrar que no eres un robot usando el sistema reCAPTCHA, seguramente ya sepas la respuesta. Y es que últimamente es muy común encontrar este tipo de fotografías de números de calle en el servicio propiedad de Google. Esa es la razón por la que siempre hay dos palabras en un captcha; solo uno de ellos es usado para comprobar que realmente somos humanos, el otro sirve para identificar un texto ilegible para Google. Es una estrategia que la casa madre ya emplea desde hace un tiempo para identificar palabras difíciles de reconocer de su programa de escaneo de libros.

Fuente | Technology Review | Paolo AC en Google+