Así se entrena a la cámara del Pixel 3 para el espectacular modo retrato
Google nos muestra cómo se entrena a la cámara de los Google Pixel 3 para realizar un espectacular modo retrato con un solo sensor.
30 noviembre, 2018 07:33Google es posiblemente la empresa que más está avanzando dentro del terreno de la fotografía computacional, seguida muy de cerca por Huawei. Los chinos han optado por avanzar todo lo posible en software pero con músculo físico, con grandes sensores y usando varios a la vez. En Google sin embargo se centran en uno sólo y exprimen al máximo las posibilidades de su inteligencia artificial.
Esto es lo que han contado hoy en su blog de investigación, cómo aprende la nueva cámara de los Google Pixel 3 a desenfocar un retrato no pudiendo medir con dos sensores la profundidad de los elementos.
Ya vimos cómo el llamado modo estéreo era capaz de ver ligeras variaciones en el contorno de las personas siempre que estuvieran en primer plano. El problema es que esa forma de cálculo tiene ciertos límites dado que no siempre los objetos tras la persona están lo suficientemente lejos ni tienen la mejor forma posible.
En la imagen superior vemos la diferencia entre dos tomas que parecen idénticas. En el último fotograma, si nos fijamos bien, vemos la variación en un elemento que está tras el sujeto. Ese es el tipo de cosas que tiene que detectar el algoritmo de desenfoque.
Buscando más pistas en la imagen
Pero o siempre es suficiente con los datos obtenidos de una imagen estéreo, como las llama Google. A veces la inteligencia artificial necesita buscar pistas en el resto de la imagen y en eso es en lo que se ha centrado Google con el Pixel 3.
Por ejemplo, se han dado cuenta de que en las fotos los elementos que tenemos detrás salen menos definidos que los cercanos así que Google puede estimar la distancia también bajo esa premisa. Es lo que se llama una pista semántica.
Entrenando de manera manual a los algoritmos se crea una base de ejecución que luego se mejora con aprendizaje automático con muchas otras fotos.
Una funda para cinco móviles
Para avanzar lo mas rápido posible en Google han creado una funda para sus Pixel 3 muy particular. Tanto que es capaz de dar cabida nada menos que a cinco unidades a la vez. La idea es que vean la misma imagen desde puntos ligeramente diferentes para aprender las diferencias que hay y ponerlas en el algoritmo.
En la misma funda hay un dispositivo Wifi que permite subir las imágenes de los 5 móviles de forma simultánea con un retraso máximo entre ellas de 2 milisegundos. Con esas imágenes se crean las imágenes con mapas de profundidad. La idea es poder realizar fotos similares a las que hacemos nosotros en la vida real pero con todo el equipo de medición necesario, de ahí la portabilidad del sistema.
Esta forma de tomar fotos evita que la apertura de las fotografías varía y cause detecciones erróneas. Además, la alineación de las cámaras es la mejor posible para estudiar los resultados, permitiendo separar los sensores mucho más que en la vida real.
En la imagen superior vemos cual es el resultado de usar estos algoritmos en una imagen que previamente había usado una red neuronal par establecer los elementos que estaban más cerca del sujeto.