Existe prácticamente un gran consenso en que la tecnología 5G será el habilitador necesario para el desarrollo del coche autónomo, basado en un continuo tráfago de datos entre la nube, los servidores centrales y en el edge y los propios sensores del vehículo sin conductor.
Parece que todos los implicados están de acuerdo… ¿Todos? No. En el CES virtual de Las Vegas resiste una aldea de ingenieros israelíes, que habla en nombre de Intel como su presentación más relevante del año, y propone una conducción autónoma basada en los 'sentidos ' de cámaras, radares y lidar, sin depender de servidores de datos. Pero paso a paso.
Se llama Mobileye. Nació en Israel en 1999 y fue comprada por Intel en 2017 por más de 15.000 millones de dólares.
Este año ha sido su fundador, presidente y CEO, a la vez que vicepresidente de Intel, Amnon Shashua, el encargado de la keynote principal (en formato de conversación) del gigante de los chips, desde “el garaje” de la compañía en Tel-Aviv.
Empezando con una explicación para el encargo: “Mobileye es un motor de crecimiento para la empresa, e Intel está totalmente comprometido con el negocio”.
Su visión del coche autónomo
Su propuesta tecnológica para el futuro automóvil sin conductor empieza por el uso de visión computerizada, con un tipo de cámara de diseño propio, que incluye un procesador para analizar lo que está viendo.
Todo cabe en un dispositivo del tamaño de un móvil, que puede venir de fábrica con el coche (en la actualidad los aplican en algunos modelos seis fabricantes, según Shashua), o instalarse en cualquier vehículo como un accesorio.
El CEO de Mobileye hace un planteamiento en el que juegan un papel tan importante la tecnología innovadora como la fórmula de negocio para ponerla al alcance del consumidor de tipo medio.
Hace año y medio, el director científico de Mobileye, Gideon Stein, explicó a este periodista, en la gala de los inventores de la Oficina Europea de Patentes, que el sistema de cámara detecta y “avisa de riesgos de colisión, salida del carril, luces de carretera altas y reconocimiento de señales de tráfico”.
Su procesador aplica un razonamiento de perspectiva: “Si conoces tu posición y sabes dónde está un objeto, tienes una delimitación para estimar la distancia. Y si mides con qué rapidez se expande la imagen, sabrás con qué inmediatez lo vas a golpear. Por ejemplo, si en un segundo se expande un 10%, significa que lo golpearás en unos diez segundos”.
Esas cámaras, que ahora viajan ya en cientos de miles, “tal vez un millón”, de coches por todo el planeta, dice Shashua, pueden recolectar datos para construir “un mapa de todo el mundo a la vez”, enviando información de unos ocho millones de kilómetros cada día. Aunque no es exactamente el tipo de mapa que usan los navegadores.
La cámara es presentada por Shashua como un sistema suficiente para un nivel 2 de conducción semiautónoma, con ayudas para el conductor durante la marcha, a la vez que va construyendo su mapeado mundial. Lo define uno de sus signos de distinción respecto a otros proyectos de coche robótico, denominándolo tecnología REM.
REM significa Road Experience Management, en condiciones de “escalabilidad geográfica” que, en su opinión, permite que su “política de conducción sea realmente transferible de territorio en territorio”.
Su modelo de implantación es “camara first”. La cámara como elemento básico. Luego, como otro sistema complementario, se plantea el uso de radares y lidar (detección de imagen por láser), contando para esto con el desarrollo de la estadounidense Luminar.
Lo primero es hacer funcionar un sistema y luego añadir el otro, para que trabajen de manera conjunta, en lo que llama “redundancia” para alcanzar opción de automatismo más avanzada.
Autónomo de verdad
Su idea de coche autónomo es… que sea autónomo. No dependiente del procesamiento de datos en tiempo real, en algún centro de datos conectado, que requiere comunicaciones de alta velocidad y gran ancho de banda.
“Cuando se piensa en la recopilación de datos de un coche, se puede pensar en dos usos. El primero que viene a la mente, el más natural, es la grabación de eventos inesperados: la esquina donde el conductor intervino [frenando, o en cualquier otra acción]. O decidir a través de otras mediciones que un evento es significativo. O directamente, grabarlo todo, para tener un catálogo de posibles sucesos”, detalla. Luego se aplica en la práctica el conocimiento adquirido. Y con el uso se va mejorando y mejorando, por pura “fuerza bruta” experimental.
El segundo uso que sugiere Shashua es recolectar datos para “entender las fuentes de problemas en la construcción de un sistema de percepción: objetos, vehículos, peatones, autobuses, ciclistas... La cantidad de datos necesarios para entrenar a una red de conocimiento profundo en reconocerlos es enorme. Pero en Mobileye superamos la capacidad humana de detectar coches y peatones hace años. No es un cuello de botella. Lo es entender la semántica del camino. Hay toneladas de datos semánticos en una carretera”.
Se refiere a entender medidas, distancias, señales, semáforos, líneas de la carretera, desvíos, cruces, prioridades, quién debe ceder el paso y qué ocurre “si yo tengo prioridad, pero el otro no cede el paso”. La probabilidad de hacerlo perfectamente mediante el criterio de recoger sucesos concretos, analizaron en su compañía, requeriría “trillones de coches” pasando por los puntos conflictivos.
Por eso su opción es recoger los datos de “la escena”, no de sucesos. Crear un mapa con toda la información semántica detallada y con “precisión al centímetro”.
Pero, además, que la “recopilación de información de los coches por donde pasan” pueda transmitirse con un limitado ancho de banda. “Si no, no convenceremos a los fabricantes de coches para cooperar y enviar los datos a la nube. El ancho de banda cuesta mucho dinero”.
Por eso establece un volumen de datos de 10 kilobytes por kilómetro rodado. Ni siquiera el tamaño de una foto, prácticamente nada.
Hace cinco años que anunciaron su programa de recogida de datos REM y desde hace medio año, dice, han alcanzado el punto de ser capaces de reunir las piezas “sin intervención manual”, para construir el mapa de alta definición.
“En la era pre Covid-19, si queríamos construir el mapa de un sitio específico enviábamos a 20 o 30 de nuestros mejores ingenieros. Pero viajar se hizo imposible. Así que para hacer el de Munich pusimos a dos empleados, no ingenieros sino de soporte al cliente. En un par de semanas, con un vehículo de prueba, fuimos capaz de mapear automáticamente 20.000 kilómetros, para mostrárselo a nuestros socios alemanes”.
“Esto nos hace creer que podemos escalarlo”, añade. “Así que planeamos hacerlo en China, en Shanghai, Tokio, París, Detroit… y, si conseguimos la regulación, también lo haremos en Nueva York. Todo, en cuestión de meses”.
En su discurso no aparece el sintagma ‘inteligencia artificial’. Pero establece comparaciones sobre el tipo de fallos admisibles para un conductor humano y un vehículo autónomo.
“Google descubrió que con unos 3,2 billones de millas [más de 5 billones de kilómetros] al año recorridas por coches en Estados Unidos, se producen seis millones de accidentes. Cada medio millón de millas hay un accidente. Y asumiendo que en la mitad de los casos es culpa tuya, causas un accidente cada millón...”, explica con números.
“Alcanzando el mismo rendimiento que el conductor humano, si desplegásemos 50.000 coches robóticos, saldría una media de un accidente cada hora por culpa propia. Desde un punto de vista de negocio sería insostenible. Y desde el punto de vista social, no habría legisladores que aprobasen eso. Hay que hacerlo mil veces mejor que un conductor”.
Aquí viene al caso otra de sus definiciones empresariales, lo que denominan RSS (Responsibility-Sensitive Safety), concepto que, asegura, están incluyendo en sus algoritmos.
“En esto es en lo que nos ayuda la redundancia”, aclara. “Si somos capaces de construir un sistema sólo con la cámara, con un tiempo entre fallos cada 10.000 horas, y luego añadimos radar y lidar, con el mismo tiempo entre fallos, es como llevar en el bolsillo un smartphone iOS y otro Android y preguntarse qué posibilidades hay de que ambos se averíen a la vez”.
“Por eso es tan importante empezar por un sistema sólo de cámara”, insiste.
El análisis lo hace desde la perspectiva de negocio: “Si construyes una tecnología que sólo es válida para el nivel 4 [en que el coche ya toma las decisiones en marcha, aunque supervisado por un conductor], tendrás que esperar a que tenga cierta implantación. Serán unos diez años, con ingresos cero. No es sostenible, a menos que sea un proyecto financiado por un gobierno”.
Pensar en el negocio
Shashua reitera que “hay que pensar en la tecnología, pero también en el negocio”, porque “es una carrera larga, no un proyecto de ciencias”. En septiembre del año próximo prevé la producción en masa de un coche fabricado en China por Geely, con un nivel 2 de conducción automática.
Se plantea un marco de tiempo en torno a 2025 para añadir el otro tipo de sensores. Un conglomerado de radares de imagen, “definida por software”, que ofrece “muchísima más resolución que los radares actuales”, y un lidar frontal, junto con la cámara, debería ser tecnología suficiente, en su opinión, para producir vehículos de nivel 4 a precios asequibles para el consumidor.
No obstante, Shashua se plantea como primer paso, antes de llegar a ese consumidor particular, lanzar una flota de “robotaxis”. Un vehículo cuya comercialización, por su finalidad será menos sensible al precio, y al que atribuye un papel disruptor “cuando sea ubicuo. Si eliminas al conductor de la ecuación, se puede reducir el coste de uso hasta rivalizar con el transporte público”.
Cree que empezará a verse en torno a 2025 y será una fase “muy útil, en el frente regulatorio, y con un volumen relativamente bajo, antes que lanzarse al agua fría de la gran fabricación de coches nivel 4”.
En cuanto al aspecto regulatorio, Mobileye insiste en que “los algoritmos deben ser transparentes, no pueden ser una salsa secreta”, y en la necesidad de trabajar directamente con los legisladores.
Subraya Shashua que, en la conducción, una cosa es conocer las normas de tráfico y otra ser prudente, cosa “que no se puede definir matemáticamente” como precisa un ordenador.
“Nuestra RSS sí lo define. Entendemos que las personas hacemos presunciones [al tomar decisiones] y lo replicamos matemáticamente, asumiendo el peor de los casos. Así tenemos una especie de ‘las tres leyes de la robótica de Asimov’, para definir lo que es temerario y lo prudente. Así sabes dónde está la línea divisoria para, simplemente, no cruzarla”.