Tim Cook durante la WWDC 24

Tim Cook durante la WWDC 24 Reuters Omicrono

Tecnología

Apple y Nvidia colaboran para acelerar las respuestas de la IA: esta es la técnica que han usado con los chips TensorRT-LLM

Marta Sanz
Publicada

En inteligencia artificial no todo el peso está en los grandes volúmenes de datos, la industria está volcada en la búsqueda de nuevas técnicas que ofrezcan respuestas más rápidas y eficaces. ChatGPT de OpenAI ha demostrado que puede contestar razonando al seleccionar entre múltiples secuencias de palabras. Por otro lado, Apple y Nvidia han anunciado una colaboración que acelera la inferencia de los largos modelos de lenguaje en los que se sustenta esta tecnología. 

Al mismo tiempo que despliega nuevas funciones para Apple Intelligence en los iPhones y demás dispositivos, la empresa dirigida por Tim Cook sigue estudiando y desarrollando sus propias mejoras en IA, para en el futuro no depender de terceros como ChatGPT. Su último trabajo de investigación con los chips de Nvidia es una buena muestra de ello.

La inferencia es la capacidad de un modelo de IA para inferir o extrapolar conclusiones a partir de datos nuevos. Apple asegura que puede acelerarla al integrar ReDrafter con las GPU de Nvidia, entre otras mejoras.

La empresa de Cupertino ha detallado su colaboración con NVIDIA en la mejora del rendimiento de los grandes modelos de lenguaje natural o LLM, que son la base de los chatbots y aplicaciones de IA. Ambos gigantes trabajan en la implementación de una nueva técnica de generación de texto que se traduce en una mayor velocidad de respuesta de estas aplicaciones.

El logro se ha conseguido con Recurrent Drafter (ReDrafter) un nuevo enfoque que combina estas dos tecnologías El beam search es una técnica que explora múltiples secuencias de posibles respuestas para ofrecer un mejor resultado. A su vez, la Tree Attention organiza y elimina las superposiciones redundantes entre estas secuencias para mejorar la eficiencia.

Este enfoque se aplicó primero con los chips Silicon de Apple, ahora ambas empresas informan del avance conseguido con TensorRT-LLM de NVIDIA. La integración ofrece un aumento de velocidad de 2,7 veces en los tokens generados por segundo durante las pruebas con un modelo de producción que contenía decenas de miles de millones de parámetros. También una aceleración en la generación de tokens LLM en hasta 3,5 tokens por paso para modelos de código abierto, "superando el rendimiento de las técnicas de decodificación especulativa anteriores", asegura Apple en el informe.

El fabricante de los iPhone afirma que esta mejora de rendimiento reduce la latencia que percibe el usuario cuando hace una petición a la IA. Pero, además, se reduce el uso de la GPU y el consumo de energía. Nvidia es el rey actual de los procesadores para entrenar y ejecutar LLM y Apple trabaja tanto con esta marca como con Amazon para seguir poniéndose al día frente a Google y OpenIA que están al frente de la carrera de la IA.