El Proxecto Nós, que desarrollan el Centro Singular de Investigación en Tecnoloxías Intelixentes de la USC (CiTIUS) y el Instituto da Lingua Galega (ILG) – ambos de la USC -, han anunciado la creación de ‘Carballo‘, el primer modelo de lenguaje a gran escala de alta calidad en gallego, que permitirá la creación de nuevas herramientas y aplicaciones de Inteligencia Artificial generativa en este idioma.
Según explica la USC en un comunicado, Carballo es un modelo de lenguaje de gran escala, "el mayor creado nunca para el gallego", fundacional para "construir herramientas versátiles y de muy alta calidad mediante IA generativa con tecnología lingüística, como chatbots, traductores o correctores automáticos".
Señalan que dentro del proceso de desarrollo, Carballo "precisa aún de pequeñas adaptaciones técnicas" para convertirse en un sistema de diálogo con el que poder mantener una conversación fluida y ofrecer respuestas automáticas con una interacción sencilla e intuitiva. Se trata de la primera pieza orientada al desarrollo posterior de herramientas que puedan ser utilizadas directamente por el público, a modo del conocido ChatGPT.
Carballo es fruto de dos proyectos de investigación: Nós, impulsado por la Xunta de Galicia, e Ilenia, promovido por el Ministerio para la Transformación Digital y de la Función Pública para el impulso de todas las lenguas oficiales del Estado. El modelo gallego está basado en ‘Flor1.3’, el modelo homólogo desarrollado previamente para el catalán en el marco del proyecto Aina-Ilenia, que se desarrolla en el Barcelona Supercomputing Centre (BSC-CNS).
Carballo cuenta con una arquitectura GPT de 1.300 millones de ‘parámetros’, "o lo que es lo mismo, 1.300 millones de valores ajustados a lo largo de un proceso de entrenamiento a partir de corpus de texto, encaminado a lograr que el modelo se desarrolle con una alta competencia en el uso del gallego". Su entrenamiento fue "un gran desafío computacional", siendo necesaria la colaboración del CESGA, que cuenta con el segundo superordenador más potente de todo el territorio nacional.
Para el entrenamiento de Carballo se usó un corpus masivo de textos en gallego, llamado ‘CorpusNós’, formado por aproximadamente 2.100 millones de palabras: el mayor corpus textual en gallego existente hasta el día de hoy.
Una parte significativa de este corpus fue elaborada en el contexto del propio Proxecto Nós, en virtud de numerosos convenios y acuerdos de cesión con distintas entidades. Así, en este ciclo de desarrollo cooperativo han participado diferentes medios de comunicación, editoriales e instituciones como el Parlamento de Galicia, el Consello da Cultura Gallega, las diputaciones de A Coruña y de Lugo o la Real Academia Galega, entre muchas otras.