Nace Carballo, o primeiro modelo de linguaxe de intelixencia artificial a gran escala en galego

La Voz REDACCION / LA VOZ

SOCIEDAD

VÍTOR MEJUTO

O modelo foi publicado en aberto para o uso individual ou empresarial en novos produtos e aplicacións de utilidade para  público xeral

18 jun 2024 . Actualizado a las 23:46 h.

Proxecto Nós, que desenvolven o Citius (Centro Singular de Investigación en Tecnoloxías Intelixentes) e o Instituto da Lingua Galega vén de anunciar a creación de Carballo, o primeiro modelo de linguaxe de gran escala de alta calidade en galego, que permitirá a creación de novas ferramentas e aplicacións de intelixencia artificial xerativa neste idioma.

Trátase dun modelo fundacional, chamado así por ser a peza esencial na construcción ferramentas versátiles mediante IA xerativa con tecnoloxía lingüística como, por exemplo, os chatbots, tradutores ou correctores automáticos. 

Carballo aínda debe seguir desenvolvéndose para conseguir un sistema co que se poida manter unha conversa fluída e ofrecer respostas automáticas cunha interacción sinxela e intuitiva.

Dous proxectos combinados

Carballo é o resultado de dous proxectos de investigación: O Proxecto Nós, impulsado pola Xunta de Galicia, e o Proxecto Ilenia, promovido polo Ministerio para a Transformación Dixital e da Función Pública para o impulso de tódalas linguas oficiais do Estado.

Segundo o Citius, o adestramento de Carballo foi un gran desafío computacional, sendo necesaria a colaboración do Cesga (Centro de Supercomputación de Galicia), que conta co segundo supercomputador máis potente de todo o territorio nacional.

Durante o adestramento do modelo usouse un corpus masivo de textos en galego, chamado CorpusNós, formado por aproximadamente 2.100 millóns de palabras, que é «o maior corpus textual en galego existente ata o día de hoxe», afirman dende o Citius. A arquitectura GPT de Carballo é 1.300 millóns de valores axustados ao longo do adestramento, encamiñado a lograr que o modelo se desenvolva cunha alta competencia no uso do galego.

Unha parte significativa da información foi elaborada no contexto do propio Proxecto Nós, en virtude de numerosos convenios e acordos de cesión con empresas e organizacións fornecedoras de datos textuais. Así, neste ciclo de desenvolvemento cooperativo desde os datos «en bruto» teñen participado diversos medios de comunicación, varias editoriais e diversas institucións públicas, como o Parlamento de Galicia, o Consello da Cultura Galega ou a Real Academia Galega, entre outras.

Recursos libres e gratuítos

O proxecto Ilenia ten como obxectivo xerar recursos dixitais nas diferentes linguas oficiais do Estado. Xunto á USC tamén participan os centros BSC-CNS (catalán), o Cenid (valenciano) e o HiTZ (euskera). 

Carballo, afirma o Cimus, trata de «axudar a crear un tecido empresarial dinámico que medre cos últimos avances da intelixencia artificial e que xire á volta da lingua galega, potenciando tamén as relacións co ámbito lusófono e, deste xeito, co mercado lingüístico do portugués, próximo aos 300 millóns de falantes». Xunto con Carballo, tamén se desenvolveu, colaborando coa Universidade de Évora, o primeiro modelo fundacional galego e portugués, Carvalho, para lograr integrar as dúas linguas no ámbito europeo.

Carballo foi publicado en aberto, para que persoas expertas ou empresas de software poidan utilizar o modelo e desenvolver novos produtos, facer axustes ou mesmo integrar o seu uso en aplicacións de utilidade para o público xeral.

Desde o Citius remárcase o feito de que foi desenvolvido «conforme ás liñas mestras que guían a "IA Confiable"», unha serie de principios recollidos no Regulamento Europeo de IA, a primeira lei de intelixencia artificial do mundo, aprobada recentemente polo Parlamento Europeo.

De momento xa está dispoñible un demostrador, que mesmo permite un uso básico de Carballo, xunto con algúns exemplos preconstruídos, aínda que o Proxecto Nós continúa co desenvolvemento de Carballo para incrementar a súa calidade.