El Gobierno central destina 7,5 millones a que la IA española pública ALIA entrene en gallego, catalán, valenciano y euskera
GALICIA

El objetivo es que este modelo de lenguaje funcione «en igualdad de condiciones» en las lenguas cooficiales y en castellano, dado que todavía hay «desequilibrios»
23 mar 2025 . Actualizado a las 13:57 h.El Gobierno ha dedicado una inversión inicial de 7,5 millones de euros para entrenar en catalán, gallego, euskera y valenciano a ALIA, la Inteligencia Artificial cuyo desarrollo financia la Administración española y presentada el pasado mes de enero por el presidente del Ejecutivo, Pedro Sánchez. Esta herramienta aún se encuentra en una fase preliminar, pero el objetivo es «garantizar su operatividad en castellano y en el resto de las lenguas oficiales del Estado» y que todas ellas funcionen «en igualdad de condiciones».
Así lo ha detallado el Ministerio para la Transformación Digital en sendas respuestas parlamentarias al PP y al Bloque Nacionalista Galego (BNG) a las que ha tenido acceso Europa Press.
En el escrito dirigido a varios diputados populares se desglosan las cantidades destinadas a las distintas entidades implicadas en este proyecto. Así, para el «desarrollo del corpus fundacional», se han concedido tres millones de euros en ayudas al Barcelona Supercomputing Center (BSC-CNS), dos millones a la Universidad del País Vasco, otros dos millones a la Universidade de Santiago de Compostela (USC) y medio millón a la Universidad de Alicante. Estas partidas se enmarcan en el Plan de Recuperación, Transformación y Resiliencia (PRTR).
Todas ellas tienen experiencia en tecnologías del lenguajes y proyectos específicos en sus respectivas comunidades como AINA en Cataluña, Gaitu en el País Vasco, Nós en Galicia y Vives en la Comunidad Valenciana.
El Barcelona Supercomputing Center (BSC) es el encargado de coordinar el desarrollo de estos modelos en colaboración con las universidades, que han aportado «conjuntos de datos». También participan empresas en la optimización y alineamiento de modelos para las diferentes aplicaciones.
Datos de entrenamiento en cada idioma
En la respuesta al BNG, cuyo diputado, Néstor Rego, interrogó por escrito al Gobierno sobre el uso de las lenguas cooficiales por parte de esta IA, el Ejecutivo explica que el ALIA 40b, presentado el pasado mes de enero, es una primera versión con funcionalidades básicas, como la generación de texto, pero sin capacidad conversacional ni de respuesta a preguntas.
La previsión es que en las próximas versiones se avance en esa capacidad de mantener conversaciones, la alineación del modelo para garantizar respuestas «adecuadas y respetuosas» y la mejora del rendimiento en «todas las lenguas oficiales». De hecho, el departamento de Óscar López señala como «uno de los desafíos principales» en este proceso «la disponibilidad de datos de entrenamiento en cada idioma».
Según reconoce, actualmente, existe un «desequilibrio» en la cantidad de información accesible en diferentes lenguas, lo que impacta en la capacidad del modelo en cada una de ellas. Para mitigar esta diferencia se está colaborando con diversas entidades en la recopilación y generación de corpus de alta calidad en gallego, catalán, euskera y valenciano, con el objetivo de mejorar la equidad lingüística en futuras versiones de ALIA.
Plenamente operativa en todas las lenguas oficiales
En cuanto a su funcionalidad, ALIA está disponible en abierto, pero su nivel de desempeño varía en función de la cantidad y calidad de los datos de entrenamiento en cada idioma. A lo largo de 2025 y 2026, se seguirán lanzando nuevas versiones con mejoras progresivas en su rendimiento y capacidades lingüísticas.
El objetivo final es lograr que ALIA sea «plenamente operativa en todas las lenguas oficiales en igualdad de condiciones», en un proceso en curso que requiere una mejora continua en los datos disponibles.