Su objetivo «no es competir con ChatGPT» sino facilitar que empresas e instituciones puedan utilizar esta tecnología sin depender de las multinacionales de EEUU, explican los responsables del proyecto
Trump anuncia una alianza de OpenAI, Oracle y Softbank para invertir 500.000 millones en inteligencia artificial
La inteligencia artificial se ha convertido en una prioridad geoestratégica. Con Donald Trump anunciando una inversión de 500.000 millones de dólares para competir con China y las principales multinacionales de EEUU en una carrera por llevar la IA a los usuarios, esta tecnología corre el riesgo de ser colonizada por Silicon Valley de la misma manera que ocurrió con Internet. Con la misión de impedirlo nace Alia, la primera familia de modelos de inteligencia artificial entrenada dando prioridad al castellano y las lenguas cooficiales del estado.
Desarrollada por el Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS) a instancias de la Secretaría de Estado de Digitalización e Inteligencia Artificial, Alia no es un producto pensado para competir con ChatGPT u otras herramientas de este tipo. Se trata de una infraestructura para que las empresas e instituciones públicas españolas puedan adaptar la IA a sus procesos internos y comerciales, sin tener que depender de las tecnológicas extranjeras.
“Si la historia nos ha mostrado algo es que las tecnologías no generan prosperidad por sí solas. De hecho, tienden a reforzar el statu quo, a dar más poder a los poderosos y hacer más ricos a los ricos”, expresó el presidente Pedro Sánchez el pasado lunes, cuando anunció la salida a la luz de Alia tras meses de trabajo.
Una “amenaza especialmente grave en un contexto como el actual”, enfatizó, en el que la “tecnocasta de Silicon Valley” está intentando “controlar el debate público y la acción gubernamental”. Por ello, llamó a Europa a “rebelarse” y señaló la necesidad de crear “un sistema de datos integrado que facilite su intercambio y uso entre diferentes actores”.
En una reunión técnica con periodistas este miércoles, la secretaria de Estado María González Veracruz ha ahondado en cómo Alia puede dar respuesta la necesidad de una mayor soberanía en el terreno de la IA. “Lo que estamos haciendo es democratizar el acceso a la inteligencia artificial para más del 90% del tejido productivo español que no puede permitirse utilizar los modelos más grandes. Generar una alternativa de origen europeo desde el sector público con todas las garantías de transparencia y respeto a los derechos de autor”, ha manifestado.
Mayor peso del castellano
La respuesta que propone Alia es una familia de modelos entrenados dando un peso mucho mayor al castellano, al catalán, al gallego y al euskera en su entrenamiento del que tienen en los sistemas preparados por las multinacionales estadounidenses. En concreto, suponen cerca del 20% del total de sus bases de datos. Están en código abierto y pueden ser reutilizados y modificados por cualquier organización que lo desee.
El inglés sigue siendo el predominante, debido en gran parte a la disponibilidad de material de entrenamiento. Conseguir más datos tanto en castellano como en el resto de lenguas cooficiales es uno de los grandes retos del proyecto.
Como refleja su ficha técnica, Alia ha podido acceder a los datos del BOE, el Boletín Oficial del Registro Mercantil, a las actas del Senado y el Congreso y a resoluciones judiciales para aumentar su corpus de entrenamiento. Sin embargo, corpus como estos no están disponibles en lenguas como el euskera y el gallego, ámbitos en los que el Ejecutivo está trabajando con las administraciones regionales.
¿Es tan importante que la IA sea entrenada específicamente en castellano y las lenguas cooficiales? “Nuestra teoría es que vamos a conseguir superar sesgos culturales. Es decir, no se trata solo de cómo el modelo responde a preguntas concretas, sino de cómo conseguimos que el modelo piense”, ha expuesto Veracruz.
El Gobierno ha invertido un total de 2,2 millones de euros en el desarrollo del algoritmo y otros ocho millones en la conformación de las bases de datos de entrenamiento (“lo que más nos piden las empresas”, recuerdan) o la puesta en marcha de la infraestructura que soporta Alia.
Casos de uso concretos
La infraestructura de Alia ya se está usando en dos casos de uso concretos. Uno lo lleva a cabo la Agencia Tributaria, que está trabajando en un prototipo para mejorar la eficiencia en la gestión tributaria. El otro es una aplicación de cardiología para la atención primaria, con el objetivo de facilitar el tratamiento de las enfermedades cardíacas.
Más allá de estas dos iniciativas, la meta del Ministerio de Transformación Digital es que el resto de departamentos del Gobierno puedan lanzar uno o dos proyectos basados en Alia cada uno. Veracruz ha adelantado que ya se encuentra trabajando estrechamente con las diferentes carteras para desarrollar casos de uso específicos que impulsen la eficiencia y mejoren los servicios públicos.
En el sector privado, las empresas y pymes que utilicen también podrán acceder a la supercomputación del BSC-CNS para desarrollar sus proyectos. En suma, desde la Secretaría de Estado explican que Alia es un proyecto en evolución que puede beneficiarse tanto de los avances que se vayan haciendo desde el sector público, como las innovaciones de la comunidad académica y las empresas privadas.
Primeras críticas al modelo
Algunos expertos que han podido probar la familia de modelos de Alia han coincidido en señalar que estos tienen una estructura muy similar a la de LlaMA, la inteligencia artificial de Meta. “Parece que los modelos patrios están basados en la arquitectura de LLaMA y rinden peor que lo que ya veníamos usando a diario. Era algo esperado. Habrá que ver como evoluciona y, sobre todo, como se aplica en la administración pública”, ha publicado en X Bernardo Quintero, director del equipo de ingenieros de seguridad de Google.
“Lo más positivo que veo es que la Agencia Española de Supervisión de la Inteligencia Artificial va a tener bastante trabajo con estos modelos, a ver donde pone el listón de los sesgos”, ha continuado Quintero, en cuyas pruebas Alia ha emitido algunas respuestas machistas y alucinaciones.
Otros especialistas han destacado que en las pruebas de potencia de los modelos, estos sacan peores puntuaciones que las primeras versiones de LlaMA, publicadas en 2023. En este sentido, desde el Gobierno recuerdan que el propósito del proyecto “no es competir con ChatGPT y el resto de modelos comerciales, sino ofrecer una infraestructura pública de recursos lingüísticos en castellano y lenguas cooficiales” que las empresas e instituciones españolas puedan afinar para sus propios intereses.