EPIA2024 premia o Carvalho_pt-gl, modelo xerativo de linguaxe bilingüe para galego e portugués
luns, 23 de setembro do 2024
O desenvolvemento Carvalho_pt-gl, modelo xerativo capaz de procesar e xerar contido en galego e portugués, desenvolvido polo centro CiTIUS da USC no marco do Proxecto Nós, vén de ser galardoado co Best Application Paper Award no congreso internacional EPIA2024. Este premio, en palabras do centro de investigación da Universidade de Santiago que dirixe Senén Barro, “marca un fito para a diversidade lingüística na Intelixencia Artificial”.
Como dixemos, o galardón (Best Application Paper Award) entregouse no marco do congreso internacional sobre Intelixencia Artificial EPIA2024, celebrado entre o 3 e o 6 de setembro na localidade portuguesa de Viana do Castelo. Distinguiuse deste xeito o artigo A Galician-Portuguese Generative Model; un traballo liderado desde a Universidade de Santiago de Compostela polo investigador Pablo Gamallo no marco do Proxecto Nós, financiado pola Consellería de Cultura, Lingua e Xuventude da Xunta de Galicia e desenvolvido polo CiTIUS e o Instituto da Lingua Galega da USC (ILG). Nel, o equipo investigador presenta un innovador modelo de linguaxe xerativo baseado nas variantes galega e portuguesa, o que “supón un avance significativo na integración destas linguas nos modelos de IA”.
O modelo, coñecido como Carvalho_pt-gl, está dispoñíbel en libre descarga desde a Rede e foi deseñado especificamente para procesar e xerar contido en galego e portugués europeo, dúas variedades lingüísticas estreitamente relacionadas, pero pouco representadas nos actuais modelos multilingües.
O equipo de investigación, composto por expertos do CiTIUS (Universidade de Santiago de Compostela), a Universidade de Évora, e a Universitat Pompeu Fabra, utilizou unha arquitectura de GPT con 1.300 millóns de parámetros e máis de 6.000 millóns de palabras balanceadas entre ambas as dúas linguas. Todo un desafío enmarcado tamén dentro do proxecto ILENIA (Impulso de la Lenguas en la Inteligencia Artificial) dentro do PERTE Nueva Economía de la Lengua financiado polo Ministerio para la Transformación Digital y de la Función Pública do Goberno de España.
Pablo Gamallo explica que “o modelo foi adestrado no supercomputador Finisterrae III do CESGA, o Centro de Supercomputación de Galicia, usando unha estratexia de preadestramento continuo que permitiu adaptar un modelo multilingüe preexistente, o que axudou moito a superar as limitacións de datos que terían xurdido se o adestramento comezase desde cero”. Salientou así mesmo que “tras avaliar os resultados obtidos con benchmarks estandarizados vemos que mostran un rendemento prometedor, ao tempo que reforzan a importancia de promover a diversidade lingüística nos modelos xerativos”.
A concesión do Best Application Paper Award nun congreso da magnitude do EPIA2024 subliña o impacto e a relevancia deste traballo no panorama da IA. O artigo, sinalaron dende o congreso, “pon en evidencia a necesidade de desenvolver tecnoloxías inclusivas e multiculturais que respecten a diversidade lingüística, achegando solucións innovadoras para linguas minoritarias ou menos representadas como o galego e o portugués”.
Xunto a Pablo Gamallo, no equipo de Carvalho_pt-gl participaron tamén Pablo Rodríguez, Susana Sotelo, Silvia Paniagua, Daniel Bardanca, José Ramom Pichel e Senén Barro (CiTIUS, Proxecto Nós), así como Daniel Santos, Nuno Miquelina, Daniela Schmidt, Vítor Nogueira e Paulo Quaresma (Universidade de Évora), e Iria de-Dios-Flores, (Universitat Pompeu Fabra).
O encontro EPIA (Encontro Português de Intelixência Artificial) é un congreso científico internacional que se celebra anualmente, e centra os seus esforzos nos últimos avances e aplicacións da IA. Organizado pola Asociación Portuguesa para a Intelixencia Artificial (APPIA), o evento reúne a investigadores e expertos de todo o mundo para compartir coñecementos, discutir investigacións innovadoras e promover colaboracións en diversas áreas da IA. A edición de 2024 tivo lugar do 3 ao 6 de setembro.