Selecciona Edició
Connecta’t

De la Norma a l’Aina

La Generalitat crea un corpus digital en català per facilitar l’ús de la llengua amb les noves tecnologies

El conseller Jordi Puigneró en la presentació d'Aina.
El conseller Jordi Puigneró en la presentació d'Aina.

Fa gairebé 40 anys que la Norma va portar la normalització lingüística a la societat catalana quan el català estava en desús després d’anys de prohibició per la dictadura franquista. Ara, l’amenaça per a la llengua és més global i el català pot acabar extingit del món digital si no s’actua, segons ha alertat el conseller de Polítiques Digitals, Jordi Puigneró, en la presentació del projecte Aina, fent referència a un estudi que inclou el català entre la vintena d’idiomes europeus que corren el risc de desaparèixer del món digital. Per això, la nova eina de normalització, Aina, és un corpus digital que la Generalitat està compilant per facilitar la incorporació del català en la creació de qualsevol programa o aplicació digital.

El projecte Aina, que s’ha de finançar amb 13,5 milions d’euros de fons europeus, generarà els recursos digitals i lingüístics necessaris per facilitar el desenvolupament d’assistents de veu, traductors automàtics o agents conversacionals en català. És una iniciativa del Departament de Polítiques Digitals amb el Barcelona Supercomputing Center - Centre Nacional de Supercomputació (BSC). L’objectiu és que els ciutadans puguin escollir el català al món digital al mateix nivell que els parlants d’un idioma global com l’anglès o el castellà. De moment, la compilació de dades ha començat amb una aportació de 250.000 euros del Departament.

Per començar aquesta feina, s’ha creat un corpus digital del català, que entrenarà els algoritmes d’intel·ligència artificial. Es tracta del corpus més gran creat fins ara, amb 1.770 milions de metadades associades a paraules, reunides en 95 milions de frases. Aquest corpus s’ha obtingut descarregant textos de diferents fonts digitals (pàgines web, arxius, etc), netejant-los i esborrant les duplicitats. El proper pas serà generar els models de llengua, models de parla i models per a la traducció utilitzant xarxes neuronals multicapa.

Per obtenir aquest arxiu de dades, la Generalitat ha proveït tota la informació de les seves pàgines web i del DOGC, cosa que ha suposat el 33% de tots els continguts descarregats, i han estat necessàries 2.000 hores de processadors del superordinador MareNostrum per revisar les dades obtingudes, desduplicar-les i eliminar tot allò que no fossin pròpiament oracions del català. A més, s’han utilitzats dades de l’Agència Catalana de Notícies (ACN) o de la Corporació Catalana de Mitjans Audiovisuals (CCMA).

De moment es treballa amb el català estàndard, però s’ha avançat que es crearan nous corpus per incorporar les diferents variants dialectals del català, diferents registres lingüístics (col·loquial, literari, administratiu, etc.) i arxius de veu i imatge. Amb tota aquesta informació, el següent pas serà entrenar xarxes neuronals multicapa perquè aprenguin el català i generin models de la llengua, models de la parla i models per a la traducció. Aquests models són molt costosos de fer perquè necessiten gran capacitat de càlcul (el que s’està construint a partir del primer corpus textual farà servir 9.000 hores de GPU), i seran les bases sobre les quals es podran desenvolupar aplicacions basades en intel·ligència artificial (IA), com assistents de veu, predictors i correctors lingüístics, bots de conversa, aplicacions de resum automàtic, cerques intel·ligents, aplicacions per a l’anàlisi de sentiments o motors de traducció i subtitulació automàtica, entre d’altres. Tots els models que crearà el BSC estaran a disposició de totes aquelles empreses o entitats que les vulguin fer servir, ja que es publicaran en obert i amb llicències permissives.

El català, en risc en el món digital

La presència del català en el món digital no està assegurada ara mateix, segons Puigneró, que ha explicat que aquest és “el projecte del Govern per garantir que el català sigui una llengua competitiva en el món digital i assegurar-ne la supervivència”. El projecte ha de permetre que la llengua faci un salt qualitatiu i quantitatiu en l’ecosistema digital, ja que la interacció entre les persones i la tecnologia ha entrat en una nova fase en què cada vegada es fa menys a través de dispositius com el teclat, el ratolí o les pantalles tàctils, per donar pas a una nova forma d’interacció a través de la veu i la parla.

Un estudi realitzat l’any 2011 per la xarxa europea d’excel·lència META-NET, fet per més de 200 experts en Tecnologies del Llenguatge, adverteix que més de 20 llengües europees, entre elles el català, s’enfronten a l’extinció digital si no reben més suport tecnològic en quatre àrees: la traducció automàtica, la interacció amb la veu, l’anàlisi textual i la disponibilitat de recursos lingüístics.

Un homenatge a Aina Moll

No és cap casualitat el nom d’Aina, sinó que és un homenatge a la filòloga menorquina Aina Moll, figura central de la promoció i la normalització del català i primera directora general de Política Lingüística de la Generalitat de Catalunya del 1980 al 1988. Va ser l’artífex del llançament, el 1982, de la primera campanya institucional de sensibilització sobre l’ús de la llengua "El català, cosa de tots", que es va popularitzar amb el personatge de la Norma, dibuixada per Lluís Juste de Nin. Un any després d’aquella campanya es va aprovar la primera llei de normalització lingüística. A més, Aina conté una referència a la tecnologia (AI: intel·ligència artificial) que farà possible la seva normalització en l’àmbit digital.

S'adhereix als criteris de The Trust Project Més informació >

MÉS INFORMACIÓ