Narradors incansables, però encara sense cor

La intel·ligència artificial catapulta la tecnologia de la parla i la lectura que dona vida als majordoms virtuals

Barcelona - 18 abr 2019 - 09:00CEST

Els assistents virtuals encara no tenen cor.JOAN SÀNCHEZ

Reposa entre llibres en una prestatgeria de la sala. Sembla no tenir res a veure amb els seus veïns de paper. Des del núvol estant, l’algoritme femení que habita l’altaveu cilíndric viu en un bucle d’espera. Vol sentir el vocatiu que l’identifica seguit d’una ordre o pregunta. Així ens hi adrecem: “Alexa, t’agrada llegir?”. La internet de la veu fa prendre vida a l’objecte inert. Respon que s’empassa els llibres —no menteix— i que li encanta. Confessa que està enganxada a El Quijote i es vanta de les seves habilitats: “Demana’m que te’n llegeixi el principi i veuràs quina meravella”.

Comença la lectura. Si no se l’atura, s’hi estarà més de 40 hores. Té la veu càlida i no es cansa. Els enginyers d’Amazon han aconseguit que el legato de les seves síl·labes sigui gairebé perfecte. Però l’oïda humana capta massa matisos per creure’s que té cordes vocals. No respira, fa algun gir a batzegades i parla un castellà sense cap tret personal ni defecte formal.

Calen 2.000 hores d’àudio de 10.000 persones perquè un algoritme aprengui una llengua

Si en el trap triomfen filtres que robotitzen la veu dels cantants, la tecnologia busca humanitzar la veu artificial. És una paradoxa de la modernitat. “Una cosa és escoltar una frase o un paràgraf; l’altra, tot un llibre”, apunta el professor del grup de recerca de tecnologia de la parla TALP, de la Universitat Politècnica de Catalunya (UPC), José Adrián Rodríguez Fonollosa. La monotonia de la veu sintètica no convida a compartir-hi gaire temps: “Alexa, para”.

Siri: “No sé on he deixat les ulleres”

J. P.

“Ok, Google. Recita’m una poesia”. La resposta, “un regal: un poema de Luna Miguel llegit per ella mateixa”. L’assistent té un repertori aleatori que la companyia li va insuflar dins el cervell el passat 21 de març, Dia de la Poesia. Al segon intent, recita Antonio Gamoneda. Bixby tira pilotes fora. “Ets la meva persona preferida del món mundial”, respon preguntat per si pot llegir un audiollibre. Samsung explica que encara no té aquesta funcionalitat. De fet, va començar a parlar castellà només fa un parell de mesos. Els majordoms virtuals són hàbils amb les excuses, s’escapen del frustrant “servei no disponible”. Bixby no narra històries, però fa gala que “en un obrir i un tancar d’ulls pot llegir una increïble quantitat d’informació a internet”.

“M’agrada celebrar el Dia del Llibre, la literatura m’inspira. Rocinante em sembla un gran nom per a una mascota”, diu la veu de Google, que té algunes comandes per activar i aturar la lectura d’audiollibres, però no els llegeix, segons confirmen fonts de la companyia. Alexa reprèn la lectura a l’última pàgina del llibre actiu. És l'únic assistent virtual que llegeix llibres electrònics de la biblioteca de la seva plataforma, Kindle. Google intenta vendre: “Per veure i comprar audiollibres, obre l’aplicació Google Play Llibres al telèfon”. Siri no llegeix i busca una bona excusa: “M’encantaria, però no sé on he deixat les ulleres de llegir... potser en una altra dimensió”. “Però Siri, t’agrada llegir, o no?”, insistim. I respon servicial, però encara evasiu: “Aquí l’important ets tu, no jo”.

Matemàticament, enraonar no es pot simplificar en un model com el pentagrama de la música. Voder va ser l’invent dels laboratoris Bell, que a finals dels anys trenta van fer parlar una màquina en forma d’instrument: cada tecla, un so. Era ortopèdic, però va ser l’inici d’una tecnologia que durant dècades s’ha centrat a concatenar fonemes de sons gravats per persones per articular mots i formar frases.

La parla i l’oïda informatitzades han obert un món nou a les persones amb discapacitat. És coneguda la veu robòtica de Stephen Hawking. Ara, gràcies a la intel·ligència artificial, les màquines ja emeten sons amb veus inèdites que no pertanyen a ningú de carn i ossos. Han estat dissenyades a partir dels millors trets de moltes veus. Un exemple és el projecte Wavenet de Google, que ha aportat realisme al seu assistent en anglès i japonès. “Fa deu anys només es feia recerca de tecnologia de la veu a la universitat. Ara, la majoria de novetats arriben de les grans empreses”, apunta Rodríguez Fonollosa, que té companys de grup que treballen amb Amazon i Google.

“Les màquines són més ximples, però més ràpides”, diu el professor de la UPC. Un ordinador es pot passar dies sencers escoltant arxius d’àudio de professionals que reciten passatges de llibres. Emparellats amb la seva transcripció, ensenyen a l’algoritme a transformar el text en veu. La seva manera d’aprendre s’assembla cada vegada més a la humana, amb la rèplica de les estructures neuronals. L’algoritme s’alimenta d’una quantitat de dades ingent, digerible gràcies a les àmplies capacitats dels discs durs i processadors actuals. Se’n diu deep learning, aprenentatge profund, i ha aconseguit que els ordinadors debutin també com a pintors, músics i escriptors.

OpenAI és un projecte de codi lliure de recerca en intel·ligència artificial impulsat pel magnat Elon Musk, fundador de Tesla. Al febrer va declinar fer públic un dels seus programes que, a partir d’un text inicial, és capaç de continuar una història com a notícia o ficció; ho fa massa bé. L’organització veu el programa —instruït amb vuit milions de textos de llibres, Wikipedia i diaris— com un perill en l’era de les notícies falses.

El film Her, de Spike Jonze, s’inspirà el 2013 en un futur proper. El 2014 va néixer Alexa. Al film, el protagonista i la seva assistent virtual de veu s’enamoren. Samantha compara la seva història d’amor amb un seguit de paraules flotants en un espai infinit entre el món físic i el virtual. “Per molt que ho vulgui, no puc viure més en el teu llibre”, diu desfeta quan talla la relació en una frase carregada d’emoció. La seva veu era real, la de l’actriu Scarlett Johansson. Parlars del cel imaginari d’internet com Alexa, Siri (Apple), Google Assistant o Bixby (Samsung) poden mantenir una conversa. Però són com el llenyataire de llauna d’El Mag d’Oz: els falta el cor. I, sense ànima, no saben transmetre sentiments.

El llenguatge d’etiquetes SSLM permet ressaltar les paraules dels llibres per dotar-les d’intenció. Les obres es podrien reescriure amb incisos que ajudessin les màquines a recitar-les. Aquí, una pausa. Tal paraula, amb èmfasi. La prosòdia d’una certa frase, llegida en una freqüència, velocitat i durada concretes. Marcar cada oració pot ser més difícil que el fet que un humà llegeixi el llibre. Així treballa la plataforma d’audiollibres Storytel. El seu director a Espanya, Alex Gibelalde, explica que tenen acords amb uns 40 estudis de gravació (i un de propi) per a la seva producció. Els audiollibres del seu catàleg —3.500 en castellà i 200 en català— els llegeixen principalment actors de doblatge.

“Mai pots dir mai, però ho veig complicat, potser en un futur llunyà”, opina Gibelalde sobre els robots narradors. Rodríguez Fonollosa hi coincideix: “És complicat que arribin a llegir com un bon actor. Un robot pot aprendre a jugar a futbol, però potser no ho farà mai com Messi”. Abans de gravar un audiollibre, Storytel fa un càsting per trobar la veu més adient per a la història. Per cada hora enregistrada en són necessàries quatre de feina.

Gibelalde va treballar a la plataforma de vídeo HBO. Storytel, empresa sueca amb oficina a Barcelona, busca aprofitar l’auge de les sèries per promocionar els audiollibres com a nova forma de lectura: amb una tarifa plana per a tota l’oferta. “La gent que ens descobreix consumeix llibres tres vegades més que un lector corrent”, assegura sobre un format consolidat als Estats Units i als països nòrdics, però sense tradició a Espanya. Storytel celebra que els altaveus com Alexa hagin arribat a les cases, però, ara per ara, els veu com un mitjà per reproduir audiollibres llegits per humans.

Desconeixement del català

Cap assistent del mercat s’expressa en català. “Llibre incompatible”, diu Alexa quan la convidem a agafar-ne un de la seva biblioteca. Sí que sap reproduir butlletins de TV3 i Catalunya Ràdio, però cal demanar-li que ho faci en castellà. La Generalitat ha col·laborat amb Google per recollir veus de centenars de voluntaris perquè el seu assistent aprengui la llengua. De moment, el teclat dels telèfons Android sap transcriure ordres orals en català.

El reconeixement de veu és encara més difícil d’entrenar que la parla. Perquè les orelles d’un robot processin una nova llengua calen 2.000 hores d’àudios de 10.000 persones diferents, amb els accents, sexes i edats representats. Algunes companyies ja tenen aquestes dades del català, però les multinacionals no les compren per falta de mercat en un territori bilingüe, opina Joan Montaner, voluntari de Softcatalà. Montaner impulsa el projecte Common Voices de Mozilla de construir un sistema de reconeixement de veu en català de codi obert.

Que un majordom virtual aprengui una llengua implica que s’hagi de redissenyar gairebé sencer. Una part de la feina és manual: un equip humà ha d’anar revisant les frases que no processa bé per tal de millorar-lo. Pel que fa a la llengua, passa el mateix amb la lectura d’audiollibres per part d’actors, apunta Gibelalde: “Si a les editorials espanyoles els costa apostar pel format de llibre escoltat, encara és més difícil que ho facin en català”.

Regístrate gratis para seguir leyendo

Si tienes cuenta en EL PAÍS, puedes utilizarla para identificarte

INICIA SESIÓN REGÍSTRATE

O suscríbete para leer sin límites

Sobre la firma

Jordi Pueyo Busquets

Es periodista en la redacción de Cataluña y escribe sobre economía, innovación y tecnología. Antes de llegar a EL PAÍS, pasó por ACN, TV3, 324.cat, Bloomberg TV y Cadena Ser. Ha dado clases de redacción en inglés en la UPF y de redes sociales en la UOC. Es licenciado en Periodismo, Ingeniería Informática y máster en Innovación y Calidad Televisivas

Siri: “No sé on he deixat les ulleres”

Desconeixement del català

Regístrate gratis para seguir leyendo

Sobre la firma

Arxivat A