Resolució anafòrica en traducció automàtica: el cas de l’espanyol i el català
Resumen
En l'última dècada, la traducció automàtica (TA) ha augmentat la seva presència no només en el sector de la traducció sinó també en el conjunt de la societat, en part pels bons resultats de qualitat obtinguts per la traducció automàtica neuronal (TAN). Actualment, els models massius de llenguatge (MML) com ara GPT (Generic Pre-trained Transformer) poden generar text sobre una infinitat de temes diferents i també traduir documents tenint en compte un context més ampli. Tot i així, per a idiomes estretament relacionats, com ara l'espanyol i el català, la traducció automàtica basada en regles (TABR) s'utilitza diàriament per traduir milers de paraules.
Aquest article estudia la TAN, TABR i GPT del castellà al català, dues llengües romàniques amb una estructura molt semblant en les quals els sistemes de TABR han demostrat un bon rendiment. Utilitzem un challenge test set centrat en la resolució d'anàfores, específicament els pronoms febles, un grup de pronoms que no tenen
una correlació directa entre les dues llengües. Com que els models de TABR només tenen en compte la informació a nivell de frase, només estudiem les aparicions intraoracionals. L'objectiu és avaluar un fenomen sintàctic complex que ens pot ajudar a entendre quin dels tres sistemes tradueix més bé els elements contextuals.
Els resultats mostren que els dos models GPT provats són els que produeixen el nombre més baix d'errors, seguit dels sistemes de TAN. Tot i així, el nombre de traduccions errònies en el millor sistema és del 47%, cosa que contrasta amb els bons resultats d'avaluació generals que s'obtenen per a aquest parell de llengües.
Derechos de autor 2024 Sergi Alvarez-Vidal
Esta obra está bajo licencia internacional Creative Commons Reconocimiento 4.0.
Los autores que envíen sus trabajos a esta revista implícitamente estón de acuerdo con los siguientes términos:
- Los autores retienen los derechos de autor de sus trabajos, permitiendo a esta revista su primera publicación bajo licencia de Creative Commons Attribution License, que permite a otros acceder libremente, usar y compartir dicho trabajo, citando adecuadamente la autoría del trabajo y su presentación en esta revista.
- Los autores pueden prescindir de los términos de licencia de CC y acordar por su cuenta arreglos contractuales adicionales independientes para la distribución no exclusiva y posterior publicación de este trabajo (p.e., para incluirlo en un repositorio institucional o publicarlo en un libro), citando adecuadamente su publicación inicial en esta revista.
- Además, se anima a los autores a poner en línea su trabajo (p.e., en repositorios institucionales o en su propio sitio web) en cualquier momento antes o durante el proceso de envío, ya que eso puede conducir a intercambios productivos y a un número mayor y más temprano de citas del trabajo publicado (Ver The Effect of Open Access).