Explorando la efectividad de los modelos de lenguaje neuronales en la identificación y clasificación de colocaciones léxicas
Resumen
La mayoría de las investigaciones sobre el procesamiento automatizado de colocaciones se ha centrado en el uso de medidas de asociación. Sin embargo, el enfoque se ha ido cambiando lentamente hacia la exploración de la efectividad de los modelos de lenguaje neuronales o neural language models (NLMs). En este artículo, investigamos el último método mediante el ajuste fino de modelos de la familia BERT en inglés, español y portugués utilizando recursos léxicos anotados con Funciones Léxicas (FL). Examinamos así las capacidades de los modelos de lenguaje para la identificación y clasificación de colocaciones léxicas tanto en escenarios monolingües como multilingües. Los resultados de los desempeños generales variaron, con valores F que oscilan entre 0.30 y 0.51. Concluimos que el modelo multilingüe sobresale en el aprendizaje cruzado al emplear un conjunto de entrenamiento combinado de los tres idiomas. Además, a pesar de la posible variabilidad, los resultados demuestran una mejor identificación de las Funciones Léxicas con un mayor número de instancias en el conjunto de entrenamiento. Por último, realizamos un análisis cualitativo para investigar posibles patrones de identificación errónea exhibidos por el modelo.
Derechos de autor 2024 Radovan Milovic
Esta obra está bajo licencia internacional Creative Commons Reconocimiento 4.0.
Los autores que envíen sus trabajos a esta revista implícitamente estón de acuerdo con los siguientes términos:
- Los autores retienen los derechos de autor de sus trabajos, permitiendo a esta revista su primera publicación bajo licencia de Creative Commons Attribution License, que permite a otros acceder libremente, usar y compartir dicho trabajo, citando adecuadamente la autoría del trabajo y su presentación en esta revista.
- Los autores pueden prescindir de los términos de licencia de CC y acordar por su cuenta arreglos contractuales adicionales independientes para la distribución no exclusiva y posterior publicación de este trabajo (p.e., para incluirlo en un repositorio institucional o publicarlo en un libro), citando adecuadamente su publicación inicial en esta revista.
- Además, se anima a los autores a poner en línea su trabajo (p.e., en repositorios institucionales o en su propio sitio web) en cualquier momento antes o durante el proceso de envío, ya que eso puede conducir a intercambios productivos y a un número mayor y más temprano de citas del trabajo publicado (Ver The Effect of Open Access).