Explorando la efectividad de los modelos de lenguaje neuronales en la identificación y clasificación de colocaciones léxicas

  • Radovan Milovic Universidad de Santiago de Compostela

Resumo

La mayoría de las investigaciones sobre el procesamiento automatizado de colocaciones se ha centrado en el uso de medidas de asociación. Sin embargo, el enfoque se ha ido cambiando lentamente hacia la exploración de la efectividad de los modelos de lenguaje neuronales o neural language models (NLMs). En este artículo, investigamos el último método mediante el ajuste fino de modelos de la familia BERT en inglés, español y portugués utilizando recursos léxicos anotados con Funciones Léxicas (FL). Examinamos así las capacidades de los modelos de lenguaje para la identificación y clasificación de colocaciones léxicas tanto en escenarios monolingües como multilingües. Los resultados de los desempeños generales variaron, con valores F que oscilan entre 0.30 y 0.51. Concluimos que el modelo multilingüe sobresale en el aprendizaje cruzado al emplear un conjunto de entrenamiento combinado de los tres idiomas. Además, a pesar de la posible variabilidad, los resultados demuestran una mejor identificación de las Funciones Léxicas con un mayor número de instancias en el conjunto de entrenamiento. Por último, realizamos un análisis cualitativo para investigar posibles patrones de identificación errónea exhibidos por el modelo.

Publicado
2024-06-27
Como Citar
Milovic, R. (2024). Explorando la efectividad de los modelos de lenguaje neuronales en la identificación y clasificación de colocaciones léxicas. Linguamática, 16(1), 17-28. https://doi.org/10.21814/lm.16.1.428
Edição
Secção
Novas Perspectivas