Processamento automático de expressões idiomáticas do português europeu

  • David Antunes Instituto Superior Técnico
  • Jorge Baptista
  • Nuno Mamede

Resumen

Expressões idiomáticas verbais são expressões multipalavra em que o verbo principal é distribucionalmente fixo com um ou mais dos seus argumentos. O significado global destas expressões é, geralmente, não composicional, isto é, não pode ser regularmente inferido a partir do significado individual dos seus constituintes, quando usados separadamente.
O principal objetivo deste trabalho é a construção de um sistema capaz de processar expressões idiomáticas do português europeu, integrado de forma fluida numa cadeia (pipeline) de processamento de linguagem natural. Para tal, foram desenvolvidas duas componentes fundamentais: (i) a criação de um corpus anotado com instâncias de expressões idiomáticas verbais do português europeu, e (ii) o desenvolvimento de um sistema que gera regras de análise de dependência para identificar automaticamente expressões idiomáticas com base nas restrições linguísticas representadas numa matriz léxico-gramatical.
O sistema foi avaliado com frases produzidas manualmente, frases geradas artificialmente (por um módulo específico do sistema) e usando documentos selecionados a partir de dois corpora e onde foram anotadas instâncias de expressões idiomáticas.
Os resultados globais indicam que a Precisão do sistema é bastante satisfatória, enquanto a Abrangência (Recall) é menos favorável. Estes dados destacam a necessidade de direcionar esforços para melhorar o desempenho do sistema, nomeadamente das regras que permitem identificar automaticamente as expressões fixas em textos. Uma parte do corpus utilizado bem como das anotações de expressões idiomáticas são disponibilizados para a comunidade científica.

Publicado
2025-07-04
Cómo citar
Antunes, D., Baptista, J., & Mamede, N. (2025). Processamento automático de expressões idiomáticas do português europeu. Linguamática, 17(1), preprint. Recuperado a partir de https://linguamatica.com/index.php/linguamatica/article/view/464
Sección
Nuevas perspectivas