Processamento automático de expressões idiomáticas do português europeu
Resumo
Expressões idiomáticas verbais são expressões multipalavra em que o verbo principal é distribucionalmente fixo com um ou mais dos seus argumentos. O significado global destas expressões é, geralmente, não composicional, isto é, não pode ser regularmente inferido a partir do significado individual dos seus constituintes, quando usados separadamente.
O principal objetivo deste trabalho é a construção de um sistema capaz de processar expressões idiomáticas do português europeu, integrado de forma fluida numa cadeia (pipeline) de processamento de linguagem natural. Para tal, foram desenvolvidas duas componentes fundamentais: (i) a criação de um corpus anotado com instâncias de expressões idiomáticas verbais do português europeu, e (ii) o desenvolvimento de um sistema que gera regras de análise de dependência para identificar automaticamente expressões idiomáticas com base nas restrições linguísticas representadas numa matriz léxico-gramatical.
O sistema foi avaliado com frases produzidas manualmente, frases geradas artificialmente (por um módulo específico do sistema) e usando documentos selecionados a partir de dois corpora e onde foram anotadas instâncias de expressões idiomáticas.
Os resultados globais indicam que a Precisão do sistema é bastante satisfatória, enquanto a Abrangência (Recall) é menos favorável. Estes dados destacam a necessidade de direcionar esforços para melhorar o desempenho do sistema, nomeadamente das regras que permitem identificar automaticamente as expressões fixas em textos. Uma parte do corpus utilizado bem como das anotações de expressões idiomáticas são disponibilizados para a comunidade científica.
Direitos de Autor (c) 2025 David Antunes, Jorge Baptista, Nuno Mamede

This work is licensed under a Creative Commons Attribution 4.0 International License.
Ao publicar na presente revista, os autores concordam com os seguintes termos:
- os direitos sobre a obra pertencem aos autores, que apenas concedem à Linguamática o direito de primeira publicação sob a licença Creative Commons, que permite que outros possam redistribuir a obra desde que acompanhada de referência ao autor e à Linguamática.
- os autores podem estabelecer outros contratos para a distribuição não exclusiva da obra, desde que mencionem que a sua primeira publicação foi efectuada na Linguamática.
- para aumentar as referências ao seu trabalho, os autores são encorajados a disponibilizar a obra, como "pré-publicação", antes de ou durante o processo de apreciação pela Linguamática, por exemplo em repositórios institucionais ou nas suas páginas pessoais na rede.