Estratégias Lexicométricas para Detetar Especificidades Textuais

  • Álvaro Iriarte Sanromán Universidade do Minho
  • Pablo Gamallo Otero Universidade de Santiago de Compostela
  • Alberto Simões Instituto Poltécnico do Cávado e do Ave - 2Ai Lab
Palavras-chave: divergencia de Kullback-Leibler, divergência lexical, lexicometria

Resumo

Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês).

Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana.

Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela).

Biografias Autor

Álvaro Iriarte Sanromán, Universidade do Minho

Departamento de Estudos Portugueses e Lusófonos

Área Disciplinar de Linguística

Pablo Gamallo Otero, Universidade de Santiago de Compostela
Membro do ProLNat@GE e do CiTIUS
Alberto Simões, Instituto Poltécnico do Cávado e do Ave - 2Ai Lab

Departamento de Tecnologias

Publicado
2018-08-04
Como Citar
Iriarte Sanromán, Álvaro, Gamallo Otero, P., & Simões, A. (2018). Estratégias Lexicométricas para Detetar Especificidades Textuais. Linguamática, 10(1), 19-26. https://doi.org/10.21814/lm.10.1.263
Edição
Secção
Artigos de Investigação