Extração de Informação sobre Personagens Literários em Português

  • Eckhard Bick University of Southern Denmark
Palabras clave: leitura distante, extração de informação, reconhecimento de entidades nomeadas, constraint grammar, resolução de anáforas

Resumen

Este capítulo descreve o PALAVRAS-DIP, um sistema para a identificação automática de personagens e dos seus perfis sociais na literatura portuguesa e brasileira. O sistema foi concebido como um módulo adicional para um analisador morfossintáctico e semântico. Etiquetamos as entidades nomeadas (NE) humanas para profissão e posição social, e usamos as etiquetas relacionais do formalismo Constraint Grammar (Gramática de Restrições, CG) para estabelecer co-referências (por exemplo, anáfora de pronomes, verbos com sujeito zero) assim como relações familiares entre as personagens. A anotação de base resultante permite a extração de redes de personagens. O programa de extração reconhece e agrupa as variantes de nomes de personagens e distingue entre nomes que têm função narrativa e nomes contextuais de referência cultural. O desenvolvimento do sistema foi motivado pelo DIP, uma avaliação conjunta sobre 100 romances históricos, evento em que uma versão protótipo do sistema obteve medidas F razoáveis para as tarefas de identificação de personagens (63,4%) e de unificação/co-identificação de nomes (68,1%), mas teve problemas com as relações familiares (15,5%).

Publicado
2023-06-30
Cómo citar
Bick, E. (2023). Extração de Informação sobre Personagens Literários em Português. Linguamática, 15(1), 31-40. https://doi.org/10.21814/lm.15.1.397
Sección
DIP - Desafío de Identificación de Personajes