Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos

Uma Reavaliação da Literatura

  • Rafael Oleques Nunes UFRGS
  • André Susliz Spritzer
  • Carla Maria Dal Sasso Freitas
  • Dennis Giovani Balreira
Palavras-chave: Vazamento de Dados, Reconhecimento de Entidades Nomeadas, Textos Legislativos, Benchmark, Autoaprendizado, Português

Resumo

Este trabalho trata do vazamento de dados no treinamento de modelos de Reconhecimento de Entidades Nomeadas (NER) em textos legislativos em português brasileiro, resultante de duplicatas e anotações inconsistentes, o que compromete a avaliação dos modelos. Após corrigir esse vazamento no corpus UlyssesNER-Br, foi realizado um novo benchmark, comparando os resultados com estudos anteriores em um cenário mais confiável. Também foi reavaliada uma abordagem semissupervisionada utilizando autoaprendizado e amostragem ativa. No entanto, ao reutilizar um threshold fixo, escolhido a partir de uma nuvem de valores antes da correção, os resultados foram insatisfatórios. Isso indica que um threshold dinâmico, que se adapte às características dos dados pós-correção, poderá proporcionar uma avaliação mais eficiente e precisa, indicando a necessidade de futuros estudos sobre a escolha de thresholds.

Publicado
2025-01-09
Como Citar
Rafael Oleques Nunes, Spritzer, A. S., Freitas, C. M. D. S., & Balreira, D. G. (2025). Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos: Uma Reavaliação da Literatura. Linguamática, 16(2), preprint. Obtido de https://linguamatica.com/index.php/linguamatica/article/view/450
Edição
Secção
PROPOR 2024 | Artigos Convidados