Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos

Uma Reavaliação da Literatura

  • Rafael Oleques Nunes UFRGS
  • André Susliz Spritzer
  • Carla Maria Dal Sasso Freitas
  • Dennis Giovani Balreira

Resumen

Este trabalho trata do vazamento de dados no treinamento de modelos de Reconhecimento de Entidades Nomeadas (NER) em textos legislativos em português brasileiro, resultante de duplicatas e anotações inconsistentes, o que compromete a avaliação dos modelos. Após corrigir esse vazamento no corpus UlyssesNER-Br, foi realizado um novo benchmark, comparando os resultados com estudos anteriores em um cenário mais confiável. Também foi reavaliada uma abordagem semissupervisionada utilizando autoaprendizado e amostragem ativa. No entanto, ao reutilizar um threshold fixo, escolhido a partir de uma nuvem de valores antes da correção, os resultados foram insatisfatórios. Isso indica que um threshold dinâmico, que se adapte às características dos dados pós-correção, poderá proporcionar uma avaliação mais eficiente e precisa, indicando a necessidade de futuros estudos sobre a escolha de thresholds.

Publicado
2025-01-09
Cómo citar
Rafael Oleques Nunes, Spritzer, A. S., Freitas, C. M. D. S., & Balreira, D. G. (2025). Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos: Uma Reavaliação da Literatura. Linguamática, 16(2), preprint. Recuperado a partir de https://linguamatica.com/index.php/linguamatica/article/view/450
Sección
PROPOR 2024 | Artículos Invitados