Estratégias de Seleção Informada de Dados para Aprendizado com Dados Escassos e Desbalanceados
Resumo
A obtenção de dados anotados de alta qualidade é um dos principais desafios no Processamento de Linguagem Natural (PLN), especialmente em métodos de aprendizado supervisionado. Em cenários onde dados previamente anotados não estão disponíveis, soluções comuns como o crowdsourcing e a abordagem zero-shot frequentemente apresentam limitações, incluindo a necessidade de grandes volumes de dados e a falta de garantias quanto à qualidade das anotações. Tradicionalmente, os dados para anotação humana são selecionados de forma aleatória, uma prática que não só é custosa e ineficiente, mas também suscetível a viés, particularmente em conjuntos de dados desbalanceados, onde as classes minoritárias são sub-representadas. Para enfrentar esses desafios, este trabalho apresenta uma arquitetura de seleção automática e informada de dados, projetada para minimizar o volume de anotações necessárias enquanto maximiza a diversidade e representatividade dos dados selecionados. Entre os métodos avaliados, a Busca Semântica Reversa (RSS) se destacou, superando consistentemente a seleção por amostragem aleatória em cenários desbalanceados e melhorando o desempenho dos classificadores treinados. Além disso, realiza-se uma comparação entre a RSS e outros métodos baseados em agrupamento, discutindo seus pontos fortes e fracos.
Direitos de Autor (c) 2025 Alexandre Alcoforado, Lucas Okamura, Thomas Ferraz, Israel Campos Fama, Bárbara Dias Bueno, Bruno Miguel Veloso, Anna Helena Reali Costa

This work is licensed under a Creative Commons Attribution 4.0 International License.
Ao publicar na presente revista, os autores concordam com os seguintes termos:
- os direitos sobre a obra pertencem aos autores, que apenas concedem à Linguamática o direito de primeira publicação sob a licença Creative Commons, que permite que outros possam redistribuir a obra desde que acompanhada de referência ao autor e à Linguamática.
- os autores podem estabelecer outros contratos para a distribuição não exclusiva da obra, desde que mencionem que a sua primeira publicação foi efectuada na Linguamática.
- para aumentar as referências ao seu trabalho, os autores são encorajados a disponibilizar a obra, como "pré-publicação", antes de ou durante o processo de apreciação pela Linguamática, por exemplo em repositórios institucionais ou nas suas páginas pessoais na rede.