Análise e Classificação Automática de Domínios Discursivos no Português do Brasil

Resumen

Este artigo trata da identificação dos domínios discursivos Jurídico, Entretenimento, Jornalístico, Fórum Virtual e Instrucional do português brasileiro no nível sentencial, amostrados do corpus Carolina. Avaliamos propriedades gramaticais, lexicais e semânticas. Demonstramos que os domínios são discerníveis e se organizam em uma escala consistente que associamos à distinção oral-envolvido vs. literato-informacional a partir da comparação com outros trabalhos. Treinamos classificadores Transformer em um novo dataset de sentenças para identificação de domínios, alcançando alta performance. Os padrões de erro dos modelos correlacionam-se com a escala identificada, indicando a captura desta dimensão de variação. Disponibilizamos publicamente os datasets e modelos produzidos.

Publicado
2026-01-07
Cómo citar
Serras, F. R., Carpi, M. de M., Sturzeneker, M. L., Palma, M. F., Costa, A. S., Monte, V. M. do, Namiuti, C., Crespo, M. C. R. M., Paixão de Sousa, M. C., & Finger, M. (2026). Análise e Classificação Automática de Domínios Discursivos no Português do Brasil. Linguamática, 17(2), preprint. Recuperado a partir de https://linguamatica.com/index.php/linguamatica/article/view/476
Sección
PROPOR 2024 | Artículos Invitados