Análise e Classificação Automática de Domínios Discursivos no Português do Brasil

Palavras-chave: classificação automática de textos, identificação de propriedades textuais, análise textual automatizada, domínios discursivos, português brasileiro, reconhecimento de padrões discursivos, estudo computacional da linguagem

Resumo

Este artigo trata da identificação dos domínios discursivos Jurídico, Entretenimento, Jornalístico, Fórum Virtual e Instrucional do português brasileiro no nível sentencial, amostrados do corpus Carolina. Avaliamos propriedades gramaticais, lexicais e semânticas. Demonstramos que os domínios são discerníveis e se organizam em uma escala consistente que associamos à distinção oral-envolvido vs. literato-informacional a partir da comparação com outros trabalhos. Treinamos classificadores Transformer em um novo dataset de sentenças para identificação de domínios, alcançando alta performance. Os padrões de erro dos modelos correlacionam-se com a escala identificada, indicando a captura desta dimensão de variação. Disponibilizamos publicamente os datasets e modelos produzidos.

Publicado
2026-01-07
Como Citar
Serras, F. R., Carpi, M. de M., Sturzeneker, M. L., Palma, M. F., Costa, A. S., Monte, V. M. do, Namiuti, C., Crespo, M. C. R. M., Paixão de Sousa, M. C., & Finger, M. (2026). Análise e Classificação Automática de Domínios Discursivos no Português do Brasil. Linguamática, 17(2), preprint. Obtido de https://linguamatica.com/index.php/linguamatica/article/view/476
Edição
Secção
PROPOR 2024 | Artigos Convidados