Análise e Classificação Automática de Domínios Discursivos no Português do Brasil

Felipe Ribas Serras; Miguel de Mello Carpi; Mariana Lourenço Sturzeneker; Mayara Feliciano Palma; Aline Silva Costa; Vanessa Martins do Monte; Cristiane Namiuti; Maria Clara Ramos Morales  Crespo; Maria Clara Paixão de Sousa; Marcelo Finger

doi:10.21814/lm.17.2.476

Análise e Classificação Automática de Domínios Discursivos no Português do Brasil

Autores

Felipe Ribas Serras Universidade de São Paulo https://orcid.org/0000-0003-1683-167X (não autenticado)
Miguel de Mello Carpi Universidade de São Paulo https://orcid.org/0009-0007-5877-6716 (não autenticado)
Mariana Lourenço Sturzeneker Universidade de São Paulo https://orcid.org/0000-0002-0878-3463 (não autenticado)
Mayara Feliciano Palma Universidade de São Paulo https://orcid.org/0000-0002-2869-4484 (não autenticado)
Aline Silva Costa Instituto Federal de Educação, Ciência e Tecnologia da Bahia https://orcid.org/0000-0003-1434-3242 (não autenticado)
Vanessa Martins do Monte Universidade de São Paulo https://orcid.org/0000-0002-4929-5298 (não autenticado)
Cristiane Namiuti Universidade Federa do Sudoeste da Bahia https://orcid.org/0000-0002-1451-8391 (não autenticado)
Maria Clara Ramos Morales Crespo Universidade de São Paulo https://orcid.org/0000-0003-1500-2749 (não autenticado)
Maria Clara Paixão de Sousa Universidade de São Paulo https://orcid.org/0000-0002-8422-417X (não autenticado)
Marcelo Finger Universidade de São Paulo https://orcid.org/0000-0002-1391-1175 (não autenticado)

DOI:

https://doi.org/10.21814/lm.17.2.476

Palavras-chave:

classificação automática de textos, identificação de propriedades textuais, análise textual automatizada, domínios discursivos, português brasileiro, reconhecimento de padrões discursivos, estudo computacional da linguagem

Resumo

Este artigo trata da identificação dos domínios discursivos Jurídico, Entretenimento, Jornalístico, Fórum Virtual e Instrucional do português brasileiro no nível sentencial, amostrados do corpus Carolina. Avaliamos propriedades gramaticais, lexicais e semânticas. Demonstramos que os domínios são discerníveis e se organizam em uma escala consistente que associamos à distinção oral-envolvido vs. literato-informacional a partir da comparação com outros trabalhos. Treinamos classificadores Transformer em um novo dataset de sentenças para identificação de domínios, alcançando alta performance. Os padrões de erro dos modelos correlacionam-se com a escala identificada, indicando a captura desta dimensão de variação. Disponibilizamos publicamente os datasets e modelos produzidos.

Downloads

Publicado

2026-01-07

Edição

Vol. 17 N.º 2

Secção

PROPOR 2024 | Artigos Convidados

Licença

Ao publicar na presente revista, os autores concordam com os seguintes termos:

os direitos sobre a obra pertencem aos autores, que apenas concedem à Linguamática o direito de primeira publicação sob a licença Creative Commons, que permite que outros possam redistribuir a obra desde que acompanhada de referência ao autor e à Linguamática.
os autores podem estabelecer outros contratos para a distribuição não exclusiva da obra, desde que mencionem que a sua primeira publicação foi efectuada na Linguamática.
para aumentar as referências ao seu trabalho, os autores são encorajados a disponibilizar a obra, como "pré-publicação", antes de ou durante o processo de apreciação pela Linguamática, por exemplo em repositórios institucionais ou nas suas páginas pessoais na rede.

Como Citar

Análise e Classificação Automática de Domínios Discursivos no Português do Brasil. (2026). Linguamática, 17(2), 131-171. https://doi.org/10.21814/lm.17.2.476