Análise e Classificação Automática de Domínios Discursivos no Português do Brasil
DOI:
https://doi.org/10.21814/lm.17.2.476Palavras-chave:
classificação automática de textos, identificação de propriedades textuais, análise textual automatizada, domínios discursivos, português brasileiro, reconhecimento de padrões discursivos, estudo computacional da linguagemResumo
Este artigo trata da identificação dos domínios discursivos Jurídico, Entretenimento, Jornalístico, Fórum Virtual e Instrucional do português brasileiro no nível sentencial, amostrados do corpus Carolina. Avaliamos propriedades gramaticais, lexicais e semânticas. Demonstramos que os domínios são discerníveis e se organizam em uma escala consistente que associamos à distinção oral-envolvido vs. literato-informacional a partir da comparação com outros trabalhos. Treinamos classificadores Transformer em um novo dataset de sentenças para identificação de domínios, alcançando alta performance. Os padrões de erro dos modelos correlacionam-se com a escala identificada, indicando a captura desta dimensão de variação. Disponibilizamos publicamente os datasets e modelos produzidos.
Referências
Downloads
Publicado
Edição
Secção
Licença
Ao publicar na presente revista, os autores concordam com os seguintes termos:
- os direitos sobre a obra pertencem aos autores, que apenas concedem à Linguamática o direito de primeira publicação sob a licença Creative Commons, que permite que outros possam redistribuir a obra desde que acompanhada de referência ao autor e à Linguamática.
- os autores podem estabelecer outros contratos para a distribuição não exclusiva da obra, desde que mencionem que a sua primeira publicação foi efectuada na Linguamática.
- para aumentar as referências ao seu trabalho, os autores são encorajados a disponibilizar a obra, como "pré-publicação", antes de ou durante o processo de apreciação pela Linguamática, por exemplo em repositórios institucionais ou nas suas páginas pessoais na rede.








