Detecção de posicionamentos a partir de textos usando expansão semiautomática de córpus
Resumo
A detecção computacional de posicionamentos---a tarefa de determinar, a partir de um texto de entrada, a atitude ou posição (e.g., favorável ou contrária) em relação a um tópico-alvo específico---geralmente depende de córpus rotulados com informações de posicionamentos para cada tópico de interesse. Uma vez que esses tópicos são em princípio ilimitados, a necessidade de novos córpus rotulados também o é. Como forma de amenizar algumas dessas dificuldades, este trabalho adapta para a detecção de posicionamento um método de expansão de córpus originalmente desenvolvido para a tarefa análoga de análise de sentimento. O método é então aplicado a um grande (46 mil instâncias) córpus de posicionamentos cobrindo seis temas de interesse político e/ou moral em português brasileiro, obtendo um aumento substancial no número de instâncias. Resultados de avaliação automática e humana sugerem que a adição de instâncias rotuladas semiautomaticamente ao conjunto de dados original não prejudica a precisão da classificação, e que os rótulos gerados automaticamente estão, em sua maioria, corretos.
Direitos de Autor (c) 2024 Camila Pereira e Ivandré Paraboni
This work is licensed under a Creative Commons Attribution 4.0 International License.
Ao publicar na presente revista, os autores concordam com os seguintes termos:
- os direitos sobre a obra pertencem aos autores, que apenas concedem à Linguamática o direito de primeira publicação sob a licença Creative Commons, que permite que outros possam redistribuir a obra desde que acompanhada de referência ao autor e à Linguamática.
- os autores podem estabelecer outros contratos para a distribuição não exclusiva da obra, desde que mencionem que a sua primeira publicação foi efectuada na Linguamática.
- para aumentar as referências ao seu trabalho, os autores são encorajados a disponibilizar a obra, como "pré-publicação", antes de ou durante o processo de apreciação pela Linguamática, por exemplo em repositórios institucionais ou nas suas páginas pessoais na rede.