Rotulação e Caracterização de Conteúdo Tóxico de Comunidades do Reddit no Brasil
Resumen
A ausência de dados de qualidade em idiomas com baixa disponibilidade de recursos, como o Português brasileiro, é um desafio significativo para a moderação automatizada de conteúdo online. Nos últimos anos, a proliferação de interações sociais online e o crescimento de conteúdo gerado por usuários trouxeram à tona a questão crescente da linguagem tóxica. Embora modelos automáticos de aprendizado de máquina tenham sido eficazes na moderação do vasto volume de dados nas redes sociais, ferramentas eficientes para esses idiomas ainda são escassas. Neste trabalho, tratamos essa lacuna criando um conjunto de dados de alta qualidade, coletado de algumas das comunidades brasileiras mais populares da plataforma Reddit. Para isso, rotulamos manualmente um conjunto de 2.500 comentários extraídos das comunidades com maior engajamento e número de inscritos. Realizamos uma análise exploratória para encontrar achados valiosos sobre a linguagem de conteúdo tóxico e não-tóxico. Nossos resultados mostram um nível moderado de concordância entre os anotadores, validando a relevância desse conjunto de dados para diversas tarefas de aprendizado de máquina. Esta pesquisa busca contribuir para a criação de um ambiente online mais seguro para os usuários que participam de discussões virtuais, além de abrir caminho para o desenvolvimento de ferramentas de moderação automática mais eficazes baseadas em aprendizado de máquina.
Derechos de autor 2024 Luiz Henrique Quevedo Lima Luiz; Ana Clara Souza Pagano Ana Clara; Adriana Silvina Pagano Adriana, Ana Paula Couto da Silva Ana
Esta obra está bajo licencia internacional Creative Commons Reconocimiento 4.0.
Los autores que envíen sus trabajos a esta revista implícitamente estón de acuerdo con los siguientes términos:
- Los autores retienen los derechos de autor de sus trabajos, permitiendo a esta revista su primera publicación bajo licencia de Creative Commons Attribution License, que permite a otros acceder libremente, usar y compartir dicho trabajo, citando adecuadamente la autoría del trabajo y su presentación en esta revista.
- Los autores pueden prescindir de los términos de licencia de CC y acordar por su cuenta arreglos contractuales adicionales independientes para la distribución no exclusiva y posterior publicación de este trabajo (p.e., para incluirlo en un repositorio institucional o publicarlo en un libro), citando adecuadamente su publicación inicial en esta revista.
- Además, se anima a los autores a poner en línea su trabajo (p.e., en repositorios institucionales o en su propio sitio web) en cualquier momento antes o durante el proceso de envío, ya que eso puede conducir a intercambios productivos y a un número mayor y más temprano de citas del trabajo publicado (Ver The Effect of Open Access).