Atribuição de Descritores a Acórdãos do Supremo Tribunal de Justiça Português com base em Representações Locais Esparsas
Resumen
A Classificação Extrema Multi-etiqueta (XML) consiste na predição de múltiplas etiquetas para um determinado input, sendo um problema fundamental em domínios como categorização de texto, sistemas de recomendação e marcação de imagens. Esta tarefa apresenta desafios significativos para a aprendizagem automática e a recuperação de informação, especialmente devido ao crescimento exponencial de dados online e à consequente necessidade de algoritmos capazes de lidar com conjuntos de dados de grande escala e com um elevado número de etiquetas. Os métodos tradicionais de classificação são inadequados para esta tarefa devido ao vasto número de possíveis combinações de etiquetas e à dispersão das atribuições. Este artigo apresenta os resultados de um projeto realizado com o Supremo Tribunal de Justiça de Portugal, onde abordámos este problema utilizando Sparse Local Embeddings for Extreme Multi-label Classification (SLEEC), uma abordagem baseada em embeddings que demonstrou resultados promissores no domínio legal. O nosso objetivo foi associar descritores, que categorizam os acórdãos do tribunal Português, aos respetivos acórdãos. Este trabalho enfrentou diversos desafios, nos quais se incluem um elevado número de descritores, um conjunto de dados desbalanceado, a presença de muitas etiquetas raras (tail labels) e a extensão considerável dos documentos. Os resultados experimentais demonstram que a nossa abordagem alcançou uma variação de precisão/cobertura entre 0,57 e 0,68, indicando um desempenho promissor nesta tarefa complexa.
Derechos de autor 2025 Martim Zanatti, Ricardo Ribeiro, H. Sofia Pinto, José Borbinha

Esta obra está bajo licencia internacional Creative Commons Reconocimiento 4.0.
Los autores que envíen sus trabajos a esta revista implícitamente estón de acuerdo con los siguientes términos:
- Los autores retienen los derechos de autor de sus trabajos, permitiendo a esta revista su primera publicación bajo licencia de Creative Commons Attribution License, que permite a otros acceder libremente, usar y compartir dicho trabajo, citando adecuadamente la autoría del trabajo y su presentación en esta revista.
- Los autores pueden prescindir de los términos de licencia de CC y acordar por su cuenta arreglos contractuales adicionales independientes para la distribución no exclusiva y posterior publicación de este trabajo (p.e., para incluirlo en un repositorio institucional o publicarlo en un libro), citando adecuadamente su publicación inicial en esta revista.
- Además, se anima a los autores a poner en línea su trabajo (p.e., en repositorios institucionales o en su propio sitio web) en cualquier momento antes o durante el proceso de envío, ya que eso puede conducir a intercambios productivos y a un número mayor y más temprano de citas del trabajo publicado (Ver The Effect of Open Access).