BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro

Douglas Vitório; Ellen Souza; José Antônio dos Santos; André Carlos Ponce de Leon Ferreira de Carvalho; Adriano L. I. Oliveira; Nádia F. F. da Silva

doi:10.21814/lm.17.1.474

BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro

Autores/as

Douglas Vitório Centro de Informática, Universidade Federal de Pernambuco https://orcid.org/0000-0003-2285-574X (no autenticado)
Ellen Souza Universidade Federal Rural de Pernambuco https://orcid.org/0000-0002-7706-4809 (no autenticado)
José Antônio dos Santos Universidade de Pernambuco https://orcid.org/0000-0002-1917-3003 (no autenticado)
André Carlos Ponce de Leon Ferreira Universidade de São Paulo https://orcid.org/0000-0002-4765-6459 (no autenticado)
Adriano L. I. Oliveira Centro de Informática, Universidade Federal de Pernambuco https://orcid.org/0000-0002-5614-229X (no autenticado)
Nádia F. F. da Silva Universidade Federal de Goiás https://orcid.org/0000-0002-3875-2211 (no autenticado)

DOI:

https://doi.org/10.21814/lm.17.1.474

Palabras clave:

recuperação de informação, documentos legislativos, modelos de linguagem, BERT, BM25

Resumen

Modelos baseados em BERT vêm sendo largamente utilizados, tornando-se o estado da arte para muitas tarefas de Processamento de Linguagem Natural e também para Recuperação de Informação. A arquitetura Sentence-BERT permitiu que esses modelos fossem facilmente utilizados para a busca semântica de documentos, já que ela gera embeddings contextuais que podem ser comparados através de medidas de similaridade. Para melhor investigar a aplicação de modelos baseados em BERT para Recuperação de Informação, este trabalho avaliou 12 modelos Sentence-BERT, disponíveis publicamente, para a recuperação de documentos no cenário legislativo brasileiro. Duas variantes do algoritmo BM25 foram utilizadas como baseline: Okapi BM25 e BM25L. O BM25L alcançou melhores resultados, com significância estatística, mesmo no cenário em que os documentos não foram pré-processados, enquanto que apenas um dos modelos de linguagem, ajustado usando dados legislativos brasileiros, obteve um desempenho similar para uma das três bases de dados utilizadas

Descargas

PDF (portugués)

Publicado

2025-06-30

Número

Vol. 17 Núm. 1

Sección

Artículos de investigación

Licencia

Los autores que envíen sus trabajos a esta revista implícitamente estón de acuerdo con los siguientes términos:

Los autores retienen los derechos de autor de sus trabajos, permitiendo a esta revista su primera publicación bajo licencia de Creative Commons Attribution License, que permite a otros acceder libremente, usar y compartir dicho trabajo, citando adecuadamente la autoría del trabajo y su presentación en esta revista.
Los autores pueden prescindir de los términos de licencia de CC y acordar por su cuenta arreglos contractuales adicionales independientes para la distribución no exclusiva y posterior publicación de este trabajo (p.e., para incluirlo en un repositorio institucional o publicarlo en un libro), citando adecuadamente su publicación inicial en esta revista.
Además, se anima a los autores a poner en línea su trabajo (p.e., en repositorios institucionales o en su propio sitio web) en cualquier momento antes o durante el proceso de envío, ya que eso puede conducir a intercambios productivos y a un número mayor y más temprano de citas del trabajo publicado (Ver The Effect of Open Access).

Cómo citar

BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro. (2025). Linguamática, 17(1), 17-33. https://doi.org/10.21814/lm.17.1.474