Extração de Informação Aberta com LLM para a Língua Portuguesa

Bruno Cabral; Marlo Souza; Daniela Barreiro Claro

doi:10.21814/lm.16.2.454

Extração de Informação Aberta com LLM para a Língua Portuguesa

Bruno Cabral Universidade Federal da Bahia https://orcid.org/0000-0002-5221-2860
Marlo Souza Universidade Federal da Bahia https://orcid.org/0000-0002-5373-7271
Daniela Barreiro Claro Universidade Federal da Bahia https://orcid.org/0000-0001-8586-1042

DOI: https://doi.org/10.21814/lm.16.2.454

Palavras-chave: EIA, LLM, extração de informação, corpus

Resumo

Neste estudo, investigamos a aplicação de Modelos de Linguagem de Grande Escala (LLMs) para Extração de Informação Aberta (EIA) em língua portuguesa. Enquanto a maioria dos métodos de EIA foi desenvolvida visando a língua inglesa, poucos trabalhos na literatura exploram cenários multilíngues e interlinguísticos. Embora haja um crescente interesse em métodos de EIA para o português, o uso de LLMs especificamente focados em EIA nesta língua ainda é pouco explorado. Analisamos a viabilidade de incorporar LLMs abertos e comerciais utilizando engenharia de prompts com poucos exemplos para EIA em português. Fornecemos uma análise detalhada do desempenho desses LLMs em tarefas de EIA, demonstrando que eles alcançam métricas de desempenho comparáveis aos sistemas de última geração. Além disso, refinamos e lançamos um LLM aberto para EIA, denominado PortOIE-Llama, que supera os LLMs comerciais em nossos experimentos. Nossos resultados destacam o potencial dos LLMs em tarefas de EIA em português e sugerem que um refinamento e ajuste fino de modelos maiores podem aprimorar ainda mais esses resultados.

Publicado

2024-12-31

Como Citar

Cabral, B., Souza, M., & Claro, D. B. (2024). Extração de Informação Aberta com LLM para a Língua Portuguesa. Linguamática, 16(2), 167-182. https://doi.org/10.21814/lm.16.2.454

Descarregar Citação

Edição

v. 16 n. 2

Secção

PROPOR 2024 | Artigos Convidados

This work is licensed under a Creative Commons Attribution 4.0 International License.

Ao publicar na presente revista, os autores concordam com os seguintes termos:

os direitos sobre a obra pertencem aos autores, que apenas concedem à Linguamática o direito de primeira publicação sob a licença Creative Commons, que permite que outros possam redistribuir a obra desde que acompanhada de referência ao autor e à Linguamática.
os autores podem estabelecer outros contratos para a distribuição não exclusiva da obra, desde que mencionem que a sua primeira publicação foi efectuada na Linguamática.
para aumentar as referências ao seu trabalho, os autores são encorajados a disponibilizar a obra, como "pré-publicação", antes de ou durante o processo de apreciação pela Linguamática, por exemplo em repositórios institucionais ou nas suas páginas pessoais na rede.