Extração de Informação Aberta com LLM para a Língua Portuguesa

  • Bruno Cabral
  • Marlo Souza Universidade Federal da Bahia
  • Daniela Barreiro Claro Departamento de Ciência da ComputaçãoUniversidade Federal da Bahia
Palavras-chave: EIA, LLM, extração de informação, corpus

Resumo

Neste estudo, investigamos a aplicação de Modelos de Linguagem de Grande Escala (LLMs) para Extração de Informação Aberta (EIA) em língua portuguesa. Enquanto a maioria dos métodos de EIA foi desenvolvida visando a língua inglesa, poucos trabalhos na literatura exploram cenários multilíngues e interlinguísticos. Embora haja um crescente interesse em métodos de EIA para o português, o uso de LLMs especificamente focados em EIA nesta língua ainda é pouco explorado. Analisamos a viabilidade de incorporar LLMs abertos e comerciais utilizando engenharia de prompts com poucos exemplos para EIA em português. Fornecemos uma análise detalhada do desempenho desses LLMs em tarefas de EIA, demonstrando que eles alcançam métricas de desempenho comparáveis aos sistemas de última geração. Além disso, refinamos e lançamos um LLM aberto para EIA, denominado PortOIE-Llama, que supera os LLMs comerciais em nossos experimentos. Nossos resultados destacam o potencial dos LLMs em tarefas de EIA em português e sugerem que um refinamento e ajuste fino de modelos maiores podem aprimorar ainda mais esses resultados.

Publicado
2025-01-20
Como Citar
Cabral, B., Souza, M., & Claro, D. B. (2025). Extração de Informação Aberta com LLM para a Língua Portuguesa. Linguamática, 16(2), preprint. Obtido de https://linguamatica.com/index.php/linguamatica/article/view/454
Edição
Secção
PROPOR 2024 | Artigos Convidados