Estratégias de Seleção de Conteúdo com Base na CST (Cross-document Structure Theory) para Sumarização Automática Multidocumento

  • Maria Lucia del Rosario Castro Jorge Universidade de São Paulo
  • Thiago Alexandre Salgueiro Pardo Universidade de São Paulo

Abstract

O presente trabalho apresenta a definição, formalização e avaliação de estratégias de seleção de conteúdo para sumarização automática multidocumento com base na teoria discursiva CST (Cross-document Structure Theory). A tarefa de seleção de conteúdo foi modelada por meio de operadores que representam possíveis preferências do usuário para a sumarização. Estes operadores são especificados em templates contendo regras e funções que relacionam essas preferências às relações CST. Em particular, definimos operadores para extrair a informação principal, apresentar informação de contexto, identificar autoria, tratar redundâncias e identificar informação contraditória. Nossos experimentos foram feitos usando um córpus jornalístico de textos escritos em português brasileiro e mostram que o uso da CST melhora a qualidade do conteúdo selecionado para os sumários, já que se exploram as relações entre os conteúdos dos diferentes textos.
 

Author Biography

Maria Lucia del Rosario Castro Jorge, Universidade de São Paulo

Aluna de Mestrado.

Published
2010-04-07
How to Cite
Jorge, M. L. del R. C., & Pardo, T. A. S. (2010). Estratégias de Seleção de Conteúdo com Base na CST (Cross-document Structure Theory) para Sumarização Automática Multidocumento. Linguamática, 2(1), 95-109. Retrieved from https://linguamatica.com/index.php/linguamatica/article/view/52
Section
Research Articles