Extração de Relações utilizando Features Diferenciadas para Português

Erick Nilsen Pereira Souza; Daniela Barreiro Claro

Extração de Relações utilizando Features Diferenciadas para Português

Erick Nilsen Pereira Souza Universidade Federal da Bahia
Daniela Barreiro Claro Universidade Federal da Bahia

Resumen

A Extração de Relações (ER) é uma tarefa da Extração da Informação responsável pela descoberta de relacionamentos semânticos entre conceitos em textos não estruturados. Quando a extração não é limitada por um conjunto predefinido de relações, a ER é dita Aberta, cujo principal desafio consiste em reduzir a proporção de extrações inválidas no universo de relações identificadas. As soluções atuais, baseadas em aprendizado sobre um conjunto de features linguísticas específicas, embora consigam eliminar grande parte das extrações inválidas, possuem como desvantagem a alta dependência do idioma. Tal dependência decorre da dificuldade inerente à determinação do conjunto de features mais representativo para o problema, considerando as peculiaridades de cada língua. Neste sentido, o presente trabalho propõe avaliar as dificuldades da classificação baseada em features na extração de relações semânticas abertas em Português, com o objetivo de embasar novas soluções capazes de reduzir a dependência do idioma nesta tarefa. Os resultados obtidos indicam que nem todas as features representativas em Inglês podem ser mapeadas diretamente para a Língua Portuguesa com méritos de classificação satisfatórios. Dentre os algoritmos de classificação avaliados, o J48 apresentou os melhores resultados com uma medida-F de 84,1%, seguido pelo SVM (83,9%), Perceptron (82,0%) e Naive Bayes (79,9%).

Biografía del autor/a

Daniela Barreiro Claro, Universidade Federal da Bahia

Daniela é professora Adjunta da Universidade Federal da Bahia. Ela obteve o seu Mestrado em Ciências da Computação pela Universidade Federal de Santa Catarina (2000) e o seu Doutorado em Ciência da Computação - Université d'Angers/França (2006). Em 2009, ela fundou o Grupo de Pesquisa FORMAS - Formalismos e Aplicações Semânticas no CNPQ e desde então é líder deste grupo, promovendo pesquisas na área de Similaridade Semântica e Extração da Informação. Suas principais áreas de interesse são: Similaridade Semântica, Serviços Web Semânticos, Extração da Informação, Mineração de Dados, Recuperação da Informação

PDF (Português (Portugal))

Publicado

2014-12-26

Cómo citar

Souza, E. N. P., & Claro, D. B. (2014). Extração de Relações utilizando Features Diferenciadas para Português. Linguamática, 6(2), 57-65. Recuperado a partir de https://linguamatica.com/index.php/linguamatica/article/view/v6n2-4

Descargar Cita

Número

Vol. 6 Núm. 2

Sección

Artículos de investigación

Los autores que envíen sus trabajos a esta revista implícitamente estón de acuerdo con los siguientes términos:

Los autores retienen los derechos de autor de sus trabajos, permitiendo a esta revista su primera publicación bajo licencia de Creative Commons Attribution License, que permite a otros acceder libremente, usar y compartir dicho trabajo, citando adecuadamente la autoría del trabajo y su presentación en esta revista.
Los autores pueden prescindir de los términos de licencia de CC y acordar por su cuenta arreglos contractuales adicionales independientes para la distribución no exclusiva y posterior publicación de este trabajo (p.e., para incluirlo en un repositorio institucional o publicarlo en un libro), citando adecuadamente su publicación inicial en esta revista.
Además, se anima a los autores a poner en línea su trabajo (p.e., en repositorios institucionales o en su propio sitio web) en cualquier momento antes o durante el proceso de envío, ya que eso puede conducir a intercambios productivos y a un número mayor y más temprano de citas del trabajo publicado (Ver The Effect of Open Access).