Extracção de Relações Semânticas de Textos em Português Explorando a DBpédia e a Wikipédia

David Soares Batista; David Forte; Rui Silva; Bruno Martins; Mário Silva

Extracção de Relações Semânticas de Textos em Português Explorando a DBpédia e a Wikipédia

Autores

David Soares Batista Instituto Superior Técnico, INESC-ID
David Forte Instituto Superior Técnico, INESC-ID
Rui Silva Instituto Superior Técnico, INESC-ID
Bruno Martins Instituto Superior Técnico, INESC-ID
Mário Silva Instituto Superior Técnico, INESC-ID

Palavras-chave:

Extração de Relações, Extração de Informação

Resumo

A identificação de relações semânticas, expressas entre entidades mencionadas em textos, é um passo importante para a extracção automática de conhecimento a partir de grandes colecções de documentos, tais como a Web. Vários trabalhos anteriores abordaram esta tarefa para o caso da língua inglesa, usando técnicas de aprendizagem automática supervisionada para classificação de relações, sendo que o actual estado da arte recorre a métodos baseados em string kernels. No entanto, estas abordagens requerem dados de treino anotados manualmente para cada tipo de relação, além de que os mesmos têm problemas de escalabilidade para as dezenas ou centenas de diferentes tipos de relações que podem ser expressas. Este artigo discute uma abordagem com supervisão distante para a extracção de relações de textos escritos em português, a qual usa uma técnica eficiente para a medição de similaridade entre exemplares de relações, baseada em valores mínimos de dispersão (i.e., min-hashing) e em dispersão sensível à localização (i.e., Locality-Sensitive Hashing).

No método proposto, os exemplos de treino são recolhidos automaticamente da Wikipédia, correspondendo a frases que expressam relações entre pares de entidades extraídas da DBPédia. Estes exemplos são representados como conjuntos de tetragramas de caracteres e de outros elementos representativos, sendo os conjuntos indexados numa estrutura de dados que implementa a ideia da dispersão sensível à localização. Procuram-se os exemplos de treino mais similares para verificar qual a relação semântica que se encontra expressa entre um determinado par de entidades numa frase, com base numa aproximação ao coeficiente de Jaccard obtida por min-hashing. A relação é atribuída por votação ponderada, com base nestes exemplos. Testes com um conjunto de dados da Wikipédia comprovam a adequabilidade do método proposto, tendo sido extraídos 10 tipos diferentes de relações, 8 deles assimétricos, com uma pontuação média de 55.6% em termos da medida F1.

Downloads

Publicado

2013-07-20

Edição

Vol. 5 N.º 1

Secção

Artigos de Investigação

Licença

Ao publicar na presente revista, os autores concordam com os seguintes termos:

os direitos sobre a obra pertencem aos autores, que apenas concedem à Linguamática o direito de primeira publicação sob a licença Creative Commons, que permite que outros possam redistribuir a obra desde que acompanhada de referência ao autor e à Linguamática.
os autores podem estabelecer outros contratos para a distribuição não exclusiva da obra, desde que mencionem que a sua primeira publicação foi efectuada na Linguamática.
para aumentar as referências ao seu trabalho, os autores são encorajados a disponibilizar a obra, como "pré-publicação", antes de ou durante o processo de apreciação pela Linguamática, por exemplo em repositórios institucionais ou nas suas páginas pessoais na rede.

Como Citar

Extracção de Relações Semânticas de Textos em Português Explorando a DBpédia e a Wikipédia. (2013). Linguamática, 5(1), 41-57. https://linguamatica.com/index.php/linguamatica/article/view/157

Descarregar Citação

Extracção de Relações Semânticas de Textos em Português Explorando a DBpédia e a Wikipédia

Autores

Palavras-chave:

Resumo

Downloads

Publicado

Edição

Secção

Licença

Como Citar

Idioma

logos