Criação e Acesso a Informação Semântica Aplicada ao Governo Eletrónico
Resumen
Os cidadãos, empresas ou serviços públicos - os clientes - que procuram informações no contexto do Governo Eletrónico visam obter respostas objetivas às suas questões. Para isso é necessário que os sistemas de pesquisa consigam manipular a informação de modo a que seja disponibilizada de uma forma eficaz e adequada às necessidades de cada cliente. Uma vez que grande parte dos documentos do governo estão escritos em formatos não estruturados e em linguagem natural, é necessário desenvolver métodos para obter e estruturar este tipo de informação. A alternativa seria indexar pelo seu texto a grande quantidade de documentos existente, uma solução desadequada no contexto do Governo Eletrónico, uma vez que assim seriam retornados frequentemente muitos resultados a cada pesquisa.
Este artigo apresenta um primeiro protótipo de uma aplicação que gera informação semântica a partir de textos escritos em Português. A informação semântica gerada corresponde a um domínio de conhecimento definido por um operador humano através de uma interface gráfica, de modo a que o sistema seja adaptável às diferentes áreas de atuação do Governo Eletrónico. O conteúdo é acessível através de uma interface em linguagem natural e através de uma interface de pesquisa que aceita entradas SPARQL. Deste modo é possível aos clientes aceder diretamente ou integrar este sistema com os seus próprios sistemas de informação. A aplicação está organizada em três grandes módulos: Representação do Conhecimento que permite definir domínio de conhecimento e sua semântica e criar exemplos semente, nos textos, de conceitos do domínio de conhecimento; Processamento de Linguagem Natural que permite obter estruturas sintáticas associadas às frases em linguagem natural; e Extração e Integração Semântica que utiliza os exemplos semente para treinar classificadores estatísticos a identificar nas estruturas sintáticas os conceitos do domínio de conhecimento, que utiliza os classificadores treinados para detetar esses conceitos em estruturas sintáticas de novas frases, e que contém as interfaces para pessoas e máquinas.
Neste artigo apresentamos igualmente exemplos ilustrativos da utilização do sistema e os resultados de uma primeira avaliação de desempenho. O sistema funciona para o Português e foi construído reutilizando software do estado da arte, maioritariamente desenvolvido visando o Inglês. A sua modularidade permite alterar a língua base do sistema, de Português para outra, alterando o módulo de Processamento de Linguagem Natural e sem ser necessário alterar os restantes módulos da aplicação.
Los autores que envíen sus trabajos a esta revista implícitamente estón de acuerdo con los siguientes términos:
- Los autores retienen los derechos de autor de sus trabajos, permitiendo a esta revista su primera publicación bajo licencia de Creative Commons Attribution License, que permite a otros acceder libremente, usar y compartir dicho trabajo, citando adecuadamente la autoría del trabajo y su presentación en esta revista.
- Los autores pueden prescindir de los términos de licencia de CC y acordar por su cuenta arreglos contractuales adicionales independientes para la distribución no exclusiva y posterior publicación de este trabajo (p.e., para incluirlo en un repositorio institucional o publicarlo en un libro), citando adecuadamente su publicación inicial en esta revista.
- Además, se anima a los autores a poner en línea su trabajo (p.e., en repositorios institucionales o en su propio sitio web) en cualquier momento antes o durante el proceso de envío, ya que eso puede conducir a intercambios productivos y a un número mayor y más temprano de citas del trabajo publicado (Ver The Effect of Open Access).