Uma utilidade para o reconhecimento de topónimos em documentos medievais

  • Xavier Canosa
  • Pablo Gamallo Universidade de Santiago de Compostela
  • Xavier Varela
  • José Ángel Taboada
  • Paulo Martínez Lema
  • Marcos Garcia
Palavras-chave: entidades geográficas, deteção de topónimos, reconhecimento de entidades mencionadas

Resumo

Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua
contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e
observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes.

Publicado
2019-07-20
Como Citar
Canosa, X., Gamallo, P., Varela, X., Taboada, J., Martínez Lema, P., & Garcia, M. (2019). Uma utilidade para o reconhecimento de topónimos em documentos medievais. Linguamática, 11(1), 3-15. https://doi.org/10.21814/lm.11.1.291
Edição
Secção
Artigos de Investigação