Vencendo a escassez de recursos computacionais. Carvalho: Tradutor Automático Estatístico Inglês-Galego a partir do corpus paralelo Europarl Inglês-Português.

  • Paulo Malvar imaxin|software
  • José Ramom Pichel imaxin|software
  • Óscar Senra imaxin|software
  • Pablo Gamallo Universidade de Santiago de Compostela
  • Alberto García Igalia Free Software Company
Palavras-chave: Corpus paralelo, Inglês, Galego, Português, Tradução Automática Estatística

Resumo

à hora de desenvolver muitas ferramentas estatísticas de Processamento da Linguagem Natural torna-se essencial a utilização de grandes quantidades de dados. Para salvar a limitação da escassez de recursos computacionais para línguas minorizadas como o galego é necessário desenhar novas estratégias. No caso do galego, importantes romanistas têm teorizado que galego e português são variantes do português europeu. De um ponto de vista pragmático, esta hipótese poderia abrir uma nova linha de investigação para fornecer ao galego ricos recursos computacionais. Partindo do corpus paralelo inglês- português Europarl, imaxin|software compilou um corpus paralelo inglês-galego que utilizamos para criar um protótipo de tradutor automático estatístico inglês-galego, cuja performance é comparável a Google Translate. Mantemos que é possível implementar esta estratégia para desenvolver uma grande variedade de ferramentas computacionais para línguas, como o galego, intimamente relacionadas com línguas que já contam com um grande repertório de recursos computacionais.

Publicado
2010-05-29
Como Citar
Malvar, P., Pichel, J., Senra, Óscar, Gamallo, P., & García, A. (2010). Vencendo a escassez de recursos computacionais. Carvalho: Tradutor Automático Estatístico Inglês-Galego a partir do corpus paralelo Europarl Inglês-Português. Linguamática, 2(2), 31-38. Obtido de http://linguamatica.com/index.php/linguamatica/article/view/57
Edição
Secção
Artigos de Investigação