Kernels para la clasificacíon de preguntas en español y catalán

David Tomás; José Luis Vicedo

Kernels para la clasificacíon de preguntas en español y catalán

David Tomás Universidad de Alicante
José Luis Vicedo Universidad de Alicante

Resumo

Este artículo presenta una aproximacíon a la clasificación automática de preguntas en español y catalán. El sistema de clasificación está basado en el algoritmo SVM y en el uso de diferentes funciones kernel, empleando únicamente características textuales superficiales que permiten la obtencíon de un sistema fácilmente adaptable a diferentes idiomas. Se ha realizado un estudio sobre el correcto a juste de parámetros de los kernels, la precisíon de los mismos, la definicíon de distintos vectores de características de aprendizaje y el rendimiento en función del idioma de trabajo. Adicionalmente, se ha experimentado con el algoritmo LIBLINEAR, aplicado aquí por vez primera a la tarea de clasificación de preguntas. Con este algoritmo, así como con los kernels definidos, se han obtenido valores de precisión por encima del 80 % para los dos idiomas tratados, superando a otros algoritmos tradicionales de clasificación. Para el entrenamiento y evaluación del sistema se ha desarrollado un corpus paralelo de 2.393 preguntas en inglés, español y catalán.

PDF (English)

Publicado

2009-11-27

Como Citar

Tomás, D., & Vicedo, J. L. (2009). Kernels para la clasificacíon de preguntas en español y catalán. Linguamática, 1(2), 41-53. Obtido de https://linguamatica.com/index.php/linguamatica/article/view/31

Descarregar Citação

Edição

v. 1 n. 2

Secção

Artigos de Investigação

Ao publicar na presente revista, os autores concordam com os seguintes termos:

os direitos sobre a obra pertencem aos autores, que apenas concedem à Linguamática o direito de primeira publicação sob a licença Creative Commons, que permite que outros possam redistribuir a obra desde que acompanhada de referência ao autor e à Linguamática.
os autores podem estabelecer outros contratos para a distribuição não exclusiva da obra, desde que mencionem que a sua primeira publicação foi efectuada na Linguamática.
para aumentar as referências ao seu trabalho, os autores são encorajados a disponibilizar a obra, como "pré-publicação", antes de ou durante o processo de apreciação pela Linguamática, por exemplo em repositórios institucionais ou nas suas páginas pessoais na rede.