Estudio de la influencia de incorporar conocimiento léxico-semántico a la técnica de Análisis de Componentes Principales para la generación de resúmenes multilingües
Resumen
El objetivo de la generación automática de resúmenes es reducir la dimensión de un texto y a su vez mantener la información relevante del mismo. En este artículo se analiza y aplica la técnica de Análisis de Componentes Principales, que es independiente del idioma, para la generación de resúmenes extractivos mono-documento y multilingües. Dicha técnica se estudiará con el objetivo de poder evaluar su funcionamiento cuando se incorpora (o no) conocimiento léxico-semántico, a partir del uso de recursos y herramientas dependientes del idioma. La experimentación propuesta se ha realizado en base a dos corpus de diferente naturaleza: noticias periodísticas y artículos de la Wikipedia en tres idiomas (alemán, español e inglés) para verificar el uso de esta técnica en varios escenarios. Los enfoques propuestos presentan resultados muy competitivos comparados con generadores de resúmenes multilingües existentes, lo que indica que, aunque exista un claro margen de mejora respecto a la técnica y el tipo de conocimiento incorporado, ésta tiene una gran potencial para ser aplicada en otros contextos e idiomas.
Los autores que envíen sus trabajos a esta revista implícitamente estón de acuerdo con los siguientes términos:
- Los autores retienen los derechos de autor de sus trabajos, permitiendo a esta revista su primera publicación bajo licencia de Creative Commons Attribution License, que permite a otros acceder libremente, usar y compartir dicho trabajo, citando adecuadamente la autoría del trabajo y su presentación en esta revista.
- Los autores pueden prescindir de los términos de licencia de CC y acordar por su cuenta arreglos contractuales adicionales independientes para la distribución no exclusiva y posterior publicación de este trabajo (p.e., para incluirlo en un repositorio institucional o publicarlo en un libro), citando adecuadamente su publicación inicial en esta revista.
- Además, se anima a los autores a poner en línea su trabajo (p.e., en repositorios institucionales o en su propio sitio web) en cualquier momento antes o durante el proceso de envío, ya que eso puede conducir a intercambios productivos y a un número mayor y más temprano de citas del trabajo publicado (Ver The Effect of Open Access).