Clasificación automática de textos por niveis de lecturabilidade: recursos e modelos para o galego

  • Sandra Rodríguez Rey CITIUS - Universidade de Santiago de Compostela
  • Marcos Garcia Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS), Universidade de Santiago de Compostela https://orcid.org/0000-0002-6557-0210
Palavras-chave: corpus de lecturabilidade, avaliación automática da lecturabilidade, clasificación de textos, galego, fine-tuning, aprendizaxe para adultos

Resumo

A avaliación automática da lecturabilidade textual constitúe un campo en expansión no ámbito do procesamento das linguas naturais, cun impacto relevante en áreas como o ensino e a aprendizaxe de linguas e a accesibilidade. Neste contexto, este artigo presenta Corlega, o primeiro corpus de textos en galego clasificados por niveis de lecturabilidade, composto por 480 documentos dirixidos a persoas adultas. O corpus abrangue 11 categorías e 36 subcategorías con diferentes xéneros textuais, subxéneros e tipos de textos. O proceso de selección e compilación de documentos, así como de clasificación, segue os estándares do proxecto iRead4Skills, que desenvolve recursos e modelos computacionais para o portugués, o español e o francés.
Para compilar Corlega, este traballo define seis niveis de lecturabilidade en galego, para os que propón un conxunto de descritores lingüísticos. Con base nesta taxonomía, describimos o proceso de compilación do corpus e a súa distribución actual ---en catro dos seis niveis de lecturabilidade---, así como as principais características deste novo recurso. Adicionalmente, empregamos o corpus para adestrar e avaliar ferramentas de clasificación automática da lecturabilidade, mediante o axuste de modelos Transformers monolingües e multilingües e a implementación de modelos híbridos. Os resultados suxiren que, con corpus de adestramento de tamaño reducido, a extracción de características de modelos preadestrados permite obter resultados competitivos co axuste supervisado dos modelos. Con todo, a combinación de corpus de diferentes linguas permite axustar modelos multilingües con mellor desempeño. Tanto o corpus como os modelos están dispoñibles para a comunidade científica.

Publicado
2025-11-23
Como Citar
Rodríguez Rey, S., & Garcia, M. (2025). Clasificación automática de textos por niveis de lecturabilidade: recursos e modelos para o galego. Linguamática, 17(2), preprint. Obtido de https://linguamatica.com/index.php/linguamatica/article/view/488
Edição
Secção
Artigos de Investigação