Clasificación automática de textos por niveis de lecturabilidade: recursos e modelos para o galego

Autores/as

DOI:

https://doi.org/10.21814/lm.17.2.488

Palabras clave:

corpus de lecturabilidade, avaliación automática da lecturabilidade, clasificación de textos, galego, fine-tuning, aprendizaxe para adultos

Resumen

A avaliación automática da lecturabilidade textual constitúe un campo en expansión no ámbito do procesamento das linguas naturais, cun impacto relevante en áreas como o ensino e a aprendizaxe de linguas e a accesibilidade. Neste contexto, este artigo presenta Corlega, o primeiro corpus de textos en galego clasificados por niveis de lecturabilidade, composto por 480 documentos dirixidos a persoas adultas. O corpus abrangue 11 categorías e 36 subcategorías con diferentes xéneros textuais, subxéneros e tipos de textos. O proceso de selección e compilación de documentos, así como de clasificación, segue os estándares do proxecto iRead4Skills, que desenvolve recursos e modelos computacionais para o portugués, o español e o francés.
Para compilar Corlega, este traballo define seis niveis de lecturabilidade en galego, para os que propón un conxunto de descritores lingüísticos. Con base nesta taxonomía, describimos o proceso de compilación do corpus e a súa distribución actual ---en catro dos seis niveis de lecturabilidade---, así como as principais características deste novo recurso. Adicionalmente, empregamos o corpus para adestrar e avaliar ferramentas de clasificación automática da lecturabilidade, mediante o axuste de modelos Transformers monolingües e multilingües e a implementación de modelos híbridos. Os resultados suxiren que, con corpus de adestramento de tamaño reducido, a extracción de características de modelos preadestrados permite obter resultados competitivos co axuste supervisado dos modelos. Con todo, a combinación de corpus de diferentes linguas permite axustar modelos multilingües con mellor desempeño. Tanto o corpus como os modelos están dispoñibles para a comunidade científica.

Referencias

Publicado

2025-11-23

Número

Sección

Artículos de investigación

Cómo citar

Clasificación automática de textos por niveis de lecturabilidade: recursos e modelos para o galego. (2025). Linguamática, 17(2), 33-56. https://doi.org/10.21814/lm.17.2.488