Clasificación automática de textos por niveis de lecturabilidade: recursos e modelos para o galego

Sandra Rodríguez Rey; Marcos Garcia

doi:10.21814/lm.17.2.488

Clasificación automática de textos por niveis de lecturabilidade: recursos e modelos para o galego

Autores

Sandra Rodríguez Rey CITIUS - Universidade de Santiago de Compostela
Marcos Garcia Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS), Universidade de Santiago de Compostela https://orcid.org/0000-0002-6557-0210 (não autenticado)

DOI:

https://doi.org/10.21814/lm.17.2.488

Palavras-chave:

corpus de lecturabilidade, avaliación automática da lecturabilidade, clasificación de textos, galego, fine-tuning, aprendizaxe para adultos

Resumo

A avaliación automática da lecturabilidade textual constitúe un campo en expansión no ámbito do procesamento das linguas naturais, cun impacto relevante en áreas como o ensino e a aprendizaxe de linguas e a accesibilidade. Neste contexto, este artigo presenta Corlega, o primeiro corpus de textos en galego clasificados por niveis de lecturabilidade, composto por 480 documentos dirixidos a persoas adultas. O corpus abrangue 11 categorías e 36 subcategorías con diferentes xéneros textuais, subxéneros e tipos de textos. O proceso de selección e compilación de documentos, así como de clasificación, segue os estándares do proxecto iRead4Skills, que desenvolve recursos e modelos computacionais para o portugués, o español e o francés.
Para compilar Corlega, este traballo define seis niveis de lecturabilidade en galego, para os que propón un conxunto de descritores lingüísticos. Con base nesta taxonomía, describimos o proceso de compilación do corpus e a súa distribución actual ---en catro dos seis niveis de lecturabilidade---, así como as principais características deste novo recurso. Adicionalmente, empregamos o corpus para adestrar e avaliar ferramentas de clasificación automática da lecturabilidade, mediante o axuste de modelos Transformers monolingües e multilingües e a implementación de modelos híbridos. Os resultados suxiren que, con corpus de adestramento de tamaño reducido, a extracción de características de modelos preadestrados permite obter resultados competitivos co axuste supervisado dos modelos. Con todo, a combinación de corpus de diferentes linguas permite axustar modelos multilingües con mellor desempeño. Tanto o corpus como os modelos están dispoñibles para a comunidade científica.

Downloads

Publicado

2025-11-23

Edição

Vol. 17 N.º 2

Secção

Artigos de Investigação

Licença

Ao publicar na presente revista, os autores concordam com os seguintes termos:

os direitos sobre a obra pertencem aos autores, que apenas concedem à Linguamática o direito de primeira publicação sob a licença Creative Commons, que permite que outros possam redistribuir a obra desde que acompanhada de referência ao autor e à Linguamática.
os autores podem estabelecer outros contratos para a distribuição não exclusiva da obra, desde que mencionem que a sua primeira publicação foi efectuada na Linguamática.
para aumentar as referências ao seu trabalho, os autores são encorajados a disponibilizar a obra, como "pré-publicação", antes de ou durante o processo de apreciação pela Linguamática, por exemplo em repositórios institucionais ou nas suas páginas pessoais na rede.

Como Citar

Clasificación automática de textos por niveis de lecturabilidade: recursos e modelos para o galego. (2025). Linguamática, 17(2), 33-56. https://doi.org/10.21814/lm.17.2.488