Clasificación automática de textos por niveis de lecturabilidade: recursos e modelos para o galego
Resumo
A avaliación automática da lecturabilidade textual constitúe un campo en expansión no ámbito do procesamento das linguas naturais, cun impacto relevante en áreas como o ensino e a aprendizaxe de linguas e a accesibilidade. Neste contexto, este artigo presenta Corlega, o primeiro corpus de textos en galego clasificados por niveis de lecturabilidade, composto por 480 documentos dirixidos a persoas adultas. O corpus abrangue 11 categorías e 36 subcategorías con diferentes xéneros textuais, subxéneros e tipos de textos. O proceso de selección e compilación de documentos, así como de clasificación, segue os estándares do proxecto iRead4Skills, que desenvolve recursos e modelos computacionais para o portugués, o español e o francés.
Para compilar Corlega, este traballo define seis niveis de lecturabilidade en galego, para os que propón un conxunto de descritores lingüísticos. Con base nesta taxonomía, describimos o proceso de compilación do corpus e a súa distribución actual ---en catro dos seis niveis de lecturabilidade---, así como as principais características deste novo recurso. Adicionalmente, empregamos o corpus para adestrar e avaliar ferramentas de clasificación automática da lecturabilidade, mediante o axuste de modelos Transformers monolingües e multilingües e a implementación de modelos híbridos. Os resultados suxiren que, con corpus de adestramento de tamaño reducido, a extracción de características de modelos preadestrados permite obter resultados competitivos co axuste supervisado dos modelos. Con todo, a combinación de corpus de diferentes linguas permite axustar modelos multilingües con mellor desempeño. Tanto o corpus como os modelos están dispoñibles para a comunidade científica.
Direitos de Autor (c) 2025 Sandra Rodríguez Rey, Marcos Garcia

This work is licensed under a Creative Commons Attribution 4.0 International License.
Ao publicar na presente revista, os autores concordam com os seguintes termos:
- os direitos sobre a obra pertencem aos autores, que apenas concedem à Linguamática o direito de primeira publicação sob a licença Creative Commons, que permite que outros possam redistribuir a obra desde que acompanhada de referência ao autor e à Linguamática.
- os autores podem estabelecer outros contratos para a distribuição não exclusiva da obra, desde que mencionem que a sua primeira publicação foi efectuada na Linguamática.
- para aumentar as referências ao seu trabalho, os autores são encorajados a disponibilizar a obra, como "pré-publicação", antes de ou durante o processo de apreciação pela Linguamática, por exemplo em repositórios institucionais ou nas suas páginas pessoais na rede.








