TY - JOUR AU - Borges dos Santos, Leandro dos AU - Aluísio, Sandra Maria PY - 2020/01/04 Y2 - 2024/03/28 TI - Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica JF - Linguamática JA - Linguamática VL - 11 IS - 2 SE - Artigos de Investigação DO - 10.21814/lm.11.2.304 UR - https://linguamatica.com/index.php/linguamatica/article/view/304 SP - 47-63 AB - Os diagnósticos da Doença de Alzheimer (DA) e do Comprometimento Cognitivo Leve (CCL) baseiam-se na análise das funções cognitivas do paciente pela administração de baterias de avaliação cognitiva e neuropsicológica. O emprego do reconto de narrativas é comum para auxiliar a identificação e quantificação do grau de demência: é atribuído um ponto para cada unidade recordada, e o escore final representa a quantidade de unidades recordadas. Avaliamos duas tarefas da área clínica: a identificação automática de quais elementos de uma narrativa recontada foram recordados; e a classificação binária da narrativa produzida por um paciente, tendo as unidades identificadas como atributos, visando uma triagem automática dos pacientes com comprometimentos cognitivos. Utilizamos dois conjuntos de dados de reconto transcritos que possuem as sentenças divididas e anotadas manualmente com as unidades de informação e os disponibilizamos publicamente. São eles: a Bateria Arizona para Desordens de Comunicação e Demência (ABCD) com narrativas de pacientes com CCL e Controles Saudáveis e a Bateria de Avaliação da Linguagem no Envelhecimento (BALE), com narrativas de pacientes com DA e CCLs, e Controles Saudáveis. Avaliamos dois métodos baseados em similaridade semântica, chamados de STS e Chunking, e transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, encontrando um ponto de corte para o valor de similaridade de cada unidade de informação. Dessa forma, conseguimos superar dois baselines para os dois conjuntos de dados na métrica SubsetAccuracy, que é a mais punitiva para o cenário multirrótulo. Na classificação binária nem todos os seis métodos de aprendizado de máquina avaliados tiveram melhor desempenho do que os baselines de identificação de unidades de informação. Para a ABCD, os melhores métodos foram Árvores de Decisão e KNN, e para a BALE, o SVM com kernel RBF. ER -