TY - JOUR AU - Santos, Diana AU - Ribeiro, Fernando PY - 2012/01/01 Y2 - 2024/03/29 TI - Uma incursão pelo universo das publicações em Portugal JF - Linguamática JA - Linguamática VL - 3 IS - 2 SE - Projectos, Apresentam-se DO - UR - https://linguamatica.com/index.php/linguamatica/article/view/112 SP - 85-98 AB - Neste artigo descrevemos um projeto de colaboração entre a Linguateca e o RCAAP (Repositório Científico de Acesso Aberto de Portugal) no sentido de determinar a possibilidade de melhorar a procura no meta-repositório deste último com ferramentas de processamento da língua portugesa. Após uma breve apresentação do projeto e da sua motivação nas duas primeiras secções, na secção 3 descrevemos a quantidade de procuras a que tivemos acesso, e nas quais baseamos o estudo, assim como fazemos uma descrição do material depositado no repositório com base em oito recolhas diferentes, no que se refere ao nome dos autores. Prosseguimos descrevendo a análise e processamento dos nomes dos autores (limpeza, normalização e agrupamento), assim como a análise da população de autores nos metadados e nas procuras nas duas secções seguintes, 4 e 5. Com isso identificamos uma série de possíveis grupos de autores, e descrevemos alguns problemas encontrados. Na secção 6, a mais importante do artigo, analisamos as sessões – ou seja, sequências de procuras feitas por um mesmo utilizador a interagir no portal – para verificar se há variação, correção e alteração no nome dos autores dentro de uma sessão. As secções seguintes, 7 e 8 referem-se a assuntos relacionados com a procura em repositórios de publicações, sobre os quais se fizeram pequenas experiências piloto no âmbito do presente projeto, e que permitem ilustrar o quanto ainda estamos aquém de utilizar robustamente quer correção ortográfica quer análise de citações em ambientes realistas, mas que indicam caminhos a seguir. Acabamos a apresentação com uma discussão de possíveis formas de prosseguir, após abordar levemente trabalho relacionado na secção 9. ER -