Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales

  • Carlos-Emiliano González-Gallardo LIA-Université d’Avignon
  • Juan-Manuel Torres-Moreno Laboratoire Informatique d'Avignon - UAPV
  • Azucena Montes Rendón CENIDET
  • Gerardo Sierra GIL - UNAM
Palabras clave: Minería de textos, Aprendizaje automático, Clasificación, n-gramas, Blogs, Tweets, Redes sociales

Resumen

En este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámica dependiente del contexto para extraer la mayor cantidad de información estilística posible codificada en los documentos (emoticonos, inundamiento de caracteres, uso de letras mayúsculas, referencias a usuarios, ligas a sitios externos, hashtags, etc.).

El algoritmo fue aplicado sobre dos corpus diferentes: los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015 y el corpus de "Comentarios de la Ciudad de México en el tiempo" (CCDMX). Los resultados presentan una exactitud muy alta, cercana al 90%.

Biografía del autor/a

Juan-Manuel Torres-Moreno, Laboratoire Informatique d'Avignon - UAPV
Responsable del Equipo de Procesamiento de Lenguaje Natural (TALNE - LIA)
Publicado
2016-07-22
Cómo citar
González-Gallardo, C.-E., Torres-Moreno, J.-M., Montes Rendón, A., & Sierra, G. (2016). Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales. Linguamática, 8(1), 21-29. Recuperado a partir de https://linguamatica.com/index.php/linguamatica/article/view/v8n1-2
Sección
Artículos de investigación