Un método de análisis de lenguaje tipo SMS para el castellano

Andrés Alfonso Caurcel Díaz; Jose Maria Gomez Hidalgo; Yovan Iñiguez del Rio

Un método de análisis de lenguaje tipo SMS para el castellano

Autores

Andrés Alfonso Caurcel Díaz Universidad Politécnica de Madrid
Jose Maria Gomez Hidalgo Optenet
Yovan Iñiguez del Rio Universidad Politécnica de Madrid

Palavras-chave:

Lenguaje SMS, lenguaje chat, tokenizador, traductor automático, Procesamiento del Lenguaje Natural, detección de edad

Resumo

Debido a las características propias del lenguaje tipo SMS utilizado en las comunicaciones por medio de Internet y de los teléfonos móviles, no se puede realizar una tokenización o separación de palabras estándar a la hora de dividir en palabras una oración o frase. La cantidad de elementos no alfanuméricos que se pueden insertar en una palabra, los errores tipográficos y el hecho de no utilizar espacios entre palabras son las principales causas de este problema.

En este artículo presentamos un nuevo sistema de separación de palabras para el análisis del lenguaje natural en español en redes sociales y otras comunicaciones electrónicas. El sistema está integrado en una herramientas para la detección de edad en redes sociales enmarcada en el proyecto de investigación y desarrollo WENDY, y se evalúa cuantitativamente tanto de manera directa, como indirectamente en el marco de dicha aplicación, con resultados positivos en ambos casos.

Downloads

Publicado

2013-07-20

Edição

Vol. 5 N.º 1

Secção

Artigos de Investigação

Licença

Ao publicar na presente revista, os autores concordam com os seguintes termos:

os direitos sobre a obra pertencem aos autores, que apenas concedem à Linguamática o direito de primeira publicação sob a licença Creative Commons, que permite que outros possam redistribuir a obra desde que acompanhada de referência ao autor e à Linguamática.
os autores podem estabelecer outros contratos para a distribuição não exclusiva da obra, desde que mencionem que a sua primeira publicação foi efectuada na Linguamática.
para aumentar as referências ao seu trabalho, os autores são encorajados a disponibilizar a obra, como "pré-publicação", antes de ou durante o processo de apreciação pela Linguamática, por exemplo em repositórios institucionais ou nas suas páginas pessoais na rede.

Como Citar

Un método de análisis de lenguaje tipo SMS para el castellano. (2013). Linguamática, 5(1), 31-39. https://linguamatica.com/index.php/linguamatica/article/view/156

Descarregar Citação

Un método de análisis de lenguaje tipo SMS para el castellano

Autores

Palavras-chave:

Resumo

Downloads

Publicado

Edição

Secção

Licença

Como Citar

Idioma

logos