@article{Balbachan_Dell’Era_2010, title={Inducción de constituyentes sintácticos en español con técnicas de clustering y filtrado por información mutua}, volume={2}, url={https://linguamatica.com/index.php/linguamatica/article/view/60}, abstractNote={<p>El Argumento de la Pobreza de los Estímulos (Argument from the Poverty of Stimulus, APS) se presenta como el gran campo de debate epistemológico entre el paradigma simbólico y el paradigma estadístico en ling&uuml;ística computacional (Pullum y Scholz 2002). Desde 2000 en adelante aparecieron algunos trabajos dentro del paradigma estadístico que se propusieron atacar el Argumento de la Pobreza de los Estímulos a partir de la postulación de algún algoritmo general no supervisado de adquisición integral del lenguaje. Entre los aportes más importantes, la tesis de doctorado de Clark (2001) recurre a diversas técnicas estadísticas para dar con un algoritmo general no supervisado de inducción del lenguaje, y en particular, de una gramática independiente de contexto para el inglés.</p><p>Clark (2001) trabaja con distintas técnicas de inducción para cada fenómeno ling&uuml;ístico modelizado: morfología mediante modelos markovianos, categorización (POS-tagging) mediante clustering, etc. Puntualmente, en este trabajo estamos interesados en la inducción de constituyentes sintácticos, dado un corpus etiquetado por clase de palabras (POS-tagged), como paso previo al procedimiento de inducción de una gramática independiente de contexto. En su propia tesis, el autor reconoce que es necesaria una mayor evidencia transling&uuml;ística que apoye la plausibilidad psicoling&uuml;ística de un enfoque como el suyo. Actualmente, no existen trabajos que se hayan propuesto probar el enfoque de Clark (2001) para la inducción de sintaxis en lenguas flexivas y con orden libre de constituyentes, como el espa&ntilde;ol. Así pues, nuestro trabajo se propone contribuir con dicha evidencia transling&uuml;ística, estudiando la factibilidad de aplicación del algoritmo de inducción de constituyentes de Clark (2001) para el espa&ntilde;ol. &nbsp;</p><p>El algoritmo de Clark (2001) que nos ocupa consiste en aplicar técnicas de clustering K-means para agrupar secuencias de etiquetas de clase de palabra, según su información distribucional. Luego, se procede a filtrar los resultados para encontrar clusters que efectivamente se correspondan con grupos de constituyentes, recurriendo a un criterio de información mutua entre los símbolos inmediatamente anteriores y posteriores a dichas secuencias. Este criterio de filtrado evita el sesgo de un corpus escaso, al tiempo que logra distinguir la dependencia buscada entre los límites de las secuencias candidatas a constituyentes por sobre el umbral de la entropía natural de símbolos que co-ocurren a una cierta distancia en el lenguaje (Li 1990).&nbsp;</p><p>Nuestra implementación del algoritmo ha sido evaluada en un corpus de dimensiones prototípicas, con resultados prometedores. Se obtuvo una cobertura de 74%, una precisión de 58% y una medida F de 65%, en la etapa prototípica. Estos resultados alientan la continuidad del trabajo de investigación a largo plazo, con la meta de lograr un robusto algoritmo de adquisición integral del lenguaje para el espa&ntilde;ol.</p&gt;}, number={2}, journal={Linguamática}, author={Balbachan, Fernando and Dell’Era, Diego}, year={2010}, month={Jun.}, pages={39-57} }