• Procesamiento Computacional de Expresiones Multipalabras
    Profesor: Prof. Dr. Carlos Ramisch  (Univ. de Marsella - Francia)
  • Resumen: Expresiones Multipalabras son  unidades lexicales que están formadas por más de un lexema, y que presentan idiosincrasias  lexicales, sintácticas, semánticas, pragmáticas o estadísticas (Kim & Baldwin, 2010). Los ejemplos incluyen expresiones idiomáticas (tragarse un sapo, echar una mano, armar la de Dios es Cristo), compuestos nominales  (zapato de tacón), con construcciones verbales de apoyo (sacar fotos), entre otros. 
  • Tanto en la lingüística como en la computación, la identificación y la representación de estas expresiones causan muchos problemas a los investigadores, lexicógrafos y a desarrolladores de programas. Este taller está dirigido a los lingüistas e informáticos  que quieran saber más sobre el procesamiento computacional Expresiones Multipalabras. En la primera parte, voy a presentar una introducción al tema, dando varios ejemplos de aplicaciones en las que la identificación y el tratamiento de estas expresiones es crucial para que se obtengan resultados precisos y naturales. En la segunda parte, voy a hablar sobre  el mwetoolkit ( http://mwetoolkit.sf.net ), una herramienta que ayuda a extraer y manipular listas de expresiones del corpus  textual. En la tercera parte, hablaré sobre  la evaluación de las expresiones extraídas y sobre sus aplicaciones. El taller estará compuesto de dos partes teóricas y prácticas, con ejercicios usando el mwetoolkit para extraer las expresiones del corpus en formato de texto electrónico.

 

  • Compilación de corpus para el análisis del habla espontánea
    Conferencistas: Prof. Dr. Mello Heliana (UFMG) y Pr. Dr. Tommaso Raso (UFMG)
  • Resumen: La compilación de un corpus de habla espontánea hoy día, necesita presentar algunas características que las adquisiciones teóricas y las tecnologías han hecho posible y necesarias. En este taller  vamos a ilustrar: lo que significa tener un corpus que realmente represente el habla espontánea, y no sólo uno o unos pocos géneros dentro de este universo; lo que se necesita para poder estudiar el habla espontánea, y no sólo un texto escrito cuya fuente es un texto oral, es decir, las transcripciones; cómo podemos segmentar el habla en sus unidades de referencia, tan diferentes de las oraciones de los textos escritos. Por lo tanto, vamos a presentar una arquitectura basada en la variación diafásica, mostraremos cómo la alineación del texto-sonido permite representar el evento del habla sin reducirlo al producto del texto escrito, mostraremos cómo la gran cantidad de información transmitida incluso por la señal sonora es absolutamente necesaria para analizar esa modalidad de lenguaje, que de hecho constituye la única modalidad natural.

 

  • Introducción a la Estadística
    Conferencista: Prof. Dr. A. Crysttian Pasión (UFSC)
  • Resumen: La estadística es una de las Ciencias que pueden ser aplicadas a diferentes áreas del conocimiento. Está presente en casi todas las investigaciones. En este mini curso, se presentará una breve introducción a las técnicas estadísticas, utilizando ejemplos prácticos para mostrar una nueva visión sobre algunas métricas, como por ejemplo, Test de Hipótesis, Intervalos de Confianza y Testes no Paramétricos como la Prueba de Chi-cuadrado y la Prueba Exacta Fisher.

 

  • §  La Interfaz computacional en línea El Grial: Trabajando con textos en español

Conferencista: Giovanni Parodi (PUC / Valparaíso - Chile)

Resumen: El Grial ( www.elgrial.cl )  El Grial (www.elgrial.cl) es una interfaz computacional en línea que permite no solo el etiquetaje morfosintáctico de textos en español, sino también la interrogación de los corpus recolectados y cargados en este sitio web. Los textos están clasificados por género, disciplina y registro y se permite su acceso a través de alguna de estas etiquetas. Como parte de este taller, se ofrece una descripción general de la herramienta computacional, así como de sus principales funciones y componentes. Se realizan ejercicios prácticos y se explora las potencialidades de los corpus almacenados como recursos para aplicaciones de naturaleza diversa: e.g., diseño de pruebas de comprensión, construcción de corpus para aprendientes, escritura basada en el enfoque de los géneros.