Oficinas

Processamento Computacional de Expressões Multipalavras
Ministrante: Prof. Dr. Carlos Ramisch (Univ. de Marseille – França)

Resumo: Expressões Multipalavras são unidades lexicais formadas por mais de um lexema, e que apresentam idiossincrasias lexicais, sintáticas, semânticas, pragmáticas ou estatísticas (Baldwin & Kim, 2010). Exemplos incluem expressões idiomáticas (engolir um sapo, quebrar um galho, um Deus nos acuda), compostos nominais (máquina de lavar, sapato de salto), construções com verbo suporte (tirar fotos, tomar banho), entre outras. Tanto em Linguística quanto na Computação, a identificação e representação dessas expressões dá muita dor de cabeça para pesquisadores, lexicógrafos e desenvolvedores de software. Essa oficina é dirigida a linguistas e computólogos que queiram saber mais sobre o processamento computacional de Expressões Multipalavras. Na primeira parte, apresentarei uma introdução sobre o tema, dando diversos exemplos de aplicações em que a identificação e o tratamento dessas expressões é crucial para que se obtenha resultados corretos e naturais. Na segunda parte, falarei sobre o mwetoolkit (http://mwetoolkit.sf.net), uma ferramenta que ajuda a extrair e manipular listas de expressões a partir de corpora textuais. Na terceira parte, falarei sobre a avaliação das expressões extraídas e sobre suas aplicações. A oficina será composta de partes teóricas e práticas, com exercícios usando o mwetoolkit para extrair expressões de corpora textuais em formato eletrônico.

artigo: http://aclweb.org/anthology-new/W/W12/W12-3311.pdf

Ferramenta: http://mwetoolkit.sourceforge.net

 

Compilação de corpora para a análise da fala espontânea
Ministrantes: Profa. Dra. Heliana Mello (UFMG) e Prof. Dr. Tommaso Raso (UFMG) [PDF]

Resumo: A compilação de um corpus de fala espontânea hoje precisa apresentar algumas características que as aquisições teóricas e as tecnologias tornaram possíveis e necessárias. Nessa oficina, ilustraremos: o que significa ter um corpus que realmente represente a fala espontânea, e não somente um ou poucos gêneros dentro desse universo; o que é necessário para poder estudar a fala espontânea, e não somente um texto escrito que tenha como fonte um texto oral, ou seja as transcrições; como podemos segmentar a fala em suas unidades de referência, tão diferentes das sentenças dos textos escritos. Portanto, apresentaremos uma arquitetura baseada na variação diafásica, mostraremos como o alinhamento texto-som permite representar o evento da fala e não reduzi-la ao produto do texto escrito, ilustraremos como a grande quantidade de informação transmitida exclusivamente pelo sinal sonoro é absolutamente necessária para analisar essa modalidade da linguagem, que, de fato, constitui a única modalidade natural.

Veja a página do grupo em www.c-oral-brasil.org

 

Introdução à Estatística
Ministrante: Prof. Dr. Crysttian A. Paixão (UFSC)

Resumo: A Estatística é uma das Ciências que podem ser aplicadas as mais diferentes áreas do conhecimento. Ela está presente em quase todas as pesquisas. Nesse minicurso, será apresentada uma breve introdução às técnicas estatísticas, utilizando exemplos práticos para mostrar uma nova visão sobre algumas métricas, como por exemplo, Teste de Hipóteses,Intervalo de Confiança e Testes Não Paramétricos, como o Teste Qui-quadrado e o Teste Exato de Fisher.

 

La interfaz computacional en línea El Grial: trabajando con textos en español
Ministrante: Giovanni Parodi, (PUC/Valparaíso - Chile) [PDF]

Resumo: El Grial (www.elgrial.cl) es una interfaz computacional en línea que permite no solo el etiquetaje morfosintáctico de textos en español, sino también la interrogación de los corpus recolectados y cargados en este sitio web. Los textos están clasificados por género, disciplina y registro y se permite su acceso a través de alguna de estas etiquetas. Como parte de este taller, se ofrece una descripción general de la herramienta computacional, así como de sus principales funciones y componentes. Se realizan ejercicios prácticos y se explora las potencialidades de los corpus almacenados como recursos para aplicaciones de naturaleza diversa: e.g., diseño de pruebas de comprensión, construcción de corpus para aprendientes, escritura basada en el enfoque de los géneros.