Os horizontes do CORDIAL-SIN
Transcrição
Os horizontes do CORDIAL-SIN
IV Wedisyn Santiago de Compostela, 18-19 abril 2013 Sintaxe dialectal: métodos de obtención de datos Os horizontes do CORDIAL-SIN (Corpus Dialetal para o Estudo da Sintaxe) Ernestina Carrilho Centro de Linguística da Universidade de Lisboa IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 tópicos • o papel dos dados de corpora orais na investigação sintática dialetal • o CORDIAL-SIN, um corpus oral dialetal anotado • possibilidades de pesquisa de dados no CORDIAL-SIN • contributo do CORDIAL-SIN para os estudos de sintaxe (dialetal) do Português IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 estrutura 1. a constituição de um corpus como resposta a dificuldades metodológicas da sintaxe dialetal (cf. este workshop) – entre tradição e novos modelos 2. a constituição do corpus como processo heurístico 3. a anotação do corpus como ferramenta de investigação sistemática especializada 4. dificuldades e virtudes de um corpus oral dialetal IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 enquadramento do CORDIAL-SIN • ausência de dados sintáticos estruturados e sistematicamente recolhidos nos estudos dialetais tradicionais dificuldades reconhecidas: o questionário o método de inquérito os informantes • desenvolvimento da sintaxe dialetal nos anos 90 nos anos 70, o ALE já reconhecia a importância de as teorias sintáticas contarem com investigação comparativa sobre a sintaxe dialetal (Kruijsen 1983) questionários para atlas sintáticos (e.g. ASIS, SAND) + reconhecimento das suas insuficiências e inadequações IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 enquadramento sintaxe na dialetologia portuguesa: – “por razões de ordem prática” o questionário do ALEPG não inclui perguntas sintáticas (Gottschalk, Barata e Adragão 1974) – ausência de referências à sintaxe nos principais trabalhos sobre o conjunto dos dialectos portugueses (Boléo 1942-1973, Boléo e Silva 1962, Cintra 1971, i.a.) IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 enquadramento mas: – notas ocasionais sobre fenómenos de variação sintática (Leite de Vasconcelos 1901 i.a., trabalhos monográficos, Casteleiro 1976) >> levantamento prévio de alguns fenómenos atestados (Carrilho e Lobo 1999) – materiais relevantes para o estudo da sintaxe dialetal: inquéritos dialetais integralmente gravados para atlas linguísticos , disponíveis no Arquivo Sonoro do CLUL IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 motivação e enquadramento Abordagem ampliadora do conhecimento sobre as propriedades universais das línguas naturais a partir da investigação da variação intra-linguística Abordagem ampliadora do conhecimento sobre a língua portuguesa IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 objetivos • ampliar a base empírica da teoria sintática > construir um recurso de amplo acesso a materiais existentes, previamente recolhidos e relevantes para estudos de sintaxe • oferecer acesso rápido a informação sintática e morfológica precisa > desenvolvimento de corpus anotado • desenvolver e incentivar a investigação em sintaxe dialetal > estudar aspetos da sintaxe dialetal do português numa perspetiva teoricamente enquadrada IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 as fontes ALEAç – Atlas Linguístico e Etnográfico dos Açores (J. Saramago, coord.) ALLP – Atlas Linguístico do Litoral Português (G. Vitorino, coord.) ALEPG – Atlas Linguístico-Etnográfico de Portugal e da Galiza (J. Saramago, coord) BA – Segura, M. Luisa. 1987. A Fronteira Dialectal do Barlavento do Algarve. Diss. Doutoramento. CLUL. Cfr. projectos de Dialectologia e Diacronia, CLUL: http://www.clul.ul.pt/pt/investigacao/73-dialectology-and-diachrony IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 os materiais do corpus • transcrições de excertos de fala espontânea e semidirigida de inquéritos dialectais • situação de inquérito comparável (relativamente familiar, duração 3-7 dias, entre 1974 e 2004) • temas em comum, a partir do questionário ALEPG (o fabrico do pão, as aves, a pesca, a vinha, o moinho…) e temas livres (histórias pessoais ou locais…) • rede de pontos geograficamente distribuídos IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 os informantes • informantes dialetais tradicionais: – – – – naturais do ponto de inquérito idosos (> 60) rurais pouco escolarizados ou analfabetos no CORDIAL-SIN: – número variável por localidade IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 • CORDIAL-SIN corpus geograficamente representativo de excertos selecionados de fala espontânea e semi-dirigida • c. 600 000 palavras • • c. 70 h gravação 42 pontos transcrições e texto anotado disponíveis em: www.clul.ul.pt/en/resources/411-cordial-corpus Financiamento – projetos: PRAXIS XXI/P/PLP/13046/1998; POSI/1999/PLP/33275; POCTI/LIN/46980/2002; PTDC/LIN/71559/2006 IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 VPA35 INQ E como é que se chamavam esses barquitos? INF [AB|Era bar-] Eram barcos-de-boca-aberta. INQ Chamavam-se barcos-de-boca-aberta? INF Era barcos-de-boca-aberta. Eram, sim senhora. E nós [AB|de-] tínhamos aqui muitos! Era {pp} muito barco, mais do que agora! Mas muito mais, e maiores do que estes! [AB|Porque uma pessoa] Quando era à vela, aquilo os barcos andavam bem. O barco quando era à vela… Ai Jesus! Ainda o pessoal às vezes até pedia [AB|uma aja-] uma (rajadinha) de vento, para {PH|=não} {PH|=remarmos}. Jesus, meu Deus! (Andava) uma pessoa às vezes a remar toda a noite, todo o dia… Era um caso sério antigamente! Antigamente era horror! IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 corpus anotado • além de transcrição conservadora: transcrição normalizada: IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 corpus anotado anotação por palavra: <break> (...) </break> Chamávamos-lhe/VB-D-P+CL fuso/N ./. O/D fuso/N de/P fiar/VB o/D linho/N era/SR-D-3S o/D fuso/N de/P ferro/N ;/. e/CONJ o/D de/P fiar/VB a/D-F lã/N era/SR-D-3S o/D fuso/N de/P pau/N anotação sintática: (IP-MAT (NP-ACC (D o) (N fuso) (PP (P de) (IP-INF (VB fiar) (NP-ACC (D o) (N linho))))) (SR-D-3S era) (NP-SBJ (D o) (N fuso) (PP (P de) (NP (N ferro)))) IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 anotação do CORDIAL-SIN • recorre a ferramentas automáticas Etiquetador Corpus Tycho-Brahe (POS) Penn Corpora Parser (anotação sintática – fase I) programa CorpusSearch (anotação sintática – fase II) + anotação humana objetivo • corpus dialetal como ferramenta especializada que permite acesso total, rápido e sistemático a dados sistematicamente organizados e estruturados fazer pesquisa automática de informação morfológica e sintática precisa IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 etiquetas principais (palavra/ETIQUETA) Etiq. aplicação SR verbo SER HV verbo ESTAR ET TR VB N verbo HAVER verbo TER outros verbos nome comum NPR nome próprio PRO pronome pessoal PRO$ pronome possessivo CL clíticos em geral SE clÍtico SE Etiq. D DEM P aplicação determinante definido / demonstrativo demonstrativo invar. preposição FP partícula de foco NUM numeral cardinal NEG negação INTJ interjeição / onomatopeia OUTRO a palavra outro/a SENÃO a palavra senão … … Cfr. Manual de Anotação Morfossintática www.clul.ul.pt/english/sectores/variacao/cordialsin/pos_annotation_manual.pdf IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 etiquetas estruturadas (ETIQ.+SUBETIQ.) Etiqueta aplicação Ex. determinante masculino singular o/D determinante masculino plural os/D-P /D-F-P determinante feminino feminino plural as/D-F-P /P+D-F preposição e determinante singular feminino da/P+D-F /VB+CL verbo (infinitivo) e pronome enclítico dar-lhe/VB+CL /D /D-P verbo futuro, 1 pess. sing. e /VB-R-1S!CL pronome em mesóclise /P31 primeiro elemento de sequência preposicional de 3 palavras dar-te-ei/VB-R-1S!CL por/P31 mor/P32 de/P33 Cfr. Manual Anotação Morfossintática www.clul.ul.pt/english/sectores/variacao/cordialsin/pos_annotation_manual.pdf IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 anotação sintática • a anotação sintática é representada com parênteses etiquetados sobre os textos anotados por palavra • informação disponibilizada: – – – – – fronteiras de constituintes dependências frásicas e oracionais informação categorial (e.g. NP, PP, ADVP) relações gramaticais (e.g. SBJ, ACC, DAT) funções discursivas (e.g. deslocação à esquerda, marcador pragmático) – tipo de frase (e.g. EXL, CMP, QUE) – alguns constituintes nulos (e.g. sujeitos nulos, objetos nulos) – … IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 etiquetas sintáticas Etiq. Aplicação (sintagma) NP Sintagma Nominal NP-SBJ Sintagma Nominal (sujeito) Sintagma Nominal NP-ACC (Obj. Direto) Etiq. Aplicação (oração) IP-MAT Frase declarativa independente ou coordenada IP-INF Oração infinitiva IP-GER Oração gerundiva NP-ADV Sintagma Nominal (adverbial) CP-THT Oração completiva NP-VOC Sintagma Nominal (vocativo) CP-REL Oração relativa NP-DAT Sintagma Nominal (dativo) CP-CLF Frase clivada NP-GEN Sintagma Nominal (dat de posse) CP-ADV Oração finita adverbial CP-DEG Oração de grau CP-CMP Oração comparativa CP-QUE Frase interrogativa PP Sintagma Preposicional Sintagma Preposicional PP-ACC (objeto partitivo) ADVP ... Sintagma Adverbial ... ... ... Cfr. Syntactic Annotation Manual http://www.clul.ul.pt/cordial-sam/ IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 acesso geral e especializado I CORDIAL-SIN, 2013 • disponibilizado na íntegra, como: - transcrição conservadora [pdf, localidade a localidade] - transcrição normalizada [pdf+txt, localidade a localidade] - anotação por palavra [txt, localidade a localidade + integral] - anotação sintática [psd, subcorpus em atualização] pesquisável com CorpusSearch (de Beth Randall) + manuais de anotação (sistemas de anotação integralmente exemplificados) - Manual de anotação por palavra - Manual de anotação sintática IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 acesso geral e especializado II CORDIAL-SIN, 2013 • Pesquisável online através de Edisyn Search Engine (interpesquisável com outros corpora e bases de dados dialetais) Cf. exemplo de pesquisa, a seguir: 1) pesquisa no CORDIAL-SIN 2) formas de gerúndio flexionado de 3ª p. pl. (etiquetas Edisyn: V(ger, 3pl)) 3) visualização em mapa de distribuição de resultados IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 Vantagens de corpus dialetal anotado? • acesso automático e exaustivo a informação linguística (morfossintática) e respetiva distribuição geográfica exemplos (cf. exemplo anterior de pesquisa com Edisyn Search Engine + concordância independente sobre corpus anotado por palavra, a seguir): - flexão de pessoa em formas verbais de gerúndio pesquisa de subetiquetas -G-F - formas verbais com morfema flexional -ra pesquisa de subetiqueta -RA- IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 gerúndios flexionados concordância de */*-G-F* com Concordance 3.3 (@ R.J.C. Watt 1999-2009) IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 distribuição geográfica CORDIAL-SIN: Gerúndio flexionado (adaptado de Lobo 2008) Questões relacionadas : - Que distribuição sintática? - Que propriedades apresentam os contextos de gerúndios flexionados (sujeito, ordem de palavras)? Anotação sintática permite pesquisa adicional sobre estrutura e etiquetas sintáticas: cf. com ou sem anotação de IP-GER [oração gerundiva] IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 formas verbais em -ra- Concordância de */*-RA-* com Concordance 3.3 (@ R.J.C. Watt 1999-2009) Pesquisa de contexto sintático: cf. estrutura e etiquetas sintáticas, p. ex CP-EXL, CP-ADV, IP-SUB… IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 Vantagens da anotação sintática • pesquisa automática e exaustiva especializada sobre informação linguística (morfossintática) detalhada (e sua distribuição geográfica) + 1 exemplo dependente exclusivamente de anotação sintática: - construção existencial impessoal com verbo ter INQ […] Há algum curioso cá na Terceira? INF: Agora não… Agora não tem. (TRC58) pesquisa de TR-*-3S no corpus anotado por palavra revela-se insuficiente, pela alta frequência de formas verbais assim etiquetadas, associadas a significado de posse IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 CorpusSearch ferramenta de pesquisa para corpora anotados [http://corpussearch.sourceforge.net] (Randall 2005-2007) • linguagem de pesquisa básica • funções de pesquisa sintaticamente intuitivas: – precede (imediatamente) – domina (imediatamente) – existe … construções impessoais existencias podem ser encontradas com pesquisa de qualquer oração - que contenha TR (etiqueta ao nível da palavra) - cujo sujeito esteja anotado como um expletivo nulo (NP-SBJ *exp* ) IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 Vantagens de corpus dialetal anotado ANOTAÇÃO POR PALAVRA E SINTÁTICA • permite pesquisas automáticas sobre informação especializada para estudos de sintaxe dialetal, associada a informação geográfica ANOTAÇÃO SINTÁTICA RICA • apresenta informação detalhada sobre um largo espectro de fenómenos sintáticos não-standard • permite pesquisa exaustiva, sistemática e imediata de dados espontâneos, na base de trabalhos de sintaxe comparativa e de geolinguística IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 a anotação como percurso heurístico ANOTAÇÃO SINTÁTICA RICA codificação pormenorizada de unidades sintaticamente relevantes, ausentes do corpus anotado por palavras (e.g. elementos nulos) exige: • aprofundar o estudo de novos dados sintáticos • identificar e descrever construções sintáticas nãostandard desconhecidas IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 a anotação como percurso heurístico anotação por palavra e sintática também como percurso para o estudo da morfossintaxe nãopadrão corpus dialetal como ferramenta heurística para o estudo da morfossintaxe dialetal IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 problemas reconhecidos - morosidade na constituição e anotação do corpus • dados não-standard e orais – transcrição exigente e morosa (dialetal) – questões de divulgação e anonimização / som • quantidade de dados a preparar para tratamento automático - fraca representação ou ausência de determinados tipos de construção (por ex., por serem raros na fala espontânea) - ausência de evidência negativa IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 corpus vs. elicitação elicitação de dados sintáticos pode ser fonte única para dados controlados mas apresenta também limitações inegáveis, a ponderar - os resultados obtidos através de elicitação diferem muitas vezes dos dados que aparecem no discurso espontâneo do mesmo falante – (Cornips 2003) - diferentes métodos de elicitação podem conduzir a resultados diferentes (Auckle, Buchstaller, Corrigan e Holmberg, 2007) IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 “Every elicitation situation is artificial, because the subject is being asked for a sort of behavior that is entirely different from everyday conversation (cf. Schütze 1996: 3). Sociolinguistic research has clearly shown that the response of subjects on direct judgement tasks („Is this a good sentence in your dialect?‟) often tends to reflect the form which they believe to have prestige or obeys the learned norm, rather than the form they actually use (Labov 1972: 213). A reasonable alternative is to use more indirect elicitation tasks (e.g. „Do you encounter this sentence in your dialect?‟) Different levels of speech style (informal and formal) yield another complicating factor for syntactic data elicitation.” (Barbiers e Cornips, 2002: 8-9) IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 corpus e elicitação Corpus além de oferecer dados de fala espontânea, pode ser essencial também para a elaboração de um questionário (pode não existir outra fonte de conhecimento prévio sobre muitos aspetos de variação sintática) importância de combinar métodos cfr., por ex., metodologia de SCANDIASYN (corpus + base de dados de dados de elicitação de juízos sobre lista de frases) IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 contributos de um corpus dialetal anotado CORDIAL-SIN vantagens empíricas, teóricas e metodológicas na sintaxe dialetal do português • • • • identificação e descrição de fenómenos sintáticos desconhecidos recaracterização de fenómenos sintáticos já antes identificados reforço de análise sintática comparativa imprescindível contributo para a elaboração de questionários linguísticos específicos também na dialetologia portuguesa • dimensão geográfica da sintaxe dialetal do português • integração de fenómenos de sintaxe na caracterização sistemática de dialetos portugueses • áreas de variação sintática IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 Referências ALEPG – Atlas Linguístico-Etnográfico de Portugal e da Galiza (www.clul.ul.pt/en/research-teams/205-linguistic-and-ethnographic-atlas-of-portugal-and-galicia-alepg) ALLP – Atlas Linguístico do Litoral Português (www.clul.ul.pt/en/research-teams/207-project-linguistic-atlas-of-the-portuguese-coast-allp) ASIS: Syntactic Atlas of Northern Italy (http://asis-cnr.unipd.it/). EDISYN: European Dialect Syntax (www.dialectsyntax.org) Penn Parsed Corpora of Historical English (www.ling.upenn.edu/hist-corpora) SAND:Syntactic Atlas of the Dutch Dialects (http://www.meertens.knaw.nl/projecten/sand/sandeng.html) ScanDiaSyn: Scandinavian Dialect Syntax (http://www.tekstlab.uio.no/nota/scandiasyn/) Tycho Brahe Parsed Corpus of Historical Portuguese (www.tycho.iel.unicamp.br) Auckle, T., I. Buchstaller, K. Corrigan e A. Holmberg 2007. Speakers can „talk the talk”, but can they „walk the walk‟ too?: Measuring syntactic variability using different instruments. Sixth meeting of the UK Language Variation and Change Conference (UKLVC6), Lancaster University, Set. 2007. Barbiers, S. e L. Cornips. 2002. Introduction to Syntactic Microvariation. In S. Barbiers, L. Cornips e S. van der Kleij (eds.), Syntactic Microvariation, Merteens Institute Electronic Publications in Linguistics. 2. Online: http://www.meertens.knaw.nl/books/synmic/. Boléo, M. Paiva. 1942-1973. Inquérito Linguístico Boléo. [inquéritos não-publicados – Arquivo da Faculdade de Letras de Coimbra] Boléo, M. Paiva e M. H. Santos Silva 1962. O Mapa dos Dialectos e Falares de Portugal Continental. Actas do IX Congresso Internacional de Linguística Românica. Março-Abril 1959. III. 85-112. Carrilho, E. e M. Lobo 1999. Variação Sintáctica: Alguns Aspectos. Conversas d’Hora d’Almoço. Centro de Linguística da Universidade de Lisboa. Junho 1999. IV Wedisyn, USC Santiago de Compostela, 18-19 abril 2013 Carrilho, E. e S. Pereira. 2011. Sobre a distribuição geográfica de construções sintácticas não-padrão em Português europeu. Textos Seleccionados do XXVI Encontro Nacional da Associação Portuguesa de Linguística. CD-ROM. Lisboa: APL. Carrilho, E. e M. Lobo. 2012. Contribution à l‟étude de la variation syntaxique dans le domaine ibéroroman. In M. Oliviéri, G. Brun-Trigaud, Ph. Del Giudice (eds.) La Leçon des dialectes. Hommages à Jean-Philippe Dalbera. Alessandria: Edizioni dell'Orso. 323-336. Casteleiro, J. Malaca 1975. Aspectos da Sintaxe do Português Falado no Interior do País. Boletim de Filologia. 24. Lisboa: Centro de Estudos Filológicos. Cintra, L. F. Lindley. 1971. Nova Proposta de Classificação dos Dialectos Galego-Portugueses. Boletim de Filologia. 22. 81-116. Cornips, L. 2003. “Contact-induced Varieties, Syntactic Variation and Methodology”, presented at European Dialect Syntax ESF/SCH Explanatory Workshop, Padova, September. Gottschalk, M. F., M.G. Themudo Barata e J. Vi. Adragão. 1974. Introdução. Questionário Linguístico. Lisboa: Instituto de Linguística. Kruijsen, J. 1983. La Syntaxe dans l‟Atlas Linguarum Europae. In C. Angelet, L. Melis, F. J. Mertens & F. Musarra (eds.) Langue, Dialecte, Littérature. Études Romanes à la Mémoire de Hugo Plompteux, Leuven U. P., Leuven. 213-223. Lobo, M. 2008. Variação morfo-sintáctica em dialectos do Português europeu: o gerúndio flexionado». Diacrítica, Ciências da Linguagem, Revista da Universidade do Minho, Braga, 22.1, 25-55. Vasconcelos, José Leite de . 1901. Esquisse d’une Dialectologie Portugaise. Lisboa: Centro de Linguística da Universidade de Lisboa/Instituto Nacional de Investigação Científica. 3rd edition, 1987. IV Wedisyn Santiago de Compostela, 18-19 abril 2013 Sintaxe dialectal: métodos de obtención de datos Graciñas! [email protected]