9396_0_Siyou Liu et al. - Univ. Macau_V
Transcrição
9396_0_Siyou Liu et al. - Univ. Macau_V
Tradução automática chinês-português: uma análise dos adverbiais temporais Siyou Liu Marcia Schmaltz Ana Luísa Leal (Universidade de Macau) Resumo: O presente estudo, desenvolvido no âmbito do projeto Autema-Syntre 1 , apresenta uma análise contrastiva sobre a tradução automática dos adverbiais temporais do chinês para o português, e propõe algumas regras gramaticais, para melhorar o desempenho do Sistema de Tradução Português-Chinês2 (PCT). O corpus para análise é constituído por 46 textos-fonte (TF) na língua chinesa, cada um com cerca de 200 palavras, e pelos respectivos textos-alvo (TA) na língua portuguesa traduzidos respectivamente pelo PCT (PCT MT) e por Humanos (HT). Os textos-fonte foram extraídos de The International Chinese Newsweekly. As estruturas sintáticas dos TF chinês dos PCT MT e HT foram analisadas e comparadas, e foi possível identificar que os resultados dos PCT MT’s apresentam inconsistências estruturais. Para resolvê-las, discutimos e propomos algumas regras sintáticas. Palavras-chave: Adjunto adverbial temporal. Tradução automática. Português. Chinês. Análise contrastiva. 1. Introdução De acordo com a gramática, o elemento adverbial pode ser um advérbio, uma locução adverbial ou uma oração adverbial e pode oferecer informações adicionais aos verbos, advérbios, adjetivos ou sentenças, para os modificar ou descrever (i.e. tempo, lugar ou maneira de acção na sentença). Em outras palavras, os adverbiais podem responder perguntas como: Onde? Quando? Como? Por quê? O presente estudo analisa os adverbias que respondem ao “Quando”, ou seja, como são representadas estruturalmente as locuções adverbiais de tempo em textos traduzidos automaticamente do chinês para o português. Na próxima seção, realizamos uma breve descrição do projeto em que se enquadra esta pesquisa, incluindo a metodologia adotada. Na Seção 3, apresentamos uma revisão teórica, sobre os adverbiais temporais em chinês e em português. Na Seção 4, descrevemos as análises e contrastamos as diferenças no processo de tradução do adverbial temporal entre chinês e português. Na última seção, apontamos algumas inconsistências no sistema de 1 Annotation and Analysis of Bilingual Syntactic Trees for Chinese/Portuguese, bolsa de pesquisa da Universidade de Macau, MYRG102 (Y2-L2)-FSH11-ALL. 2 Wong, F.; Oliveira, F.; Li, Y. (2012). 1 tradução automática PCT e propomos algumas sugestões para melhorar a qualidade da tradução automática. Na presente seção apresentamos brevemente o projeto e o sistema relacionados à presente pesquisa. Especificamente, estudo realizado identifica inadequações geradas pelo sistema PCT no processo de tradução automática dos adverbiais entre Chinês e Português. Projeto de pesquisa AuTema-Syntree: Annotation and Analysis of Bilingual Syntactic Trees for Chinese/Portuguese – é um projeto que tem como objetivo apresentar algumas soluções em termos de regras e heurísticas de cunho sintático, para resolver inconsistências em textos traduzidos automaticamente do chinês para o português. As inconsistências foram observadas a partir dos resultados analisados dos textos do corpus do projeto AuTema-Dis II3, traduzidos pelo PCT, sistema automático de tradução desenvolvido por Wong et al. (2012). Conforme mencionamos, o projeto AuTema-Syntree foi desenvolvido para analisar e manipular as estruturas sintáticas dos textos traduzidos pelo PCT. A partir da análise de todos os textos do corpus traduzidos automaticamente, verificamos a necessidade de ajustar, remodelar e refinar algumas regras e heurísticas de natureza sintática, as quais constituem a base do sistema de tradução PCT, visando obter resultados mais aproximados aos resultados da tradução humana. Nós buscamos encontrar uma equivalência estrutural a partir da geração de árvores de dependência sintática em chinês e português que servem como espelho entre as línguas. Estudos realizados anteriormente no âmbito do Autema-Syntree, forneceram-nos dados para acreditar que o espelhamento entre árvores sintáticas no chinês e português poderiam apresentar regras, provendo um ajuste no sistema PCT. Além disso, o resultado gerado a 3 Automatization of Discursive Thematic Analysis (AuTema-Dis II), bolsa de pesquisa da Universidade de Macau RG035/09-10S/ALL/FSH. 2 partir desse espelhamento e ajuste constituiu de uma das etapas do sistema AuTema-Dis II. Observa-se que, a descrição das estruturas do chinês e do português é realizada por uma gramática livre de contexto, que tem sido importante para o processo de tradução automática. Sistema de Tradução Português-Chinês (PCT): é um sistema que realiza a tarefa de tradução automática; nele se aplicam as tecnologias da Memória de Tradução, as metodologias de Tradução Automática, incluindo o esquema de anotação em Árvores na representação dos exemplos bilinguais, e formalismo linguístico – Gramática Sincrônica de Restrição na análise da estrutura sintática entre as línguas (WONG et al., 2012). 2. Metodologia da Pesquisa O presente estudo, que foi desenvolvido no âmbito do projeto AuTema – Syntree, está relacionado especificamente com duas questões técnicas: 1) PCT: Melhorar e refinar a qualidade dos resultados obtidos em textos traduzidos automaticamente do chinês para o português e vice-versa. 2) Gramática: desenvolver uma base gramatical livre de contexto no sistema PCT no par linguístico português-chinês, aproximando as duas línguas pela aplicação ou substituição de regras internas do sistema, definidas pela produção e imposição de outras restrições, as quais podem orientar a produção global. Esta pesquisa constitui uma parte das análises feitas com ênfase na organização frasal do par linguístico chinês e português, que é necessário para desenvolver as estruturas sintáticas e melhorar o desempenho do PCT. O corpus analisado é constituído por 46 textos-fonte, extraídos da revista The International Chinese Newsweekly, e as respectivas traduções realizadas por máquina e manual. No total, os textos-fonte têm 222 sentenças e em 51 sentenças verifica-se o adverbial temporal (cerca de 23%), conforme pode ser observado na Tabela 1. 3 Número dos textos Número das Percentagem sentenças Corpus do Projeto 46 222 100% TF4 com Adverbial temporal 41 51 23% HT5 com Adverbial temporal 41 51 23% Tabela 1: Dados Estatísticos do Corpus A metodologia utilizada para análise é contrastiva e a sua implementação é realizada manualmente em quase todo o seu processo; as etapas são realizadas de forma sequencial e hierárquica, conforme: 1) Análise do corpus existente do projecto Autema-syntree (46 textos extraídos de The Chinese International Weekly entre dezembro de 2009 e março de 2010.) 2) Identificação ds sentenças que contêm adverbial temporal em chinês, bem como em português; 3) Análise dos sintagmas que possuem adverbial temporal em chinês de acordo com a gramática tradicional; 4) Organização e descrição dos constituintes adverbiais temporais em chinês, para determinar quais adjuntos podem servir como adverbiais temporais; 5) Indentificação, análise e classificação dos adverbiais temporais em português, identificados na tradução automática do PCT de acordo com a integração da gramática tradicional e o Léxico-gramática; 6) Identificação, análise e classificação dos adverbiais temporais de acordo com a integração da gramática tradicional e o Léxico-gramática; 7) Organização dos constituintes adverbiais temporais em português foi descrita considerando-se a tradução automática do PCT e HT; 8) Contraste das organizações frasais nas traduções automáticas e manuais consistiu de um espelhamento entre as árvores sintáticas de cada um dos pares dos 4 TF: Texto-Fonte. 5 HT: Tradução por Humanos. 4 textos, a fim de identificar inconsistências produzidas a partir da tradução automática realizada pelo PCT. 9) Contraste das organizações frasais entre os TFs em chinês e os textos traduzidos automaticamente (doravante PCT MT) em português consistiu no espelhamento das árvores sintáticas para cada um dos pares dos textos, a fim de identificar as suas diferenças. 10) Análise das diferenças foi discutida e reavaliada, visando melhorar os resultados apresentados pelo sistema PCT em termos de adverbiais temporais. 3. Revisão Teórica A presente análise é feita para aumentar a qualidade do funcionamento do sistema da tradução automática. Assim, para embasar essa investigação, recorreu-se ao estudo LéxicoGramática, que foi desenvolvido por Gross (1986) com base nos princípios da gramática transformacional de operadores de Z. S. Harris (apud Palma, 2009, p. 3). Todavia, o adverbial é uma noção da gramática tradicional e, pela vertente da língua chinesa, é bastante difícil de encontrar fundamento teórico sobre o adverbial, relacionado à gramática gerativa. Portanto, decidimos também integrar nesta seção elementos gramaticais tradicionalmente descritos e analisados. 3.1 Adverbiais em Português De acordo com Palma (2009), “o Léxico-Gramática pode ser definido como um modelo de sintaxe limitado às frases elementares das línguas naturais”, em que a frase elementar se refere à formação do sujeito, predicado e outros argumentos essenciais. Veja o exemplo seguinte: (1) A Casa Branca anunciou, em 22 de fevereiro, o novo projeto da reforma da saúde de Obama. Nesse exemplo, o verbo anunciar é o elemento predicativo, que seleciona dois argumentos essenciais: o sujeito a Casa Branca e o complemento o novo projeto da reforma da saúde de Obama, ou seja, a estrutura sintática da frase elementar pode ser representada pela 5 seguinte regra: SN anunciar SN. Em outras palavras, não pode faltar nenhum destes três argumentos, senão, produzirá uma expressão inaceitável: (2) *A Casa Branca anunciou. Em comparação com (1), na frase (3), a omissão do complemento temporal em 22 de fevereiro não altera o significado global da construção verbal, nem a frase se torna inaceitável: (3) A Casa Branca anunciou o novo projeto da reforma da saúde de Obama. De acordo com o Léxico-Gramática, “as frases combinam-se entre si a partir da aplicação de um conjunto de operações transformacionais (reduções, modificações morfológicas, permuta de elementos, etc.) ” (PALMA, 2009, p. 5). Portanto, a junção dos adverbiais às frases elementares também se baseia no conjunto mencionado acima. Segundo Palma (2009), “M. Gross (1986, p. 11-12) propõe uma noção de advérbio generalizado, aplicando-o a estruturas sintáticas que, na terminologia gramatical tradicional, são considerados como objetos linguísticos distintos”, além disso, divide-o em três tipos: “(a) os advérbios propriamente ditos, tanto os advérbios simples não derivados, como os derivados em -mente e os advérbios compostos; (b) os complementos circunstanciais; (c) as orações subordinadas circunstanciais”. Por exemplo: (4) Mas, atualmente, cerca de 16 mil de tripulantes também declararam que se as duas partes não pudessem chegar ao consenso sobre o problema dos salários, iriam iniciar de imediato uma grande greve, a situação poderia ficar ainda mais grave para a companhia aérea. Conforme a categorização de Gross, nos termos em destaque da frase (4): atualmente – advérbio simples derivado em –mente do tipo (a); também, ainda e mais – advérbio simples não derivado de tipo (a); se as duas partes não pudessem chegar ao consenso sobre o problema dos salários – sendo a oração subordinada circunstancial do tipo (c); de imediato – o advérbio composto do tipo (a). Ora, em 22 de fevereiro da frase (1) é o complemento circunstancial do tipo (b), que na gramática tradicional é chamado como locução adverbial, 6 sendo a ênfase do presente estudo. Portanto, no resto da comunicação, a locução adverbial será usada para indicar o tipo (b), o complemento circunstancial. 3.2 Adverbiais em Chinês Na Gramática da Língua Chinesa, de acordo com a revisão da literatura realizada por Xia (2001, p. 24), existem 13 tipos de adverbiais; todavia, no corpus de nossa pesquisa foram evidenciados os seguintes: os adverbiais de tempo, de lugar, de maneira e de causa. Os adverbiais temporais em chinês podem ser constituídos por uma locução nominal temporal (5), um advérbio temporal (6), uma locução preposicional (7), e uma locução quantitativa (8). Por exemplo: (5) mùqián yuē 目 前 /n, 约 /adj yí wànliùqiān míng kōngchéngrényuán T. Interlinear Atualmente, cerca de cento mil seis mil CLAS T. Livre Atualmente, cerca de (6) zhōngguó mùqián T. Interlinear A China atualmente estar a T. Livre A China atualmente está construindo… (7) jiāng zài èr shíwǔ rì zhào jí liǎng dǎng yì yuán … 将 /adv 在 /p 二 十 五 /num 日/n 召 集/v 两 /num 党 /n 议 员 /n … T. Interlinear … T. Livre … vai convocar, no dia 25, os deputados dos dois partidos … (8) yī jiǔ bā jiǔ 一 万 六 千 /num 名 /clas 空 16 mil zhèngzài 乘 人 员 /n …… tripulante de vôo… tripulantes de vôo … jiànshè 中 国 /n 目 前 /n 正 在 /adv 建 设 /v …… ir em 25 construir… dia convocar dois partido deputado… nián yángxiàn yì gōngkāi zhǐzé zhōngguó zhèng fǔ 一九 八九 /num 年 /n , 杨 宪 益/n 公开 /adv 指责 /v 中 国 /n 政 府 /n … T. Interlinear 1989 T. Livre Em 1989, Yang Xianyi acusou o governo chinês publicamente… ano, Yang Xianyi publicamente acusar chinês governo… De acordo com o Xiandai Hanyu cidian (Dicionário do chinês moderno), a expressão adverbial de tempo em (5) muqian [atualmente] é um substantivo temporal. Em (6) 7 zhengzai [estar + V-indo] é um advérbio temporal. Em (7) zai ershiwu ri [no dia 25] é uma locução preposicional. Em (8), de acordo com a gramática da língua chinesa, a locução yijiubajiu nian [1989 ano] é uma locução quantitativa, porque é iniciada pelo numeral “1989”, que possui função de adverbial de tempo. Portanto, de acordo com os dados do presente corpus, a análise contrastiva mostra que os constituintes das expressões adverbiais de tempo na língua chinesa podem ser um substantivo temporal (5), um advérbio temporal (6), uma locução preposicional (7), uma locução quantitativa (8), enquanto os constituintes das expressões adverbiais na língua portuguesa são apenas compostas por sintagmas preposicionais. Quer dizer, os constituintes em chinês são mais diversificados do que os constituintes na língua portuguesa, pelo menos no presente corpus. Na seção seguinte, será detalhado o contraste das locuções adverbiais de tempo na língua chinesa e portuguesa. 4. Análise e Contraste Baseados na revisão da literatura, foram contrastadas as estruturas sintáticas entre os adverbiais temporais nos TFs e as estruturas sintáticas no PCT MTs e HTs. De acordo com as regras sintáticas da língua portuguesa e a análise contrastiva, identificamos no corpus 51 sentenças com a presença de adverbial temporal, traduzido pelo PCT MT. Neste conjunto, foram identificadas 44 sentenças inadequadas (86%). A tabela 2 apresenta os tipos de inadequações: em 19 locuções (43%), o sistema não traduziu a preposição; em 3 locuções (7%) foi verificado o problema na ordenação das estruturas, de acordo com o princípio Parte-Todo 6 em português; e, em 9 locuções (20%), a posição das preposições estão incorretas. Tipo de inadequação Número de sentenças Quantidade inadequadas Percentagem de sentenças inadequadas 6 O princípio Parte-Todo refere-se ao princípio existente na gramática que tem relação com a ordenação dos nomes temporais num mesmo sintagma. 8 Falta de preposição 19 43% Ordenação do Princípio Parte-Todo 3 7% Ordenação da preposição 9 20% Outros 13 30% Total 44 100% Tabela 2: Dados Estatísticos das Inadequações No que se refere às inadequações identificadas e demonstradas acima na Tabela 2, discutiremos, primeiramente, as instâncias de falta de preposição nas traduções dos adverbiais para língua portuguesa. (9) TF ào bā mǎ jiāng Obama ir zài èrshíwǔ rì zhàojí liǎng dǎng yìyuán 奥巴 马 /n 将 /adv 在 /p 二十五 /num 日/n 召集 /v 两 /num 党 /n 议员 /n em 25 dia convocar dois partido deputado… HT Obama vai convocar, em 25 deste mês, os deputados dos dois partidos… PCT Barack Obama em breve em vinte e cinco dias convocam o deputado de dois. (10) TF sānyuè yī rì wéi yíngjiē shìbóhuì 三 月 /n 一/num 日/n , 为 /p 迎 接/v 世 博 会 /n Março um dia, , para acolher Expo Mundial… HT Em um de março, para a Expo Mundial”, PCT *Um de março, para acolher Expo Mundial…” Os adverbiais de (9) referem-se às locuções preposicionais: a locução no TF possui a preposição zai [em] e nas traduções manuais e PCT as locuções têm preposições correspondentes em. Em contraste, em (10), de acordo com as regras gramaticais chinesas, o adverbial do TF é a locução quantitativa, sem preposição iniciada pelo numeral san [três], enquanto, na tradução manual, a locução está preposicionada, iniciando por em, enquanto no PCT, observa-se a inadequação, pela ausência da preposição no adverbial. 9 Percebe-se que, quando o PCT MT traduz as locuções quantitativas adverbiais do chinês para o português, o sistema não gera locuções preposicionadas. Em outras palavras, o que o sistema faz é a tradução literal – traduz palavra por palavra. Quando o TF em chinês possui uma locução preposicionada, o sistema gera corretamente a estrutura preposicional como o exemplo (9) em + sintagma nominal de tempo. No entanto, quando o TF em chinês contém uma locução quantitativa, o PCT MT traduz inadequadamente como uma locução nominal, como mostra o exemplo (10). Entretanto, observa o sintagma nominal de tempo no adverbial traduzido pelo PCT vinte e cinco dias, cujo texto-fonte ershiwu ri quer dizer o dia 25. Ershiwu é o número 25 e ri é correspondente ao dia. É digno de menção que em chinês existem duas noções para expressar a noção de “dia”, uma é ri e a outra, tian. Essas duas noções são bastante parecidas, tanto em significado quanto no aspecto de emprego. Todavia, em termos do emprego, somente ri pode ser utilizado para expressar uma data precisa. Em comparação, o tian possui o carácter que expressa “dia” de forma genérica. A seguir, discute-se a geração da ordem das estruturas na locução preposicional de tempo do TF, como mostra o exemplo (11): (11) TF měiguó yǒuxiàndiànshì xīnwén wǎng yú èryuè rì èrshíqī wǎnshàng 美国 /n 有线电视 /n 新闻 /n 网 /n 于/p 二月/n 二十七/num 日/n 晚上 /n American Cable News Network em Fevereiro 27 HT Na noite de vinte e sete de Fevereiro, CNN televisionou … PCT *CNN em vinte e sete de Fevereiro a noite produzir dia noite … As pesquisas da área da Linguística Cognitiva apontam que os seres humanos experienciam o mundo em que o rodeia em termos de “parte” e “todo”, denominado de Princípio de Parte-Todo (Lakoff 1987, p.273). De acordo com Dai (2001, p. 6), na gramática chinesa, o tempo é organizado na ordem: ano – mês – dia – hora (do maior para o menor), enquanto, em português, observa-se que a ordem é inversa, do menor para o maior, isto é, hora – dia – 10 mês – ano. No TF em (11) acima, a ordem da estrutura em Chinês é eryue ershiqi ri wanshang [Fevereiro 27 dia noite], cuja descrição é do mês para o dia e para uma hora específica de um dia. No entanto, na HT, o adverbial temporal, na noite de vinte e sete de fevereiro, demonstra a ordem inversa da estrutura em português, ou seja, de uma hora específica do dia, o dia e o mês. Observe-se que no PCT o resultado *em vinte e sete de fevereiro a noite corresponde parcialmente à ordem padrão da gramática portuguesa e é mais aproximada ao padrão da gramática chinesa (do geral ao específico). 5. Conclusão A partir das descrições e contrastes das estruturas sintáticas dos adverbiais entre os TFs em chinês e os textos-alvo do PCT e HT em português, o nosso grupo de pesquisa discutiu regras para serem inseridas na base do sistema de tradução automática, visando melhorar a qualidade na geração do TA, ou seja, o texto gerado automaticamente sem interferência humana. Os problemas na tradução automática podem ser classificados em duas categorias. A primeira refere-se à composição dos adverbiais temporais. Na gramática da língua portuguesa, a preposição é um elemento essencial do adverbial temporal, enquanto, em chinês, a preposição não é um elemento obrigatório no adverbial temporal. As locuções nominais e quantitativas em chinês também devem ser tratadas como locuções preposicionadas em português. A segunda categoria diz respeito à ordem das palavras na estrutura. Tanto em português como em chinês, a locução nominal de tempo é o núcleo da locução adverbial de tempo. Contudo, a ordem em português deve seguir o princípio do parte-todo, que é do tempo específico ao geral, enquanto, em chinês, a ordem é inversa. Quanto à tradução literal produzida pelo sistema PCT, esse não pode fazer a geração do texto traduzido de forma precisa, por causa da falta de uma regra interna relativa à ordem da locução preposicional de tempo no português. Baseados nas descrições e comparações, apresentamos as seguintes conclusões. Primeiro, quando o PCT traduz uma locução nominal de tempo (mês + data) do TF, o sistema deve 11 gerar uma locução preposicional de tempo no adverbial temporal, isto é, [preposição “em” + locução nominal de tempo]. Segundo, quando o PCT traduz uma locução adverbial de tempo do chinês para o português, a ordem das palavras no que se refere aos elementos temporais deve corresponder à ordem seguinte: hora / parte do dia – dia – mês – ano. Referências BAPTISTA, J.; GUITART, D. C. Compound Temporal Adverbs in Portuguese and in Spanish. PorTAL, 2002, p. 133-136. DAI, H. Gainian jiegou yu fei zizhuxing yufa: Hanyu yufa gainian xitong chutan [Estruturas conceptuais e dependência sintática: alguns princípios conceptuais na gramática chinesa]. In: Dangdai Yuyanxue [Linguística Contemporânea], v. 1, 2002, p. 1-12. HAGÈGE, C.; BAPTISTA, J.; MAMEDE, N. Identificação, Classificação e Normalização de Expressões Temporais do Português: a experiência do Segundo HAREM e o futuro. In: MOTA, C.; SANTOS, D. (Eds.). Desafios na avaliação conjunta do reconhecimento de entidades mencionadas. Actas do Encontro do Segundo HAREM. Aveiro, 11 de Setembro de 2008, Lisboa: Linguateca, 2008. LAKOFF, G. Women, Fire, and Dangerous Things. Chicago: The University of Chicago Press, 1987. LEAL, A. L. V. AuTema-Dis: uma arquitetura computacional para identificação da temática discursiva em textos em Língua Portuguesa. Tese de Doutorado. Universidade de Évora, 2009. PALMA, C. M. B. Expressões Fixas Adverbiais: descrição léxico-sintática e subsídios para um estudo contrastivo Português-Espanhol. Dissertação de Mestrado. Universidade do Algarve, 2009. PERINI, M. A. A gramática gerativa: Introdução ao estudo da sintaxe portuguesa. Belo Horizonte: Vigília, 1985. WONG, F.; OLIVEIRA, F.; LI, Y. Hybrid Machine Aided Translation System based on Constraint Synchronous Grammar and Translation Corresponding Tree. Journal of Computers, 7 (2), 2012, p. 309–316. 12 XIA, Y. The Study of Chinese Adverbial and Its Translation into Portuguese. Dissertação de Mestrado. Universidade de Jinan, 2001. Xiandai Hanyu cidian [Dicionário chinês moderno]. Editado pelo Instituto de Investigação Linguística da Academia de Ciências Sociais da China. Pequim: Shangwu, 2011. 13