Verankerung und Alignierung der Töne im Mandarin
Transcrição
Verankerung und Alignierung der Töne im Mandarin
Institut für Maschinelle Sprachverarbeitung – Experimentelle Phonetik – Verankerung und Alignierung der Töne im Mandarin Chinesischen Ying Sun Matrikelnummer: 1912003 Oktober 2005 Diplomarbeit Diplomarbeit-Nr.: 42 Institut für Maschinelle Sprachverarbeitung (IMS) Universität Stuttgart Azenbergstr. 12 70174 Stuttgart Betreuer: PD Dr. Bernd Möbius WS 2005/2006 Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Inhaltverzeichnis 1 Einleitung ........................................................................................................ 2 2 Der Ton im Mandarin Chinesischen ................................................................ 4 3 2.1 Die Deklination ....................................................................................... 4 2.2 Tonale Sprache-Chinesisch .................................................................... 4 Silbe und Silbenaufbau im Mandarin Chinesischen ........................................ 9 3.1 Der Silbenaufbau im Chinesischen......................................................... 9 3.2 Silbenstrukturklassen im Mandarin Chinesischen ................................ 12 3.2.1 Konsonant im Mandarin Chinesischen ............................................. 12 3.2.2 Vokal im Mandarin Chinesischen ..................................................... 13 3.2.3 Phonotaktik....................................................................................... 14 3.3 4 Textkonstruktion mit optimaler Abdeckung ........................................... 18 Vorarbeit für die Analyse ............................................................................... 23 4.1 Sprecher und Sprachaufnahmen .......................................................... 23 4.2 Lautsegmentierung, F0- und Zeit-Messungen ...................................... 24 4.2.1 Ein kurzer Überblick über das PRAAT Skript ................................... 25 4.2.2 Alignment nach Phonemen .............................................................. 27 4.2.3 F0-Messung ..................................................................................... 31 4.2.3.1 „Trimming Algorithmu“ .............................................................. 31 4.2.3.2 Bearbeitung der durch das PRAAT-Skript erzeugten Daten..... 34 5 Die Abbildung eines Modells......................................................................... 39 6 Statistische Analyse ...................................................................................... 73 6.1 ANOVA ................................................................................................. 73 6.2 Datengrundlage für die statistische Analyse ......................................... 75 6.3 Varianzanalyse ..................................................................................... 76 6.3.1 7 Ergebnisse der Varianzanalyse........................................................ 76 Ausblick ........................................................................................................ 84 Literaturverzeichnis ............................................................................................... 87 Anhang..................................................................................................................... I -1- Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart 1 Einleitung In mehreren Experimenten ist der Einfluss der Silbenstruktur auf den F0-Verlauf nachgewiesen worden, z.B. House; d'Imperio; Ladd et al.; van Santen/Möbius. Tonale Kontexteffekte wurden für das Chinesische nachgewiesen z.B. Xu u.a.. Im Rahmen dieser Diplomarbeit sollte der Einfluss der segmentalen Zusammensetzung der Silbe sowie der Einfluss des tonalen Kontextes auf die Realisierung der lexikalischen Töne im Mandarin-Chinesischen untersucht werden. D.h., es soll untersucht werden, wie sich die Töne in allen tonalen Kontexten (mit Ausnahme des neutralen Tons) realisieren, ob es stabile Alignierungen der tonalen Gesten mit der zeitlichen und lautlichen Struktur der Silbe gibt, und inwiefern die Alignierung der Töne von der Silbenstruktur und vom tonalen Kontext abhängt. Das zu untersuchende Sprachmaterial soll die Silbenstruktur des MC systematisch abdecken. Weiterhin sollen Tonrealisierungen in allen tonalen Kontexten (mit Ausnahme des neutralen Tons) untersucht werden. Charakteristische Punkte (Ankerpunkte) entlang der F0-Kontur der Töne werden in den Dimensionen Zeit und Frequenz gemessen und statistisch als von der Silbenstruktur und vom tonalen Kontext abhängige Variable dargestellt. Als Ergebnis der Diplomarbeit soll ein Modell vorliegen, das die Oberflächenvariation der F0-Kontur von tonalen Kategorien in Abhängigkeit von Silbenstruktur und Kontext jeweils beschreibt. Im zweiten Kapitel sollte ein Überblick über den lexikalischen Ton im Mandarin Chinesischen zuerst gegeben werden, in dem sich die Arbeit bewegt. Es wird weiterhin die verschiedenen mit den lexikalischen Tönen in Zusammenhang stehenden Phänomene geklärt. Im dritten Kapitel dann wird die Silbe als prosodische Einheit vorgestellt, wobei zunächst die phonologische Bedeutung der Silbe besprochen wird, bevor der Aufbau von Silben allgemein und im Chinesischen speziell behandelt wird. -2- Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Das vierte Kapitel schildert den praktischen Teil dieser Arbeit, nämlich die Ermittlung der Silbenstrukturklassen, die Konstruktion des Testtextmaterials, die Durchführung der Sprachaufnahmen, die Lautsegmentierung und F0 Extraktion durch das Skript in PRAAT und F0-Messungen. Im fünften Kapitel werden die vom Kapitel vier in den Dimensionen Zeit und Frequenz gemessenen Werten zuerst graphisch dargestellt, um eine regelmäßige bzw. stabile Geste herauszufinden. Dadurch kann ein Modell vorliegen, das das die Oberflächenvariation der F0-Kontur von tonalen Kategorien in Abhängigkeit von Silbenstruktur und Kontext jeweils beschreibt. Im sechsten Kapitel wird die statistische Analyse bzw. die Auswertung durchgeführt. Im siebten Kapitel wird schließlich ein Ausblick gegeben, wie die Ergebnisse der Untersuchungen genutzt werden können, und wie das Modell weiter entwickelt werden sollte, so dass das Modell die Oberflächenvariation der F0-Kontur von tonalen Kategorien in Abhängigkeit von Silbenstruktur und Kontext jeweils in quantitativer Form prädizieren kann. Abschließend möchte ich noch meinem Betreuer, Bernd Möbius, für die geduldsame Unterstützung bei allen Problemen danken, der mir bei der Organisation und Durchführung der Sprachaufnahmen geholfen hat. Außerdem danke ich meinem Kommilitonen, Manuell Kountz für die Zeit und Mühe, die er aufgebracht hat, um mir bei der Korrektur der Rechtschreibung zu helfen. Auch bedanke ich mich bei Kristina Spranger dafür, dass sie mir bei der statistischen Analyse geholfen hat. Zum Schluss danke ich dem Autor der Literaturen über Mandarin Chinesisch, Xu Yi, von Ihm habe ich viele sinnvolle Vorschläge für meine Diplomarbeit bekommen habe. -3- Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart 2 Der Ton im Mandarin Chinesischen Im Folgenden soll das Phänomen des „Deklination“ zuerst betrachtet werden, danach gebe ich einen kurzen Überblick über den lexikalischen Ton und ihre Realisierung im tonalen Kontext im Mandarin Chinesischen. 2.1 Die Deklination Die F0-Kurve einer Speech Äußerung („speech unterance“) wird hauptsächlich als eine akustische Manifestation der suprasegmentalen Strukturen, wie Ton, Pitch Akzent und Intonation, verstanden. Aber Vokal und Konsonant haben keine invariant spektrographischen Repräsentationen. Die suprasegmentalen Strukturen können keine eins-zu-eins „one-to-one“ Korrespondenz mit den betrachteten F0Mustern haben. Die Oberfläche der F0-Kontur muss nicht unbedingt den unterliegenden suprasegmentalen Strukturen gleichen, weil vielen Variationen während der Implementierung dieser Strukturen vorkommen können. Weshalb ist es häufig schwierig, die F0-Muster (F0-patterns) durch unmittelbare Beobachtung zu auffassen. Z.B. ist durch viele Wissenschaftler nachgewiesen, dass es das Phänomen „Deklination“ im F0-Ablauf einer Äußerung gibt (Cohen u. ' t Hart, 1965; Cohen, Collier u. ' t Hart, 1982). Dies ist auch in vielen Sprachen berichtet worden (Spieß, 1945; Maeda, 1976; Cooper & Sorensen, 1981; Ohala, 1990; Shih, 1997). Wie es in vielen anderen Sprachen nachgewiesen ist, wird der Deklinationseffekt durch physiologische Faktor des Sprechproduktionsapparats verursacht. (z.B. [Lieberman, 1967]). Im Kapitel Fünf kann das Phänomen durch visuelle Inspektion der graphisch Darstellung der F0-Kontur bemerkt werden. 2.2 Tonale Sprache-Chinesisch Um die Oberfläche F0-Muster besser zu verstehen, sollte man eine prosodischen Strukturen finden, die relativ von der Intonation unabhängig sind und deren grundlegende Spezifikationen man relativ besser verstehen kann. Diese prosodischen Strukturen können für ihre Realisierung untersucht werden, wenn die -4- Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart F0-Konturen von den verschiedenen Faktoren beeinflusst werden. In der tonalen Sprache können die lexikalischen Töne diesem Gegenstand dienen. Die grundlegenden Spezifikationen der Töne können relative unabhängig von der Intonation abgeschätzt werden, wenn die Intonation eine Konstant bleibt. Das ist in vielen asiatischen tonalen Sprachen nachgewiesen worden (Bai, 1934; Chao, 1948, 1956, 1968; Abramson, 1962, 1976, 1978; Lin, 1965, 1988; Howie, 1976; Chuang, Hiki, Sone & Nimura, 1971; Ho, 1976). Aus ihren Untersuchungen wird festgestellt, dass die lexikalischen Töne hauptsächlich bezüglich der Höhe und Form der Pitch-Kontur „pitch contour“ spezifiziert werden (Abbildung 2.2.1 ), es ist beispielsweise schon nachgewiesen, dass die vier lexikalischen Töne H „High“ (auch als Ton1 geschrieben), R-„rise“(Ton2), L-„low“ (Ton3), F- „Falling“ (Ton4) außer dem Neutralen Ton in Mandarin Chinesischen jeweils die Pitch Kontur wie „high-level“, „mid-rising“, „ low-dipping“, und „high-falling“ haben (Chao, 1948, 1956, 1968; Lin, 1965, 1988; Howie, 1976; Chuang et al., 1971; Ho, 1976; Xu, 1997). Abbildung 2.2.1: Tonale Realisierung von vier Tönen. Die Abbildung 2.2.1 zeigt die vier tonalen Realisierungen des monosyllabischen Worts /ma/, das in Isolation produziert wird. Die Zeit ist normalisiert. Die Dauer des dritten Tons ist der längste Ton. Anbei zeigt der senkrechte Strich auf den F0Kurven die Granzen des Nasals /m/ und Vokals /a/. -5- Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Dazu haben [Luo, Wang, 1957] nach der Phonemik noch ein „fünf Punkte Skalen“„five point scalas“ System für Mandarin Chinesisch entwickelt, in dem die vier Töne jeweils nach der unterschiedlichen Tonhöhe nummeriert werden (Sieh Abbildung 2.2.2). Das System wird im Kapiteln Fünf häufig benutzt, um die graphische Darstellung der F0-Kontur besser zu erklären. Abbildung 2.2.2: „Fünf Punkte Skalen“ Mit Hilfe der an der rechten Seite stehenden Nummer von 1 bis 5 unterscheiden sich die vier Töne hauptsichtlich miteinander und für die detaillierten Werten interessieren wir uns tatsächlich nicht, als Beispiel wird „Ma“ jeweils mit den vier Tönen wie in Tabelle 2.2.3 dargestellt [shen, 2005; Chao, 1930]: Ton Name des Tones im MC Fünf Punkte Skalen Beispiel Ton 1 阴平(yang2 Pin2) 55 (wie „High“) „妈,mā ” Ton 2 阳平 (yin1 Pin2) 35 (wie „Rising“) „麻,má ” Ton 3 上声 (Shang4 Sheng1) 214 (wie „Low“) „马,mǎ ” Ton 4 去声 (Qu4 Sheng1) 51 (wie „Falling“) „骂,mà ” Tabelle 2.2.3: „Fünf Punkte Skalen“ für das Wort /ma/ Diese Töne versteht man als Kontur Töne „contour tones“. Im Vergleich dazu gibt es in vielen nicht-asiatischen Sprachen noch Regeste Töne „register tones“ [Pike, 1948], weil sie eine einzelne unterliegenden Pitch Spezifikation haben, sowie H (high), M (mid), oder L (low). Wenn diese unterliegenden Pitch Spezifikationen -6- Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart bekannt gegeben werden sind, kann man möglicherweise erklären, wie die lexikalischen Töne mit den verschiedenen Faktoren, die die Oberfläche der F0Kontur formen, interagieren können. Eine der Faktoren ist tonaler Kontext. In vielen tonalen Sprachen ist das Phänomen, dass der Gipfel der F0-Kontur und die Kontur eines Tons von benachbarten Tönen beeinflusst werden können, schon lange bekannt gegeben [Hyman, 1973; Hyman, Schuh, 1974], z.B. wird das Phänomen in afrikanischen tonalen Sprachen als „downstep“ bezeichnet, in der HLH tonale Sequenz wird nachgewiesen, dass der Gipfel der zweiten F0-Kontur (H2) niedriger als der ersten F0-Kontur (H2), weil H2 durch dem vorangehenden L-Ton abgesenkt. Anbei kann das Phänomen Deklination noch als den Abwärtstrend der gesamten F0-Kontur in einer Äußerung verstanden, zwischen den zwei Phänomenen könnte gewisse Ähnlichkeit oder möglicherweise irgendeine Überlappung stehen [xu,1999], dazu hat [Prieto, 1996] noch berichtet, dass Deklination wahrscheinlich gleichbedeutend mit „Downstep“ ist. Diese kontextuell tonale Variation wird auch als „carryover assimilatory effect“ gezeichnet. Im Vergleich dazu gibt es noch „anticipatory dissmilatory effect“ (Gandour, Potisuk, Dechongkit & Ponglorpisit, 1992; Gandour et al., 1994; Xu 1993, 1997), also, wenn ein Ton (Ton1) von einem L-Ton (Ton2) gefolgt wird, wird der Gipfel der F0-Kontur des Tons (Ton1) gesteigert. Dieser Effekt wird noch als voraussehende Steigerung der F0-Kontur “anticipatory raising” oder “regressive H-raising” verstanden. In vielen Sprachen, sowie im Thai, Mandarin Chinesischen noch vielen afrikanischen tonalen Sprachen wird dieser Effekt “anticipatory raising” schon berichtet. Diese Phänomenen können im Kapitel Fünf durch die graphisch Darstellung offensichtlich bemerkt werden. Tonsandhi In kontinuierlicher Äußerung können sich die tonalen Kategorien manchen lexikalischen Tönen in tonalen Kontext ändern, z.B. verwandelt sich der L-Ton im R-Ton im Mandarin Chinesischen, wenn der L-Ton von dem anderen L-Ton gefolgt wird. Dieses Phänomen wird als "Tone Sandhi" genannt, z.B.“Hen3 Hao3Æ Hen2 Hao3 (sehr gut)“. Noch wird "Tone Sandhi" von [Wang, Li, 1967] schon nachgewiesen. In der Diplomarbeit wird "Tone Sandhi" wegen der großen Menge -7- Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart des Korpus in der Diplomarbeit nicht berücksichtigt. Also, die Wörter mit der LL tonalen Sequenz werden nicht untersucht. -8- Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart 3 Silbe und Silbenaufbau im Mandarin Chinesischen Nachdem im vorigen Kapitel ein Einblick in den Ton gegeben wurde, um so das thematische Umfeld der Diplomarbeit näher zu beleuchten, bietet dieses Kapitel eine Beschreibung der Silbe im Mandarin Chinesischen. Die Silbe ist nämlich die Grundlage der Untersuchungen und Auswertungen, die im Rahmen der Diplomarbeit stattgefunden haben. Zunächst wird der Regel des Silbenaufbaus im Mandarin Chinesischen vorgestellt, aufgrund dieser Regeln werden die Silbenklassen dann konstruiert, die als Grunddaten für praktische Analyse von dem Kapitel vier dienen. 3.1 Der Silbenaufbau im Chinesischen Silbe ist die kleinste freie phonologische Einheit und bezeichnet eine Einheit aus einem oder mehreren aufeinander folgenden Lauten (Phonemen), die sich in einem Zug aussprechen lassen (Sprecheinheit). Die Definition der Silbe ist seit lange eine umstrittene Frage. Viele Wissenschaftler haben versucht, mit einem kurzen eindeutigen Satz eine universelle Definition der Silbe zu finden, aber jede Sprache hat eigene Regeln für den Aufbau ihrer Silben. Im Mandarin Chinesischen besteht eine Silbe normalerweise aus drei Komponenten: Onset, Rhyme, Töne. In „Han4 Yu3 Pin1 Yin1 Fang1 An4“ (“the Precept of the chinese Pinyin”) wird festgestellt, dass es 21 Konsonanten, 38 Rhyme und 4 Tönen im Mandarin Chinesischen gibt. Außerdem, wenn in einer Silbe keine initiale Konsonant auftritt, wird Onset als „Null Onset“ bezeichnet. Tatsächlich hat „Null Onset“ auch seine akustische Manifestation, die im Kapitel Fünf durch das Spektrogramm direkt visuell gesehen werden kann. Wenn wir Onset und Rhyme jeweils weiter analysieren, kann der Aufbau der Silbe schematisch [Xu, Shirong, 1980] dargestellt werden (Abbildung 3.1.1): -9- Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Syllable RHYME - final ONSET - initial („FINAL HEAD“) consonant glide „FINAL CENTER“ („FINAL TAIL“/ CODA) consonant Nucleus / Vowel Abbildung 3.1.1: der Aufbau der Silbe im Mandarin Chinesischen Diese vier Komponenten: initiale Konsonant, „final head“-Gleitlaut, „final center“Vokal/Nukleus müssen nicht immer zusammen in einer Silbe auftreten, im Allgemein sind Onset und Vokal innerhalb einer Silbe notwendig, die alle anderen Komponenten nicht. Das oben präsentierte Modell einer Silbe zeigt ein allgemeines Basis-Modell. Im Chinesischen existieren eindeutige Beschränkungen für die Phonemkombination im silbeninitialen, silbenfinalen Konsonantencluster. Die phonotaktische Möglichkeit und Einschränkung basieren sich auf diesem Modell. Nach der Charakteristik des Chinesischen hat [Xu, 1986] dieses Modell (Abbildung 3.1.2) weiter entwickelt, nämlich „Silbenaufbau der akustischen Phonetik“. Dieses Modell passt jeder Silbe im Mandarin Chinesischen. - 10 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Syllable ONSET - initial RHYME - final 5. transition voicless plosive voiced aspirated 1 2 3 4 initial target value core of the target value final target value nasal ending 6 7 8 9 Abbildung 3.1.2: Silbenaufbau der akustischen Phonetik (nach Zhao) Die Abschnitt 1-4 gehören zu dem Onset, 6-9 dem Rhyme, 5 sowohl dem Onset als auch Rhyme, weiterhin zeigen die Abschnitte 4-5 initiale Transition und 6 entspricht etwa dem Gleitlaut, 7 dem Kern-Vokal, 8-9 dem final Offset „final tail“. Das fundamentale Kategorie jeder Abschnitt des Modells wird wie folgend tabellarisch dargestellt (Tabelle 3.1.3): Abschnitt Kategorie jeder Abschnitt Merkmale 1 Verschlusslaut, Frikativ Stimmlose Abschnitt 2 Plosiv Stimmlose Abschnitt 3 Lateral, Frikativ 4 Aspiration Behauchter Verschlusslaut und Frikativ 5 Dynamische stimmhafte Segment Transition vom Onset nach Offset 6 Gleitlaut Wenn die Abschnitt 5 als Teil des Onset angesehen wird, kann der Gleitlaut dann als „Final Head“ von dem Rhyme genannt werden. 7 Nukleus Kernvokal Nasal, stimmhafter - 11 - Stimmhafte Abschnitt Institut für Maschinelle Sprachverarbeitung 8 9 3.2 Wenn Rhyme aus drei Vokale „Triphtong“ besteht, wird diese Abschnitt als finaler Vokal genannt. Finaler Vokal Nasal Uni-Stuttgart Außer „m“ ist Nasal die einzige Konsonant, die im „Final Tail“ vorkommen darf. Akustisch realisiert sich der Nasal nicht als Onset-Nasal, sondern ein nasalisierter Vokal. Tabelle 3.1.3: Kategorie der Phonemen Silbenstrukturklassen im Mandarin Chinesischen Um den Einfluss der segmentalen Zusammensetzung der Silbe sowie der Einfluss des tonalen Kontextes auf die Realisierung der lexikalischen Töne im Mandarin Chinesischen zu untersuchen, mussten zunächst die relevanten Klassen von Silben-Onset, -nuklei und -codas dargelegt werden. Dazu müssen verschiedene Aspekte berücksichtigt werden. Was am wichtigsten ist, wie die Phoneme mit einander kombinieren können, also die Phonotaktik. Um den Regel der Phonotaktik im Chinesischen zu ermitteln, musste die Grundlage der Phonetik im Chinesisch noch vorgestellt werden. 3.2.1 Konsonant im Mandarin Chinesischen Im Chinesischen gibt es insgesamt 31 Phonemen, 22 davon sind konsonantische Phoneme, 9 davon sind vokalische Phoneme. Innerhalb einer Silbe darf am höchstens 4 Phonemen vorkommen, wie z.B. „liang“ <-> l-i-a-ng, und muss mindestens ein Phonem vorkommen, wie „a“. Die 21 Konsonanten werden kategorisiert (Sieh Tabelle 3.2.1.1): - 12 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Konsonant Beschreibung Symbole Verschlusslaut stimmhaft: g, d, b stimmlos: t, p, k P_SH P_SL Frikativ r, f, sh, s, h, x F Nasal n, m, ng N Lateral l L Affrikaten z, c, zh, ch, j, q A Tabelle 3.2.1.1: Kategorie der Konsonant im Mandarin Chinesischen 3.2.2 Vokal im Mandarin Chinesischen Ähnlich wie im Deutschen werden alle Vokale im Chinesischen nach den verschiedenen Faktoren, wie der Zungenhöhe, Entfernung vom Zungenrücken zum Gaumen, Hebungsrichtung der Zunge, Gespanntheit der Zunge und Lippen, klassifiziert. Abbildung 3.2.2.1 zeigt die Zungenposition der Vokalen im Mandarin Chinesischen. Darin kommen alle Monophtonge, Diphtonge, Triphtonge und nasalisierte Vokalen vor. Abbildung 3.2.2.1: Zungeposition des Vokals im Mandarin Chinesischen - 13 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Es gibt insgesamt 8 Monophtonge, 9 Diphtonge, 4 Thiphtonge und noch alle Vokal-Nasal (VN) Kombinationen. Sie werden jeweils tabellarisch dargestellt (Tabelle 3.2.2.2). Vokalkategorie Monophthong Diphthong Symbole M D Triphtong T Nasalisation VN Konkrete Vokalen an, ian, üan, ei, ao, ai, ou, uan, en, in, a, o, e, i, u, ü, ia, ie, ua, uo, iao, iou, uai, uen, ün; i, I, *e (er) üe uei ang, iang, uang, eng, ing, ueng, iong, ong *Bemerkung „er“ kommt meistens im Beijing-Dialekt vor: „Silbe+ER Drei Gleitlauten: I, U, Ü Drei GleitDrei Gleitlauten: I, U, lauten: I, U, Ü Ü Tabelle 3.2.2.2: Klassifikation des Vokals im Mandarin Chinesischen Davon sind die alle drei „final head“, „i - /Yi/- I“, „ u -/Wu/-U“, „ü-/Yü/-U“ die Gleitlauten. Wie vorher erwähnt wurde, dass im Mandarin Chinesischen eine Silbe ohne Onset-Konsonant direkt mit einem Vokal anfangen kann, das wird als „NullOnset“ bezeichnet, z.B. „ai“, „yao“, „wai“. Wobei w-/u/ und y-/ü/ werden zwar in Konsonantengruppen eingeteilt, aber in der Tat werden sie meistens wie Vokal im Fall „Null-Onset“ gesprochen. Dieses Phänomen wird später beim Aufbau der Silbenstrukturklasse berücksichtigt. Außerdem gibt es keine absolute strikte Unterscheidung zwischen langen und kurzen Vokalen im Mandarin Chinesischen, das hängt von dem Tontyp ab [shen, 2004]. 3.2.3 Phonotaktik Nachdem ein Überblick über die Grundlage der Phonetik im Mandarin Chinesischen gewonnen worden ist, lege ich nun den Regel der Phonotaktik im Mandarin Chinesischen dar. Im Mandarin Chinesischen gibt es viele Distributionsbeschränkungen, die für Anfangs- und Endkonsonantenfolgen strikt und nicht beliebig sind. Sonst, wenn die - 14 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Silbe aus beliebigen ein bis vier Phonemen bestehen dürfte, betrüge die gesamte Zahl der Silben ohne Töne wie folgend: 4 3 2 1 A31 + A31 + A31 + A31 = 783091 Mit Tönen zusammen wäre: 783091 * 4 = 3132364 In der Tat reduziert die Phonotaktik des Chinesischen diese Zahlen deutlich, es gibt im Chinesischen nur ca. 1260 Silben, wenn die Tönen dazu noch berücksichtig werden, sonst nur ca. 400 Silben. Es ist beispielsweise nicht erlaubt, dass innerhalb einer Silbe zwei gleiche Phoneme hintereinander stehen. Es gibt die Beschränkungen zu den Konsonantenklassen im Auslaut. Die auslautenden Konsonanten sind /n/ und /ŋ/. Wobei kann nur „n“ sowohl als Onset als auch als Coda im Chinesischen vorkommen, aber „ng“ nur als Coda, das Nasal „m“ und die alle anderen Konsonanten nur als Onset. Im Rhyme muss mindestens ein Vokal vorkommen, am höchsten 3 Vokalen, nämlich Triphtong, der aus einem Gleitlaut, Kernvokal und einer finalen Endung besteht. Außerdem gibt es viele Beschränkungen für die Kombinierbarkeit von OnsetKonsonant und Rhyme-Vokal. Um die Phonotaktik der traditionellen Phonetik im Mandarin Chinesischen zubeschreiben, wird der erste Vokal des Rhymes aufgrund der in Abbildung 3.2.2.1 dargestellten Zungeposition in vier Gruppen “si4 Hu1“ speziell klassifiziert, wobei wird der Rhyme, der mit dem Vokal „a/o/e-ohne Gleitlaut“, „i“, „u“ und „ü“ anfängt, jeweils als KaiKou3Hu1-„offener Rhyme“, Qi2chi3hu1-„gestreckter Rhyme“, He2kou3hu1-„runder Rhyme“, und Zuo1kou3hu1-„gespritzter /herausstreckter Rhyme“ bezeichnet. Die vier Gruppen dienen zum Regel der Kombinierbarkeit der Phonemen im Mandarin Chinesischen (Sieh Tabelle 3.2.3.1). KaiKou3Hu1/ ohne Gleitlaut a o e ai ei ao ou Qi2chi3hu1/ gestreckt He2kou3hu1/ rund Zuo1kou3hu1/ herausstreckt i ia u ua uo ü ie üe uai uei iao iou - 15 - Institut für Maschinelle Sprachverarbeitung an en ang eng ong Uni-Stuttgart ian uan üan in uen ün iang uang ing ueng iong Tabelle 3.2.3.1: „Si4hu1“ von dem Rhyme Die mögliche Kombinierbarkeit der Onset-Konsonanten und Rhyme-Vokalen wird wie in Tabelle 3.2.3.2 dargestellt. Wo das Sonderzeichen „*“ steht, besteht die Kombinationsmöglichkeit. Wo mit der rosa Farbe markiert wird, ist die Kombination der Onset-Konsonanten und Rhyme-Vokalen nicht möglich. Anbei zeigt das „#“Zeichen, dass die Konsonanten nur mit „u“ kombinierbar sind (Tabelle 3.2.3.2 ). Onset Rhyme offen gestreckt rund herausgestreckt labial Labio-dental bpm * * # f * # dt * * * Alveolar nl * * * * Dorsal jqx * * Velar gkh * * Retroflex zh ch sh r * * Dentalveolar zcs * * Null-Onset ø * * * * Tabelle 3.2.3.2: Kombinierbarkeit von Onset-Konsonant und Rhyme-Vokal Aufgrund der Regel der Phonotaktik im Chinesischen kann die Silbenstrukturformel (SF) wie folgend beschrieben werden: (*C) (V) V (V/N) Die Klammerungen zeigt eine Möglichkeit, d.h. Onset kann leer sein, nämlich „Null-Onst“, das Nasal „N“ muss auch nicht immer in einer Silbe vorkommen, Vokal kann Diphthong oder Triphtong sein, aber innerhalb einer Silbe muss mindestens ein Vokal auftreten; das Sternchen zeigt die vorher beschriebene Regel der Phonotaktik. Gemäß der Silbenstrukturformel wird das Korpus der Diplomarbeit aufgebaut. Um die Silbenstrukturklassen zu ermitteln, werden die Lexikoneinträger zunächst - 16 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart in ihre monosyllabischen Wortbestandteilen aufgespaltet. Um den konkreten Lemmata zu abstrahieren, werden die vorher in Tabelle 3.2.2.2 bzw. Tabelle 3.2.1.1 dargestellten Symbolen benutzt. Mit Hilfe der Symbolen werden die monosyllabischen Wortbestandteile zusammengesetzt und jeweils in Onset und Rhyme aufgespaltet: Vokal: M Æ Monophtong D Æ Diphthong T Æ Triphtong VN Æ Nasalisierte Vokale Konsonant: P_SH Æ stimmhafte Verschlusslaut P_SL Æ stimmlose Verschlusslaut F Æ Frikative N Æ Nasale L Æ Lateral A Æ Affrikaten Onsetklasse: Klasse 1: SonorantÆ N, L Klasse 2: ObstruentÆ P_SH, P_SL, F, A Klasse 3: GleitlautÆ I, U, Ü Klasse 4: Null_Onset Rhymeklasse ( Nukleus + CodaklaaseÆN: n/ng): Klasse M ÆM Klasse D Æ D Klasse T Æ T Klasse VN ÆVN Darunter dürfen nur „n“ bzw. „ng“ als konsonantische „final tail“/Coda innerhalb einer Silbe vorkommen, außerdem ist der Nasal im Coda akustisch nicht wie Konsonant, der Nasal und Vokal werden im Mandarin Chinesischen als ein Ganze gesehen, dabei wird der Vokal nasalisiert, deshalb werden Nukleus- und - 17 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Codaklasse in der Diplomarbeit als Rhymeklasse zusammengefasst. Um die im Chinesischen auftretenden Silben möglichst vollständig abzudecken, wurden die oben erwähnten Onset- bzw. Ryhmklasse dann noch kombiniert: Onset + Ryhme: (1) 1M, 1D, 1T, 1NV (2) 2M, 2D, 2T, 2NV (3) 3M, 3D, 3T, 3NV (4) 4M, 4D, 4T, 4NV Um die Kombination von zweisilbigen Wörtern möglichst vollständig abzudecken, wird die vorher erwähnte Silbenstrukturform (SF) umgewandelt, also „C“ bezeichnet alle Konsonanten ohne Nasal „N“ und Lateral „L“. Es wird als Modell_MC in der Diplomarbeit bezeichnet, nach diesem Modell werden die Testtextmaterialien konstruiert: (C) (V) V (V/N)Æ (C/N/L) V (N) 3.3 Textkonstruktion mit optimaler Abdeckung Nach der Ermittlung der Silbenstrukturklassen kann das Textmaterial für die Spracheaufnahmen nun konstruiert werden. Das zu untersuchende Sprachmaterial soll die oben geschriebenen Silbenstrukturklassen systematisch abdecken. Gleichzeitig werden alle 4 Töne mit jedem monosyllabischem Wort kombiniert (Tabelle 3.3.1-3.3.4), z.B. „ba1, ba2, ba3, ba4, fan1, fan2, fan3, fan4“, usw. Die aus monosyllabischen Wörtern bestehenden Textmaterialien werden in der Diplomarbeit als Grunddaten konstruiert. Weiterhin werden die disyllabischen Wörter nach der Kombinationsmöglichkeit von zwei Wörtern (CVNNVN, CVNCVN...) auf der Grundlage der Grunddaten unter den verschiedenen Tonkombinationen (HH, HL, HR, HF...) mit der Ausnahme des neutralen Tons weiter konstruiert. - 18 - Institut für Maschinelle Sprachverarbeitung D Bai Tao Uni-Stuttgart 1 P_SH P_SL M Ba Ke T Guai Tiao NV Bang/Beng Ping/Pin Feng/Fang/ Hao/Hua Shuai Fan/Xing/ Hong Jin/Jing/ Chong/ Jie Jiao Chang/Qin/ Qing Tabelle 3.3.1: Stimuli der Klasse 1 Bemerkung Ton1-Ton4 Ton1-Ton4 F Fa/Fu A Ji 2 L N M D T NV Li Lüe Liao Liang Mi/Mu/Ma Nai/Nao/Mao Niao Nan Tabelle 3.3.2: Stimuli der Klasse 2 Bemerkung Ton1-Ton4 Ton1-Ton4 3 W I Ü M D T NV Wa Wai Wan Ye Yao Yan Yu Yue Yuan/Yun Tabelle 3.3.3: Stimuli der Klasse 3 Bemerkung Ton1-Ton4 Ton1-Ton4 Ton1-Ton4 4 ø M A D T NV Ao Ai An Tabelle 3.3.4: Stimuli der Klasse 4 Bemerkung Ton1-Ton4 Ton1-Ton4 Ton1-Ton4 Um es zu untersuchen, ob die Silbenstruktur auf den F0-Verlauf im tonalen Kontext durch die benachbarte Silbestruktur beeinflusst werden kann, wird die Wortkombinationsklasse des disyllabischen Wortes aufgrund des Modelle (Modell_MC) nun konstruiert (Tabelle 3.3.5). Darunter unterscheiden sich die Klassen jeweils durch die verschiedenen Kombinationen der ersten und zweiten Silbe, in der ersten Silbe wird der Vokal wie in Abbildung 3.2.2.1 dargestellten Stelle jeweils nach „High“ und „Low Vocal“ klassifiziert, zudem wird das Coda in der Silbe berücksichtigt (mit oder ohne Coda); in der zweiten Silben wird das Onset-Konsonant jeweils nach Null-Onset, Nasal/Lateral und Konsonant außer Nasal/Lateral klassifiziert. - 19 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Wortkombinationsklasse 11 Silbe 1 (C/N) V Silbe 2 (C/N/L) V(N) *Bemerkung High/low vocal 12 (C/N) *VN (C)V(N) High Vocal 13 (C/N) *VN (C)V(N) Low Vocal 14 (C/N) *VN N/L V(N) High Vocal 15 (C/N) *VN N/L V(N) Low Vocal Tabelle 3.3.5: Silbenklasse des disyllabischen Wortes Nachdem die Wortkombinationsklassen dargelegt werden sind, kann die Konstruktion von disyllabischen Textmaterialien für Sprachaufnahmen beginnen. Nach Klassenzugehörigkeiten werden die Stimuli sortiert. Außerdem soll die Stimuli mit den 16 verschiedenen Tonalkombinationen kombiniert werden (Sieh Tabellen 3.3.6-3.3.10). Aber nur werden die monosyllabische und disyllabische Wörtern in der Diplomarbeit berücksichtigt, weil die meisten chinesischen Wörter disyllabisch sind. So werden die trisyllabischen oder polysyllabischen „mehrsilbigen“ Wörter in der Diplomarbeit nicht untersucht. 11 (C/N)V+(C/N/L)V(N): Töne H R L F H R L - Ba Ke - Fa Tiao - Ji Ke - Guai Guai - Ji Ke - Jie Hao - Tiao Jiao - Yao Tiao - Tiao Jie - Jie Jiao - Ji Jie - Yan Tao - Jie Fu - Ke Tiao *LL - Guai Wan - Wa Fang - Tiao Fa - Jiao Tiao - Tiao Yuan - Nai Ji - Guai Jie - Ji Jiao Tabelle 3.3.6: Stimuli der Klasse 11 F - Fa Ji - Fa Jiao - Hong Ye - Jie Bai - Fa Yuan - Tao Yan - Ai Hao - Fa Ji *LL: Die LL tonale Sequenz hat sich zur RL-Sequenz geändert. Es wird als phonologische Ton-Sandhi bezeichnet, das Phänomen wird in der Diplomarbeit nicht berücksichtigt, deshalb werden keine Stimuli unter den LL-Sequenzen in den disyllabischen Silbenstrukturklassen konstruiert. - 20 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart 12 (C/N)V N+ (C)V(N): Töne H R L F H R L - Bang Jiao - Fang Yuan - Feng Bai - An Bang - Feng Qing - Fang Fa - Nan Fang - Nan Xing - Fan Xing - Fan Xing - Chang Yan - Chang Yuan - Fan Ji - Fang Fu *LL - Fan Fang - Fan Chang - An Jie - Liang Xing - An Feng - An Fa - Fang Xing - Fan Fa Tabelle 3.3.7: Stimuli der Klasse 12 F - Feng Yun - Feng Fu - Fang Ai - Fang Ke - Fan Pin - Fan Fu - An Hao - Fan Ji 13 (C/N)V N+ CV (N): Töne H R L F H - Qing Feng - Chong Ji - Ping Fang - Ping An - Qing An - Xing Qin - Xing Hua - Pin Jie R L - Qing Jie - Qing Fu - Qing Fu - Qing Jiao - Ping Fang - Ping Fan - Pin Fan - Ping Jiao - Pin Xing *LL - Pin Ji - Xing Qing - Pin Qing - Xing Fu - Xing Hao Tabelle 3.3.8: Stimuli der Klasse 13 F - Qing Fu - Qing Ke - Ping Jie - Pin Fu - Chong Ai - Qing Ke - Xing Yun - Qing Xing 14 (C/N) VN + N/L V(N): Töne H R L F H* - Fang Ma - Yan Ma - Feng Ma - Wang Ma - Feng Ma - Liang Ma - Feng Ma - Fan Ma R L - Feng liang - An Ma - Feng Mi - Feng Niao - Fang Liang - Nan Liao - Fang Nan - Chang Li - Wan Nan *LL - Chang Nan - Fang Liao - Fang Mi - Feng Li - An Li Tabelle 3.3.9: Stimuli der Klasse 14 - 21 - F - Fang Lüe - Dang Liang - Nan Nai - Fan Mi - Fan Mu - Nan Liao - Fan Liang - An Li Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart 15 C/N VN + N/L V(N): Töne H R L F H* R L - Qing Mao - Qing Liang - Qing Li - Xing Ma - Chong Liang - Chong Mi - Hong Mao - Hong Mao - Xing Li - Ping Ma - Yun Nan - Qing Li - Chong Mao - Jing Min *LL - Yun Ma - Min Nan - Jin Ma - Yun Liang - Pin Li - Qing Ma - Yun Li - Yun Mu Tabelle 3.3.10: Stimuli der Klasse 15 F - Qing Li - Qin Li - Ping Mu - Hong Mu - Xing Mu - Jin Mi - Jin Li - Jin Liang H*: In den mit blauer Farbe markierte H* Spaltern (Tabellen 3.3.9 - 3.3.10) haben die meisten Wörter fast keine Bedeutungen. Es ist schwierig, unter diesen TonalKombinationen passende Wortkombinationen mit sinnvollen Bedeutungen zu finden. Nun werden die oben aufgebauten monosyllabischen und disyllabichen Stimuli in beliebiger Reihfolge ausgewählt und dann jeweils in den Trägersatz „shuo1 le __ zhe4 ge4 ci2“ eingebettet, damit die koartikulatorischen Effekte unter einem konstant Kontext besser kontrolliert werden können. Anbei trägt das Wort „le“ einen neutralen Ton, damit die Stimuli von dem Trägersatz möglicherweise nicht beeinflusst werden. - 22 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart 4 Vorarbeit für die Analyse Nach der Ermittlung der Silbenstrukturklassen und Konstruierung der Testtextmaterialien mit optimaler Abdeckung konnte die Sprachaufnahmen nun beginnen. Die aufgenommenen Daten dienen später zu den graphischen Darstellungen und statistischen Untersuchungen. 4.1 Damit Sprecher und Sprachaufnahmen eine relativ große Variationsbreite an Frequenzwerten und Intonationsmustern erfasst werden konnte, wurden sowohl drei männliche als auch zwei weibliche Sprecher aufgenommen. Wegen der großen Menge des Korpus werden die zwei Besten davon ausgewählt. Die zwei Sprecher, nämlich die weibliche Sprecherin „Dai“ und der männliche Sprecher „Yang“, sind ChinesischMuttersprachige. Der Sprecher „Yang“ ist in Beijing geboren und aufgewachsen und lebte immer in Beijing, bevor er nach Deutschland kam; die Sprecherin „Dai“ hat in Beijing studiert und war nebenberufliche Moderatorin, als sie in Beijing studierte. Im Moment studieren sie beide an der Universität Stuttgart. Wegen der statistischen Analyse werden sie im folgenden Ablauf dieser Arbeit jeweils als Sprecher1 (Sprecher Yang) und Sprecher2 (Sprecherin Dai) nummeriert. Die Aufnahmen wurden mit einer Abtastfrequenz von 16 kHz und einer Auflösung von 16 Bit durchgeführt. Hierbei wurden die Stimuli im Trägersatz unter einer möglichst natürlichen Intonation und normalen Geschwindigkeit ausgesprochen. Abbildung 4.1.1 zeigt den von dem Sprecher 1 gesprochenen Satz „shuo1 le jiao2 zhe4 ge4 ci2“: - 23 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Abbildung 4.1.1: Ausschnitt aus „shuo1 le jiao1 zhe4 ge4 ci2“, Sprecher 1 Unter dieser Weise wird jeder Satz von jedem Sprecher zweimal wiederholt. Das gesamte Aufnahmekorpus bestehen aus 1496 Sätzen: Monosyllabische Wörter: 2 Sprecher*2 Wiederholungen*56 Stimuli*4 Tönen = 896 Disyllabische Wörter: 2 Sprecher * 2 Wiederholungen * 150 Stimuli = 600 Gesamte Summe = 896 + 600 = 1496 4.2 Lautsegmentierung, F0- und Zeit-Messungen In diesem Kapitel wurde die Sprachdaten in digitaler Form mit Hilfe der Software PRAAT segmentiert. Vor der Lautsegmentierung wurde die Software PRAAT und das Programm für die Extrahierung der Werten zuerst vorgestellt, die für die graphische Darstellung und statistische Analyse in den späteren Kapiteln zur Verfügung stehen. - 24 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart 4.2.1 Ein kurzer Überblick über das PRAAT Skript Vor dem Alignment nach Phonemen sollte ein kurzer Überblickt über das PRAAT Skripts von [Xu, 1999 ] zuerst gegeben werden, weil das PRAAT Skript vor dem Anfang des Alignments laufen lassen müssen. Der detaillierte Kommentar siehe Anhang 1. Der oberflächliche Prozess des Skripts ist wie folgend: a. Das PRAAT Skript sollte zuerst mit den „*.wav“-Dateien zusammen in einem Ordner gespeichert werden; b. Öffnen das PRAAT , dann wählen “Open PRAAT Script” von dem PRAAT Menü; c. Suchen das PRAAT Skript und legen es im Dialog Fenster fest. Nachdem das Skript im Fenster geöffnet worden ist, wählen „run“ von dem „Run “ Menü; d. Die drei Fenster, die von 1 bis 3 in der Abbildung 4.2.1.1 nummeriert werden, werden dann anscheinen; - 25 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Abbildung 4.2.1.1: der Laufprozess des Skripts in PRAAT Das Fenster 1 zeigt den Waveform mit dem „Vocal Pulse markings“ an, die durch PRAAT automatisch generalisiert werden. Hier kann man manuell die falschen Markierungen korrigieren, sowie die fehlenden Markierungen manuell einsetzen, offensichtliche doppelte Markierungen löschen. Das Fenster 2 zeigt den Waveform und das Spektrogramm zusammen mit dem optionalen „Pitch Tracks“, „Formant Tracks“, „Vocal Pulse Markings“, usw. Auf dem unteren Teil des Fensters stehen zwei Label-Felder, nämlich „Intervall“- und „Point“-Feld. Man kann darauf nach Bedarf der Analyse, verschiedene Grenzen, Laute, usw. markieren. Wenn der manuelle Korrektur und das Label fertig sind, sollte man das Fenster 3 betrachten und auf „continue“ klicken, dann werden die folgenden Aktionen - 26 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart passieren: „Vocal Pulse“ und Label werden automatisch jeweils in der „*.pulse“- und „*.label“-Datei gespeichert. Gleichzeitig werden die Dateien sowie „*.f0“-, „*.timenormf0“-, „*.actutimenormf0“-, „*.samplef0“-, „*.means“-Datei mit Hilfe des Skripts automatisch erzeugt und gespeichert. Die Daten davon sind je nach Bedarf der Analyse und verschiedenen Algorithmus extrahiert worden. Die Dateien, die für statistische Analyse gebraucht werden, sowie „*.f0“, „*.timenormf0“ und „*.actutimenormf0“, werden in den späteren Kapiteln ausführlich erklärt sollen. 4.2.2 Alignment nach Phonemen Nachdem ein kurzer Überblick über PRAAT und das PRAAT-Skript von [Xu, 1999] gewonnen worden ist, kann ich das Alignment nach Phonemen nun beginnen. Anbei werden nur die vorher erwähnten Stimuli in PRAAT manuell annotiert, aber der Trägersatz nicht. Nach dem PRAAT-Skript von [Xu, 1999] werden alle Trägersätze nicht markiert, nur die alle für statistische Analyse zur Verfügung stehenden Werten der Zielwörter, die 1496 Stimuli also, extrahiert, wo keine Markierung steht, wird durch das Programm vernachlässigt. Um es zu untersuchen, ob es stabile Alignierungen der tonalen Gesten mit der zeitlichen/lautlichen Struktur der Silbe gibt, werden die Phonemgrenzen sowie Kern-Vokal, Gleitlaut und stimmhafte Konsonant im Onset und Offset (z.B. „ng/n“) von den Zielwörtern markiert. Wo stimmlose Konsonant steht, wird natürlich leer gelassen. Besonders werden die Silbengrenzen der disyllabischen Wörter markiert, so wie Onset der Silbe 1, Offset der Silbe 1, Onset der Silbe 2, Offset der Silbe 2. Die VN-Phonemgrenze liegt im “Vocal Pulse” (VP), wo die Mundhöhle eindeutig geschlossen ist. Die Evidenz für den Moment der Mundhöhleform sowie „offen“ und „geschlossen“ kann sowohl von dem Spektrogramm als auch von der Waveform abgeleitet werden. Wenn zwei Nasals (oder ein Nasal und ein Latral), d.h., Nasal-Offset der ersten Silbe und Nasal-Onset der zweiten Silbe „CVN (N/L)VC“, nacheinander stehen, ist es manchmal schwer, ihre Silbengrenzen vom Spektrogramm direkt zu lesen, dazu hat [Xu, 1998] schon untersucht, er hat die zwei Nasals zusammen als eine - 27 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Einheit segmentiert und durch eine spezielle Analyse die Position ihre Silbengrenze festgestellt. In der Diplomarbeit ist die Alignierung dieser Silbengrenzen erfolgreich geschlossen, also, die Phonemgrenzen zwischen dem Nasal-Offset der ersten Silben und Nasal-Onset der zweiten Silben sind vom Spektrogramm direkt gelesen und markiert worden. Abbildung 4.2.2.1 zeigt diese Arbeitsschritte. Man kann die falsche Markierungen manuell korrigieren, sowie eine fehlende Markierung einsetzen und offensichtliche doppelte Markierungen löschen. Abbildung 4.2.2.1: Die Alignmentierung der Silbenstruktur CVN Im Satz „shuo1 le Nai1 zhe4 ge4 ci“ wird „Nai1“ auf dem Intervall Feld nach zwei Intervalle, nämlich dem Intervall 1 „n“ und Intervall 2 „ai“, segmentiert. Es gibt außerdem speziale Phänomen beim Alignment, nämlich „Glottal-Stop“ und „Creaky voice“. Abbildung 4.2.2.2 zeigt das Phänomen „Glottal-Stop“ für das Word „a1“. Das Phänomen Glottalisierung („Creaky Voice“) erfolgt häufig bei dem Konsonant-Vokal-Übergang, wenn ein Nasal oder ein Lateral vor einem - 28 - Institut für Maschinelle Sprachverarbeitung silbeninitialen Vokal beispielsweise Uni-Stuttgart auftritt. In diesem Fall beginnt die Glottalisierung bereits gegen Ende des vorausgehenden Nasals oder Laterals. Im Chinesischen treten häufig „Creaky Voice“ Phänomen bei dem L-Ton und F-Ton auf. Abbildungen 4.2.2.3-4.2.2.4 zeigen das Phänomen „Creaky voice“. Abbildung 4.2.2.2: Glottal-Stop im H-Ton - „a1“, Sprecher 1 In Abbildung 4.2.2.3 bricht der Teil am Ende der F0-Kurve wegen der „creaky voice“- Phänomen ab, er wird beim Labeln nicht berücksichtigt. - 29 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Abbildung 4.2.2.3: „Ceaky voice“- im L-Ton -„Nai4“, Sprecher 1 Abbildung 4.2.2.4: „Ceaky voice“ im LH-Ton - „Nan3“, Sprecher 1 - 30 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart In Abbildung 4.2.2.4 tritt der Abbruch der F0-Kontur bei dem L-Ton im Chinesischen häufig auf. Dieser Fall ist nicht vermeidbar. Der Professor [Shen, 2004] von Beijing-Universität hat schon nachgewiesen, dass das Phänomen des Abbruchs der F0-Kontur im L-Ton jede Zeit passieren kann. Es ist schwer, manuell das Signal hinzufügen, wo die Stelle des Abbruchs der F0-Kontur steht. Weil es unklar ist, wo ein Signal, und wie viel Signal gesetzt werden soll. Sonst wird der extrahierte F0-Wert nicht mehr stimmen, weil er nicht wahr ist. Dieses Problem wird durch den Algorithmus „Trimming Alorithmu“ im PRAAT Skript von [Xu, 1999] im Wesentlichen gelöst. Aber eine absolute Lösung zu finden, ist nun noch schwer. Dieser „Trimming Alorithmu“ wird im nächsten Kapitel detailliert erklärt werden. 4.2.3 F0-Messung Während des Aligments und der Überprüfung der manuell gesetzten Label werden F0-Messungen mit Hilfe des PRAAT Skripts gleichzeitig durchgeführt. Also, für jeden einzelnen der 1496 Stimuli wird der Grundfrequenzverlauf aus dem Signal durch das PRAAT Skripts automatisch herausgefiltert. Anbei wird das von dem letzten Kapitel erwähnte Problem, nämlich „creaky voice“, durch den Algorithmus „Trimming Alorithmu“ aus dem PRAAT Skript im allgemeinen gelöst werden. Außerdem kann der Algorithmus „Trimming Alorithmu“ die F0-Kurve glätten. 4.2.3.1 „Trimming Algorithmu“ Nun sollte der Algorithmus „Trimming Algorithmu“ im Detail vorgestellt werden. Die Markierung von „Vocal Pulse“ und Annotation der Segmenten für jeden Stimulus werden in PRAAT durchgeführt und mit Hilfe des von [Xu, 1999] geschriebenes PRAAT-Skripts werden die Signale bearbeitet. Im Skript wird eine spezielle Berechnung konstruiert, nämlich „Trimming Algorithmu“, so werden die zeitlichen Dauer des „vocal cycles“ in F0-Werten umgerechnet, gleichzeitig werden die F0-Kurve geglättet. Dieser Algorithmus „Trimming Alorithmu“ wird in der Anhang 1 verfügt. - 31 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Der „Trimming Algorithmus“ ist besonders effektiv für die Glättung der scharfen Spitzen im rohen F0-Ablauf, es wird häufig an der Anschlussstelle des Nasals und Vokals gesehen, wie die dünne Linie in Abbildung 4.2.3.1.1 gezeigt wird. Abei zeigt das Symbol „+“ die Grenze des Vokals und Nasals: Abbildung 4.2.3.1.1: „Trimming Algorithmu“- die geglättete F0-Kurve des Satzes „mao mi na mao mi“ [Xu, 1999] Die scharfe Spitzen treten häufig auf, wenn das Programm „Vokal-cycleMarkierung“ von PRAAT seine Markierung von einer der mehrfachen Spitzen oder Tälern in einem „Vocal cycle“ auf die anderen verschiebt, wie das „Vocal cycle“ zwischen dem Wort /na/ und dem weiteren /mao/ gesehen wird (Abbildung 4.2.3.1.1). Der Algorithmus gleicht diesen scharfen Spitzen sehr effektive ab. Die Segmentation liefert akkurate „Ton-Segment-Alignment-Informationen“. Die Glättung verringerte die zufällige Variationen der F0-Kontur und versichert gleichzeitig die folgende akkurate Abmessung der Position und Wert der Spitzen der F0-Kontur und ihrer Tälern. Die Wirkung der Algorithmen wird mit den dicken Linear bezeichnet. Anbei werden die getrimmte Grundfrequenz und aktuelle Zeit durch das Programm automatisch in der „*.f0“-Datei und der „*.PitchTier“-Datei, der durch PRAAT geöffnet werden kann, gespeichert. Das Ergebnis der „a2.f0“-Datei wird beispielsweise in Tabelle 4.2.3.1.2 ausgezeigt: - 32 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Zeit F0-Werte 0.057 108.75 0.067 102.90 0.077 103.88 0.087 108.75 0.093 111.33 0.100 113.82 0.108 114.03 0.117 114.24 0.126 114.82 0.135 114.97 0.143 115.04 0.152 115.11 0.161 114.45 0.169 113.80 0.178 112.26 0.186 108.75 0.196 104.09 0.207 103.01 0.217 101.96 0.227 99.93 0.237 99.56 0.248 99.17 0.258 101.19 0.268 101.18 0.278 101.88 0.287 101.67 0.297 169.66 0.307 225.36 0.317 241.23 0.322 197.16 0.325 166.17 0.331 165.88 0.338 168.10 0.344 170.39 0.350 182.29 0.355 192.34 0.361 192.60 0.366 197.41 0.371 199.74 0.376 202.06 0.381 202.08 0.386 202.11 0.390 202.11 Tabelle 4.2.3.1.2: Die tabellarische Darstellung der „a2.f0“-Datei, Sprecher 1 - 33 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Um die f0-Kontur visuell zu kontrollieren und vergleichen, die geglätteten f0-Kurve wurden weiter verarbeitet: (a) „Zeit-Normalisieren“ der F0-Kurve für jede Konsonant- und Vokalsegment, d.h., eine predeterminierte Anzahl der F0-Punkten wird in gleichen Zeitabständen von der geglätteten f0-Kurve jedes Segments genommen. Diese charakteristischen Punkte werden im weiteren Verlauf als Ankerpunkte bezeichnet; (b) der Mittelwert wird aus zwei Wiederholungen des gleichen Satzes in Zustand der bestimmten tonalen Kombinationen gebildet und automatisch als „*.means“ gespeichert. Also, die Zeitnormalisierung diente zwei Hauptzwecken: 1. Sie macht der Mittelwertberechnung der Wiederholungen des gleichen Satzes möglich; 2. Sie erleichtert den direkten Vergleich zwischen unterschiedlichen F0-Kurven. Anbei sind die durch Zeitnormalisierung weggeworfenen Dauerinformationen für Intonation auch relevant, sie sind immer existiert. 4.2.3.2 Bearbeitung der durch das PRAAT-Skript erzeugten Daten Die Ergebnisse der geglätteten, Zeit normalisierten und gemittelten F0-Kourven werden jeweils in der „*.f0“-, „*.actutimenormf0“-/ “*.timenormf0”- und „*.means“Datei für jeden Sprecher, also die Sprecherin „Dai“ und der Sprecher „Yang“, gespeichert. Außerdem werden die gesamten Dauer jedes Segments gerechnet und zusammen unter der „duation.txt“ -Datei gespeichert, in der man als eine Hilfsdaten direkt lesen kann, ob sich der Dauer der Silbe mit den verschiedenen Silbenstrukturen unterscheidet. Mit Hilfe der Daten aus dem „*.means“-Datei hat [Xu, 1999] die durchschnittlichen F0-Kurven graphisch dargestellt, um die Effekte des lexikalischen Tons, Silbenstruktur und des tonalen Kontexts auf F0-Kontur direkt visuellen zu vergleichen und untersuchen. Aber wegen des speziellen - 34 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Korpora, das sowohl aus dem einsilbigen als auch zweisilbigen Wort besteht, werden nur die Dateien sowie die “*.timenormf0”-, „duation.txt“-Datei und “*.actutimenormf0”-Datei für spätere Analyse gebraucht. Die „*.actutimenormf0“-Dateien und die “*.timenormf0”-Dateien dienen zu den späteren graphischen Darstellungen und statistischen Analysen. Die „*.actutimenormf0“-Datei enthält die Zeit-Normalisierte Grundfrequenz. Die Zeitskala bezieht sich auf die originale Zeit, die zum Erreichen des jeweiligen Punktes vom Silbenbeginn ausgehend benötigt werden. Anbei wird die Onset-Zeit des ersten Intervalls genullt. Gleichzeitig werden 10 Ankerpunkte in jeder Segment entlang der F0-Kontur der Töne in den Dimensionen Zeit und Frequenz gemessen. Alle Datentypen können durch jede graphische Software (wie z.B. in Excel oder SPSS) geöffnet werden. Abbildung 4.2.3.2.1 zeigt die tabellarische Darstellung der „Jie2.actutimenormf0“-Datei aus dem Satz „Shuo1 le jie2 zhe4 ge4 ci2 “ auf der linken Seite, auf der rechten Seite wird die Tabelle durch Excel graphisch dargestellt: Zeit 0.026 0.052 0.078 0.105 0.131 0.157 0.183 0.209 0.235 0.261 F0 120.35 121.16 125.15 133.36 142.43 152.21 165.15 169.49 175.32 195.22 jie35 200 f0 150 F0 100 0 1 2 3 4 5 6 7 8 9 10 11 t Abbildung 4.2.3.2.1: Tabellarische Darstellung der „Jie2.actutimenormf0“Datei und ihre graphische Darstellung, Sprecher 1 Der Unterschied zwischen der “*.timenormf0”-Datei und der „*.actutimenormf0“Datei liegt nur in der Zeitskala. Die originale Zeit in der “*.actutimenormf0”-Datei wird in der „*.timenormf0“-Datei durch 1-10 ersetzt, die Punkte 11-20 gehören zu dem Intervall 2, usw., je nach der Anzahl des Intervalls (der Segment) ändert sich die Anzahl der Punkte (Sieh Tabelle 4.2.3.2.2). - 35 - Institut für Maschinelle Sprachverarbeitung F0 120.35 121.16 125.15 133.36 142.43 152.21 165.15 169.49 175.32 195.22 jie35 200 f0 Ankerpunte F0_1 F0_2 F0_3 F0_4 F0_5 F0_6 F0_7 F0_8 F0_9 F0_10 Uni-Stuttgart 150 F0 100 0 0.1 0.2 0.3 t Tabelle 4.2.3.2.2: Die tabellarische Darstellung der „jie2.timenormf0“-Datei auf der linken Seite, graphische Darstellung der „jie2.timenormf0“-Datei auf der rechten Seite, Sprecher 1 Im Satz „shuo1 le Liang4 zhe4 ge4 ci“ von dem Sprecher 1 wird „Liang4“ auf dem Intervall-Feld jeweils nach dem Intervall 1 „l“ (Punkte 1-10), dem Intervall 2 „i“ (Punkte 11-20), dem Intervall 3 „a“ (Punkte 21-30), und dem Intervall 4 „ng“ (Punkte 31-40) segmentiert. Also, die vier Intervalle werden wie in Tabelle 4.2.3.2.3 dargestellt. Weiterhin zeigt der mit Rosa gefärbte Spalt in Tabelle 4.2.3.2.4 die Phonemgrenze bzw. Silbengrenze (je nach der Silbenstruktur) in jeden 10 Punkten. Anschließend werden alle “*.timenormf0”-Dateien, die sowohl einsilbiges als auch zweisilbiges Wort enthalten, zusammen durch das Programm von [Xu,1999] automatisch in der „normf0.txt“-Datei gespeichert. - 36 - Institut für Maschinelle Sprachverarbeitung Ankerpunkte F0_1 F0_2 F0_3 F0_4 F0_5 F0_6 F0_7 F0_8 F0_9 F0_10 F0 78.68 109.33 125.43 131.30 132.5 133.42 134.71 137.1 144.38 150.12 Ankerpunkte F0_11 F0_12 F0_13 F0_14 F0_15 F0_16 F0_17 F0_18 F0_19 F0_20 F0 155.87 158.69 160.95 163.28 165.55 167.47 168.35 168 167.39 166.75 Uni-Stuttgart Ankerpunkte F0_21 F0_22 F0_23 F0_24 F0_25 F0_26 F0_27 F0_28 F0_29 F0_30 F0 162.04 158.9 153.07 148.15 143.17 138.18 133.48 129.84 126.44 125.71 Ankerpunkte F0_31 F0_32 F0_33 F0_34 F0_35 F0_36 F0_37 F0_38 F0_39 F0_40 F0 121.42 119.42 117.62 116.49 116.31 116.13 114.86 113.37 112.35 112.34 Tabelle 4.2.3.2.3: Ausschnitt der tabellarischen Darstellung der „Liang4.timenormf0“-Datei“ Name ba1 feng2 liang2 liang2hao3 F0_1 107.72 167.50 110.79 176.72 F0_2 114.22 166.19 110.80 173.73 F0_3 115.08 160.92 111.25 173.47 F0_4 111.26 148.76 112.17 171.96 F0_5 102.48 132.86 113.09 170.33 F0_6 99.30 124.53 114.10 167.57 F0_7 101.76 119.40 115.15 164.86 F0_8 2266.57 114.29 116.20 161.31 F0_9 168.92 105.12 117.32 157.28 F0_10 199.74 104.66 117.82 155.55 Name F0_11 F0_12 F0_13 F0_14 F0_15 F0_16 F0_17 F0_18 F0_19 F0_20 feng2 157.05 154.98 10188.62 14049.49 112.36 113.06 111.33 102.04 101.74 101.72 liang2 118.67 118.94 119.05 119.05 119.05 119.03 119.02 118.56 117.83 117.35 liang2hao3 141.08 130.76 122.08 116.66 112.72 111.74 110.67 110.10 110.55 111.22 Name F0_21 F0_22 F0_23 F0_24 F0_25 F0_26 F0_27 F0_28 F0_29 F0_30 liang2 116.98 116.76 116.99 117.59 119.59 122.27 125.51 127.79 131.97 133.78 liao2hao3 112.34 113.54 114.88 115.50 116.25 117.25 118.47 120.66 121.44 121.52 Name F0_31 F0_32 F0_33 F0_34 F0_35 F0_36 F0_37 F0_38 F0_39 F0_40 liang2 143.96 152.75 161.48 167.11 164.29 170.27 202.28 222.06 211.10 211.10 * liang2hao3 123.46 124.95 125.30 125.32 125.78 126.73 128.25 130.86 131.60 134.03 ba1 ba1 feng2 ba1 feng2 Tabelle 4.2.3.2.4: gemischte Ankerpunkte gemessen in den Dimensionen Zeit und Frequenz In Tabelle 4.2.3.2.4 kann man bemerken, dass bei „RL_Lianghao“ gibt es nur 40 Punkte statt 50. Es sollte nach dem Segment „L-i-a-ng“ und „ao“, also fünf Intervalle annotiert werden, d.h. 50 Punkte. Wegen den großen Korpora werden - 37 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart die Daten in „normf0.txt“ weiter bearbeitet, die Daten der zweiten Silben aus den zweisilbigen Wörtern werden nicht berücksichtigt und weggelassen. Um unterschiedlichen F0-Kurven der unterschiedlichen Silbenstruktur mit verschiedener Anzahl der Intervallen direkt zu vergleichen, werden nur 10 Punkte aus allen „normf0.txt“-Dateien auswählt, nämlich je 10% ein Punkt. Die nachgearbeiteten kompletten „normf0.txt“ von den zwei Sprechern werden jeweils unter dem „Spssdaten_dai. xls“ und „Spssdaten_yang. xls“ gespeichert. Die in den Dimensionen Zeit und Frequenz gemessenen 10 Ankerpunkte von allen einsilbigen Wörtern und den ersten Silben aus den zweisilbigen Wörtern für spätere statistische Analyse gebraucht. Als Beispiel wird der Ausschnitt der „Spssdaten_yang. xls“-Datei in Tabelle 4.2.3.2.5 dargestellt: Name F0_1 F0_2 F0_3 F0_4 F0_5 F0_6 F0_7 F0_8 F0_9 F0_10 ba1 107.72 114.22 115.08 111.26 102.48 99.30 101.76 2266.57 168.92 199.74 feng2 166.19 148.76 124.53 114.29 104.66 154.98 14049.49 113.06 102.04 101.72 liang2 112.17 116.20 118.94 119.03 117.35 117.59 127.79 152.75 170.27 211.10 jie2 117.74 117.59 119.30 121.64 126.40 133.78 140.71 152.38 156.61 156.61 * liao2hao4 173.47 167.57 157.28 130.76 112.72 110.10 112.34 115.50 118.47 121.52 liang4 131.30 137.10 158.70 167.50 166.70 148.20 129.80 119.40 116.10 112.30 Tabelle 4.2.3.2.5: 10 Ankerpunkte gemessen in den Dimensionen Zeit und Frequenz - 38 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart 5 Die Abbildung eines Modells Im folgenden Kapitel wollen wir uns mit der Untersuchung der Tonrealisierungen in allen tonalen Kontexten (mit Ausnahme des neutralen Tons) beschäftigen, davon sollte ein Modell vorliegen, das die Oberflächenvariation der F0-Kontur von tonalen Kategorien in Abhängigkeit von Silbenstruktur und Kontext beschreibt. Zuerst werden die tonalen Realisierungen der monosyllabischen Wörter graphisch dargestellt, damit man einen Überblick über die vier lexikalischen Töne im Mandarin Chinesischen gewinnen kann (Sieh Abbildungen 5.1-5.2) Weiterhin sollte die gemeinsame Eigenschaft durch die visuell Inspektion der graphisch dargestellten tonalen Realisierung von den disyllabischen Wörtern in Abhängigkeit von Silbenstruktur und tonalen Kontext festgelegt werden (Sieh Abbildungen 5.3). - Monosyllabische Wörter Klasse 1: Qing, Fang, Ba, Guai. - 39 - Institut für Maschinelle Sprachverarbeitung - 40 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - 41 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - 42 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - 43 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - 44 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung Klasse 2: liang1-4, li1-4 - 45 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung Klasse 3: wan1-4, wa1-4 - 46 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung Klasse 4: a1-4, an - 47 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Abbildung 5.1: die graphischen Darstellungen der monosyllabischen Wörter, Sprecher 1 - 48 - Institut für Maschinelle Sprachverarbeitung Klasse 1: ba, guai, fang, qing - 49 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung Klasse 2: Li und Liang - 50 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung Klasse3: Wa, wan - 51 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - 52 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung Klasse4: a1, an1 - 53 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Abbildung 5.2: Graphische Darstellungen für monosyllabische Wörter, Sprecher 2 Disyllabische Wörter - 54 - Institut für Maschinelle Sprachverarbeitung - 55 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - 56 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - 57 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - 58 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - 59 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - 60 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - 61 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - 62 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - 63 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - 64 - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Abbildung 5.3: graphische Darstellung der disyllabischen Wörter, Sprecher1 und Sprecher2 - 65 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Abbildungen 5.1-5.3 zeigen die F0-Kurven der jeweils zweimal wiederholenden Stimuli von den zwei Sprechern, nämlich Sprecher 1 (Sprecher „Yang“) und Sprecher 2 (die Sprecherin „Dai“). Anbei zeigen die Abbildungen 5.1-5.2 die F0Kurven der vier Töne von den monosyllabischen Wörtern und Abbildung 5.3 ist für die F0-Kurven der disyllabischen Wörter. Zu der Silbe, die das stimmhafte Konsonant-Onset enthält, fängt die F0-Kurve gleichzeitig von dem Silbenanfang an, dagegen fängt die F0-Kurve von dem stimmhaften Onset des Kernvokals an, weil sich der Grundfrequenz der stimmlosen Konsonanten im Spektrogramm nicht realisieren. Um eine Gemeinsamkeit der F0-Kontur jedes Tontypen zu finden, werden die alle ausgewählten Stimuli in den Abbildung 5.1-5.2 mit dem gleichen Ton zusammen in einer Abbildung gestellt, die vier Töne werden jeweils mit Hilfe der „Fünf Punkte Skala“ nummeriert, z.B. zeigt Abbildung „Ton_55_Klasse1_Sprecher2“ die alle als Beispiel ausgewählten Stimuli mit H-Ton vom Sprecher2 und die Abbildung „Ton_35_Klasse1_Sprecher2“ mit R-Ton vom Sprecher2, usw.; außerdem wird ein gleicher Stimulus mit vier Tönen in einer Abbildung zusammen gestellt, z.B. zeigt die Abbildung „an_all_1“ von Sprecher2 das Wort „an“ mit allen vier Töne beim ersten Sprechen, und „„an_all_2“ für die zweite Wiederholung, so kann man direkt visuell untersuchen, wie sich die vier lexikalischen Töne unterscheiden. Für die disyllabischen Wörter werden die Stimuli mit den verschiedenen Silbenstrukturen unter der gleichen tonalen Sequenz jeweils in einer Abbildung zusammengestellt, um die Aufgabe der Diplomarbeit zu erfüllen, also: - wie sich die Töne in allen tonalen Kontexten (mit Ausnahme des neutralen Tons) realisieren; - ob es stabile Alignierungen der tonalen Gesten mit der zeitlichen und lautlichen Struktur der Silbe gibt, und inwiefern die Alignierung der Töne von der Silbenstruktur und vom tonalen Kontext abhängt. Das Hauptgitternetz von X-Achse (Abbildung 5.3) zeigt jeweils die Silbegrenze und Lautgrenze, es hängt davon ab, was für Silbenstrukturen die Silben haben und wie viele Ankerpunkte genommen werden Sind. Weiterhin sind nicht nur die Abbildungen der einzelnen disyllbischen Wörter mit verschiedenen Silbenstrukturen als auch ihre zusammen gesetzten Abbildungen dargestellt - 66 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart worden, um eine direkt visuelle Inspektion zu bringen. Von dem Skala kann man die Silben Grenze lesen, also für die Silben, in der nur eine stimmhafte Laut entsteht, zeigt die ganze F0-Kurve diese Laut; für die Silbe, die nach zwei Segmenten gelabelt werden, steht die Phonemgrenze an der Stelle, wo in der X-Achse 5 steht, usw. Wegen der großen Mengen des Korpus werden nur die Stimuli teilweise graphisch dargestellt. Von jeder Klasse werden jeweils drei bis fünf Stimuli als Beispiel ausgewählt. Durch die visuelle Inspektion der tonalen Realisierungen von monosyllabischen Wörtern (Abbildung 5.1-5.2) kann man bemerken, dass die F0-Kurven des H-Tons relativ flach sind und der Gipfel der F0-Kurven irgendwo vor dem Silben-Offset auftaucht. Es ist auch offensichtbar, dass bei dem H-Ton der F0-Kontur am SilbenOffset oft nach unten fällt. [Shen, 2004] hat auch berichtet, dass der H-Ton nach „fünf Punkte Skalen“ oft den Wert 544 oder 543 sogar 453 hat, das Phänomen hat er als Deklination genannt. Dazu findet [Lin, 1965], dass die F0-kontur des lexikalischen Tones in den drei Teilen aufgeteilt werden sollte, also „Onset-Section“, „Tone-Section“ und „Offset-Section“, weil die Tonhöhe hauptsächlich nur mit dem„Tone-Section“ zu tun hat. Er hat außerdem nachgewiesen, dass die Teile „Onset-Section“ und „Offset-Section“ vermutlich durch die Trägheit beim Vibrieren der Stimmbänder und andere Faktoren beim Sprechen verursacht werden könnten. Also, es gibt für den H-Ton zwar viele individuellen Variationen in den F0-Konturen, aber ihre Formen sind konsistent in verschiedenen Silbenstrukturen. Außerdem ist es uns auffällig, dass bei den zwei Sprechern oft ein F0-Fall rund um die Stelle von dem Onset der F0-Kontur vorkommt, wenn eine Silbe einen initialen Frikativ enthält. Das Phänomen wird durch den initialen stimmlosen Frikativ verursacht. Im Vergleich zu dem H-Ton hat der R-Ton ein niedrigeres F0-Onset, anbei tritt der Gipfel der F0-Kurve vom R-Ton sehr häufig kurz vor oder direkt am Silben-Offset auf, also der Gipfel kommt innerhalb einer Silbe relativ später vor, aber wenn es einen finalen Nasal in einer Silbe gibt, tritt die steigende F0-Kurve vom R-Ton ganz oder teilweise in den finalen Nasal auf. Dazu hat [Xu, 1998] nachgewiesen, je länger der relative Dauer des finalen Nasals ist, desto mehrere Teile der F0-Kontur im Nasalsegment vorkommen. Der Dauer von dem Nasal-Offset kann zudem durch die im Kapitel 4 erwähnte „duration.txt“-Datei direkt gelesen und nachgewiesen werden. - 67 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Dagegen hat der F-Ton eine spezielle F0-Kontur, der Gipfel seiner F0-Kontur tritt oft in der letzten Hälfte der Silbe auf, aber er kann auch gleich am Anfang der Silben vorkommen, es hängt von der Silbenstruktur ab, z.B. tritt der Gipfel der F0Kontur bei der Silben mit dem stimmhaften Konsonant-Onset relativ späterer auf, wie „Wa4“, „Wan4“, „Li4“ und „Liang4“ sowohl bei Sprecher1 als auch bei Sprecher2, im Vergleich dazu kommt er in den Silben mit stimmlosen KonsonantOnset bzw. Null-Onset relativ frührer vor, wie „An4“, „Ba4“ und „A4“ sowohl bei Sprecher1 als auch bei Sprecher2. Der L-Ton hat ein leicht niedrigeres F0-Onset als R-Ton. Wegen der artikulatorischen Besonderheit „creacy voice“, die in der Abbildung 4.2.2.4 „Nan3“ schon erwähnt worden ist, realisieren sich die F0-Kurven des L-Tons nach „the five Point scale“ oft nicht wie 214 sondern mehr wie 211112 oder 2132221 usw. Es ist in der Abbildung 5.3 ist offensichtlich sichtbar, dass ein beträchtlicher Teil der F0-Kurven bei dem H-Ton eine steigende Kontur hat, wenn ein F- oder ein LTon vor dem H-Ton steht, der relativ ein „low“-Offset hat, besonders offensichtlich ist diese Phänomen, wenn das Konsonant-Onset der zweiten Silbe stimmhaft ist, z.B. „LH_FengMa“, “LH_YunMa“, „LH_LiangMa“, „FH_FanMa“. Das ist von [Xu, 1999] schon nachgewiesen worden. Bei dem R-Ton steigen die F0-Kurven zum großen Teil immer am finalen Teil der Silbe auf, ohne den Silbedauer zu berücksichtigen. Das Onset der Steigerung von der F0-Kontur kommt immer in der Mitte der meisten Silben vor. Von der Abbildung5.3 kann man außerdem merken, wenn R- von einem L-Ton gefolgt werden, tritt der Gipfel der F0-Kurve des R-Tons oft im Silben-Onset der folgenden L-Ton tragenden Silben auf, anbei wird eine scharfe Umwandlung an der Silbengrenze erzeugt werden. Um solche Umwandlung zu erzeugen, muss der Kehlkopf (Larynx) zuerst die Tonhöhe mit steigender Geste aufhören und dann mit der Tonhöhe der abfallenden Geste beginnen. Der Prozess kostet Zeit, es führt dazu, dass die Spitze, nämlich die Umwandelungspunkt, in der Tat sehr häufig in den folgenden L-Ton tragenden Silben auftreten, z.B. tritt die Spitze des R-Tons„Nan2“ von „RL_NanLiao“ (von den zwei Sprechern) im Konsonant-Onset des folgenden Words „Liao3“ auf. Also, Ohne Rücksicht auf der Silbenstruktur tritt der Gipfel der F0-Kontur von dem R-Ton häufig in der Nähe von dem Offset der meisten Silben auf, das Onset der Steigerung von der F0-Kontur kommt immer in der Mitte der meisten Silben vor; in der CVN (N/L/C)V Silbe taucht der Gipfel der - 68 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart F0-Kontur meistens vor der Nasal/Lateral –Vokal-Grenze auf. Wenn R-Ton von H-Ton gefolgt wird, kommt oft keine Spitze der F0-Kurven in der Nähe von der Silbengrenze, z.B., „RH_PingMa“, „RH_FanXing“ bei den zwei Sprechern, usw. Wenn zwei R-Tönen miteinander liegen, ist die meisten F0Kurven bei den ersten Silben im Allgemeinen höher als bei den zweiten Silben, z.B. „RR_FangNan“, „RR_HongMao“, usw.. Wenn der R-Ton von einem F-Ton gefolgt wird, tritt der Gipfel oft in der folgenden F-Ton tragenden Silbe auf, [Xu, 1999] hat nachgewiesen, dass dieser Gipfel wahrscheinlich mehr mit der folgenden F-Ton tragenden Silben assoziiert wird. Der Gipfel der F0-Kurve erscheint oft nach der Silbe, die Ton, Pitch Akzent („Pitch accent“) oder fokussierte Prominenz („focal prominence“) trägt. Diese in den vergangenen Untersuchungen von [Xu, 2001] schon untersuchten Phänomene, werden als „Peak Delay“ bezeichnet. Abbildung 5.4 zeigt das Phänomen. Das Phänomen „Peak Delay“ ist schon in vielen verschiedenen Sprachen berichtet worden, die Ursache dazu ist heute immer noch nicht ganz klar. Für das Chinesische hat [Xu, 2001] zudem nachgewiesen, dass das Phänomen „Peak Delay“ unter der normalen Sprechgeschwindigkeit regelmäßig im „Rising“(R)- aber nicht im „High“(H)-Ton vorkommen. Abbildung 5.4: Die schematische Abbildung der Grundfrequenz„Peak Delay“. Die Markierungen [high] und [low] sind jeweils die lexikalische Tonhöhe der Silbe. Die Spitze der F0-Kurve in der soliden Linear ist über das End der H-Ton tragende Silbe verzögert, aber in der gestrichelten Linear nicht. - 69 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Also, auf der Grundlage der Ergebnisse der in Kapitel 4.2.3 erwähnten Messungen und die gewonnenen Erkenntnisse der Untersuchung von den graphischen Darstellung kann ein Modell nun vorlegen werden, das die Oberflächenvariation der F0-Kontur von tonalen Kategorien in Abhängigkeit von Silbenstruktur und Kontext in quantitativer Form beschreibt. Von den graphischen Darstellungen der monosyllabischen Wörter kann festgestellt werden, dass die F0-Werte im Wesentlichen den Werten der Tonhöhe „Pitch velues“ nach „fünf Punkte Skalen“ entsprechen, nämlich „High“-55, „Rising“-35, „Low“-214 , „Falling“-51. Wegen „creaky voice“ hat der L-Ton häufig den Wert der Tonhöhe nach „fünf Punkte Skalen“ wie 21, oder 211, 213, 212 usw. Für disyllabische Wörter kann ein Modell nun vorliegen, das die Oberflächenvariation der F0-Kontur von tonalen Kategorien in Abhängigkeit von Silbenstruktur und Kontext jeweils beschreibt. Das Muster des H-Tons im Abhängigkeit der Silbenstruktur und tonalen Kontext: Die Silbe mit H-Ton (H1), die von einer Silbe mit irgendwelchem Ton (H2, L2, R2, F2) jeweils gefolgt wird, hat häufig eine hoch flache F0-Kontur und seine F0Kontur ist relativ höher als bei dem folgenden H-Ton (H2); Das Muster des R-Tons im Abhängigkeit der Silbenstruktur und tonalen Kontext: Die Silbe mit dem R-Ton(R1), die von einer Silbe mit irgendwelchem Ton (H2, L2, R2, F2) jeweils gefolgt wird, hat im allgemeinen die spezielle F0-Kontur, die in der Mitte nach unten geht und gleich danach nach oben steigt. Außerdem ist das Phänomen von „Peak Delay“ in der Diplomarbeit durch die graphischen Darstellung auch nachgewiesen, der Gipfel der F0-Kurve erscheint also oft nach der Silbe, die jeweils Ton, Pitch Akzent(„Pitch accent“) oder fokussierte Prominenz („focal prominence“) trägt. Im Mandarin Chinesischen hat [Xu, 2001] außerdem gefunden, dass das Phänomen „Peak Delay“ unter der normalen Sprechgeschwindigkeit regelmäßig im R- aber nicht im H-Ton vorkommen. Dies ist in den graphischen Darstellungen noch besser sichtbar, wenn das Konsonant- 70 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Onset der zweiten Silbe stimmhaft ist, z.B. “ RL_NanLiao“, „RH_PingMa“, weil die F0-Konturen der Silben aneinanderreiht sind. Die detaillierte Beschreibung des Musters wird wie folgend dargestellt: RL: In der tonalen Sequenz RL tritt der Gipfel der F0-Kurve des R-Tons oft im Silben-Onset der folgenden L-Ton tragenden Silben auf, anbei soll eine scharfe Umwandlung an der Silbengrenze erzeugt werden; RH: In der tonalen Sequenz RL kommt oft keine Spitze der F0-Kurven in der Nähe von der Silbengrenze; RR: In der tonalen Sequenz RR ist die ganze F0-Kurven bei den ersten Silben im Allgemeinen höher als bei den zweiten Silben; RF: In der tonalen Sequenz RR tritt der Gipfel der F0-Kontur oft in der folgenden F-Ton tragenden Silbe auf, dazu hat [Xu, 1999] berichtet, dass diese Spitze wahrscheinlich mehr mit der folgenden F-Ton tragenden Silben assoziiert wird. Das Muster des L-Tons im Abhängigkeit der Silbenstruktur und tonalen Kontext: Im Vergleich zu dem R-Ton passiert das Phänomen „Peak Deleay“ im H-Ton fast nicht, wenn ein L-Ton vor dem H-Ton steht. Es ist möglich, dass es die genügende Zeit für die Transition von dem vorangehenden L-Ton zu dem H-Ton gibt, so kann sich die steigende F0-Kontur im H-Ton vor dem Ende der Silbe abschwächen; die Silbe mit dem L-Ton (L1), die von einer Silbe mit dem Ton (R2, F2) jeweils gefolgt wird, hat oft fallende niedrige F0-Kontur; wenn sie von einer Silbe mit einem L-Ton (L2) gefolgt wird, hat sie eine ähnliche F0-Kontur wie mit einem R-Ton (R1), anbei ist diese F0-Kontur im wesentlichen höher als bei der folgenden Silben mit R-Ton (R2). Das Phänomen wird als „tone sandhi“ genannt, vielen Wissenschaftler hat es untersucht und nachgewiesen. In dieser Arbeit wird das Phänomen nicht berücksichtigt. Wenn eine Silbe mit irgendwelchem Ton (H1/ L1/R1/ F1) von einer Silbe mit LTon(L2) gefolgt wird, wird ihre F0-Kontur immer unter dem Einfluss des folgenden L-Tons(L2) gestiegen. Das Phänomen wird von [Xu, Wang, 2001] als - 71 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart vorhersagbarer Effekt “anticipatory effect” genannt, diese Steigerung der F0Kontur wird als vorhersagbare Steigerung „anticipatory raising“ [Xu, Wang, 1997] bezeichnet. - 72 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart 6 Statistische Analyse Um die Zuverlässigkeit der anscheinend systematischen Variationen zu bestimmen,, die im Kapitel 5 durch die visuelle Inspektion der graphischen Darstellung herausgefunden worden sind, sollte nun die in den Dimensionen Zeit und Frequenz gemessenen Ankerpunkte (wie auszugsweise in Tabelle 4.2.3.2.5 vorgestellt) statistisch als von der Silbenstruktur, der Vokalklasse der ersten Silbe nach Zungeposition, Nasal-Offset, dem Ton der Silben, eventuell auch von dem Sprecher abhängige Variable dargestellt werden. Außerdem sollte untersucht werden, ob alle Faktore signifikant interagieren können, d.h., die Signifikanzen werden sowohl in den Einzelfaktoren als auch den Interaktionen dargestellt, z.B. die Interaktion zwischen den Silbenstrukturklassen und den Tontypen (vier Töne: H, R, L, F). Also, es wird gezeigt, worin sich die jeweilige Signifikanz äußert. Zum Schluss werden die Ergebnisse der gemachten Analysen präsentiert und ausgewertet. 6.1 ANOVA Zu der statistischen Analyse wird das Programm SPSS 13.0 zuerst für Windows benutzt. Als Analyseverfahren wird die Varianzanalyse (uni− bzw. multivariat)/ANOVA verwendet. Eine Anova-Analyse ist ein Vergleich von Mittelwerten aufgrund der so genannten Null-Hypothese. Diese nimmt an, dass die Mittelwerte der abhängigen Variablen gleich sind (für eine Variable gesehen, d.h. die Variablen werden nicht untereinander verglichen). Die Null-Hypothese wird immer in Bezug auf unabhängige Variablen, so genannte „feste Faktoren“ gestellt, die der eigentliche Gegenstand der Untersuchung sind. Als Ergebnis liefert die Anova–Analyse die Signifikanz für jede abhängige Variable im Bezug auf den Faktor bzw. die Faktoreninteraktionen. Der Wert liegt immer im Intervall zwischen 0 und 1. Ob das Ergebnis signifikant ist, hängt davon ab, wie der Untersucher am Anfang der Analyse im Programm das Signifikanzniveau festgelegt hat. Im Allgemeinen gelten 5% als ein sehr gutes Signifikanzniveau, dies ist deshalb auch gehalten worden. Als Beispiel zeigt die Abbildung 6.1 diesen Arbeitsschnitt mit zwei Schritten in „One-way-ANOVA“-Anlyse. - 73 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Abbildung 6.1: Prozess der Feststellung des Signifikanzniveaus in “Oneway-ANOVA“-Anlyse” Wo mit Nummer „1“ markiert wird, zeigt der erste Arbeitsschritt. Das Menü „Post Hoc“ sollte zuerst ausgewählt werden. Dann sollte das mit „2“ markierte Signifikanzniveau von links Unten im Feld „Significance level“ mit 0,05 (5%) automatisch von dem Programm gelegt werden, dies wird in dieser Arbeit wahrgenommen. - 74 - Institut für Maschinelle Sprachverarbeitung 6.2 Uni-Stuttgart Datengrundlage für die statistische Analyse Nachdem man einen Überblick über Varianzanalyse bekommen hat, müssen die Daten für statistische Analyse weiter bearbeitet werden, bevor die Varianzanalyse beginnt. Um dieses Programm SPSS direkt benutzen zu können, sollten die Dateien „Spssdaten_dai.xls“ und „Spssdaten_yang.xls“ außerdem zusammen unter einer Datei „Spssdaten_yangunddai“ gespeichert werden, wobei muss jedes Buchstaben der Kopfzeile in der Exel-Tabelle klein geschrieben werden, damit keinerlei Probleme in SPSS beim Öffnen der Datei auftreten. Außerdem werden die Informationen sowie Silbenstruktur und Tontyp des monosyllabischen Worts und der ersten Silbe von dem disyllabischen Wort, Geschlecht, Vokal der ersten Silbe nach Zungeposition sowie „high“-H und „low“-L, Nasal-Offset (mit oder ohne Nasal-Offset), jeweils nach der Klasse kodiert. Als Beispiel wird das vollständige Format des bearbeiteten Inputs für die statistische Analyse in Tabelle 6.2.1 dargestellt, die also neben der Information über die F0-Werte (in HZ), auch die Kodierung der Silbenstrukturklasse, des Tontyps und des Sprechers enthält. name yun hong tiao ke n1 1 2 0 0 v1 2 2 2 3 wort RR_YunNan RR_HongMiao RL_TiaoJie LR_KeTiao ton(s2) 2 2 3 2 s 15 15 11 11 geschlecht 1 2 2 2 ton(s1) 2 2 2 3 f0_1 106 211 236 197 ... ... ... ... ... f0_10 150 271 251 168 Tabelle 6.2.1: Ausschnitt aus dem Input für die statistische Analyse In der Kopfzeile zeigen die Abkürzung „n1“ und „v1“ jeweils Nasal-Offset der ersten Silbe und den Vokal der ersten Silbe (s1) nach der Zungeposition. Der „wort“- Spalt wird in der statistischen Analyse nicht berücksichtigt, er bittet mir nur die Informationen, ob die Silben einsilbig oder zweisilbig sind, und was für Merkmale die zweite Silbe hat. Im „n1“-Spalt haben die Nummer jeweils die Bedeutungen, also zeigt die Nummer „1“ die Koda der ersten Silben mit „n“, „2“ zeigt die Koda mit „ng“ und „0“ ohne Koda; im Spalt „silbenstruktur (s)“ entstehen die vorher erwähnten nummerierten Silbenstrukturklassen der ersten Silbe (s1) und des einsilbigen Worts; die Spalte „ton (s1)“ und „ton (s2)“ enthalten jeweils den Tontyp der ersten und zweiten Silbe, anbei zeigt die Nummer„0“ ein monosyllabisches Wort, die Nummer von „1“ bis „4“ zeigen jeweils die vier lexikalischen Töne; im Spalt „geschlecht“ zeigt die Nummer „1“ den - 75 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Sprecher 1 und „2“ den Sprecher 2. 6.3 Varianzanalyse Nach der Ermittlung der Inputdaten kann die Varianzanalyse nun beginnen. Bei der Varianzanalyse werden eine oder mehrere unabhängige Variable, die auch als Faktoren bezeichnet werden, in unserem Fall die sechs Faktoren wie „n1“, „v1“, „ton(s1)“, „ton(s2)“, „s“ , „geschlecht“ (Sieh Tabelle 6.2.1) und eine oder mehrere abhängige Variable, in unserem Fall die F0-Werte an den 10 verschiedenen Ankerpunkten unterschieden. Mit Hilfe der Varianzanalyse sollte es untersucht werden [Backhaus, 1996], ob es bezüglich der abhängigen Variablen signifikante gibt, d.h. mehr als zufällige Unterschiede zwischen den durch die Ausprägungen der unabhängigen Variablen bestimmten Gruppen; ob sich die GruppenMittelwerte signifikant unterscheiden; ob das Merkmal durch Kenntnis der Gruppenzugehörigkeit besser vorhergesagt werden kann. 6.3.1 Ergebnisse der Varianzanalyse Nun sind die Daten im „*.xls“-Format in SPSS geladen. In der oberen Fensterlaufleiste ist der Punkt „Analyse“ zu finden, der unter anderem den Punkt „Compare Means“→ „One-Way-ANOVA“ für einen Faktor und „General Linear Modell“ für mehrere Faktoren enthält. Unter „General Linear Modell“ ist „Multivariat“ auszuwählen, um die Interaktionen von mehreren unabhängigen Variablen, im Fall die Interaktionen irgend zwei verschiedenen oben erwähnten unabhängigen Variabelen-Faktoren, zu untersuchen. Dies wird auch als „TwoWay-ANOVA“ in der folgenden Analyse genannt. Die Kombinationsmöglichkeit von zwei Faktoren wird in Tabelle 6.3.1.1 dargestellt. Als Beispiel wird das Ergebnis von „Two-Way-ANOVA“ in der Abbildung 6.3.1.2 dargestellt. - 76 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Faktoren n1 v ton(s2) s geschlecht ton(s1) n1 v ton(s2) silbenstruktur(s) geschlecht ton(s1) Tabelle 6.3.1.1: „Two-way-Anova“, die Kombinationsmöglichkeit von zwei Faktoren In den Feldern, die mit gelber Farbe markiert werden, steht keine Kombinationsmöglichkeit. „Between-Subjects Factors“ toene (s1) 1 2 3 4 0 1 2 3 4 toene2 Value Label H R L F monosyllabic H R L F N 372 372 342 381 894 158 146 119 150 Tests of Between-Subjects Effects Source Dependent Variable Type III Sum of Squares df Mean Square F Sig. Corrected Modell f0_1 1548577.31 18 86032.0726 28.2235994 1.162E-81 f0_2 1783425.67 18 99079.2037 33.6823423 1.2477E-96 f0_3 1910743.82 18 106152.434 37.0995072 1.127E-105 f0_4 1926916.19 18 107050.899 38.3741371 5.497E-109 f0_5 1830487.5 18 101693.75 36.1594098 3.279E-103 f0_6 1682649.21 18 93480.5119 34.0892784 1.0143E-97 f0_7 1572248.01 18 87347.1116 34.0855199 1.0381E-97 f0_8 1787078.67 18 99282.1485 18.459425 3.3723E-53 f0_9 2108038.63 18 117113.257 47.669062 3.529E-132 f0_10 2055971.72 18 114220.651 43.7272823 1.525E-122 f0_1 32194578.9 1 32194578.9 10561.7227 0 f0_2 31562177 1 31562177 10729.679 0 f0_3 31120061.1 1 31120061.1 10876.2361 0 f0_4 30450478.2 1 30450478.2 10915.4695 0 f0_5 29849886.3 1 29849886.3 10613.772 0 f0_6 28691197 1 28691197 10462.7391 0 f0_7 27843699.3 1 27843699.3 10865.4648 0 f0_8 27775750.3 1 27775750.3 5164.31591 0 Intercept - 77 - Institut für Maschinelle Sprachverarbeitung toenes1 toene2 Ton(s1) * ton(s2) Uni-Stuttgart f0_9 27589487.3 1 27589487.3 11229.8557 0 f0_10 27524267.1 1 27524267.1 10537.1611 0 f0_1 1003145.78 3 334381.928 109.697015 5.3002E-64 f0_2 1129680.03 3 376560.011 128.012971 1.5001E-73 f0_3 1168499.19 3 389499.731 136.127336 1.0866E-77 f0_4 1152307.12 3 384102.372 137.687747 1.7624E-78 f0_5 1068902.54 3 356300.847 126.690464 7.1782E-73 f0_6 914722.971 3 304907.657 111.189828 8.6153E-65 f0_7 865498.569 3 288499.523 112.581356 1.5905E-65 f0_8 979480.158 3 326493.386 60.7045704 5.7498E-37 f0_9 1111487.75 3 370495.915 150.804386 4.8119E-85 f0_10 1085626.33 3 361875.442 138.537379 6.5583E-79 f0_1 72821.7534 4 18205.4383 5.97245867 9.1256E-05 f0_2 53219.9557 4 13304.9889 4.52308027 0.0012382 f0_3 36031.4396 4 9007.85989 3.14818182 0.01371542 f0_4 24608.0333 4 6152.00834 2.20528752 0.06628527 f0_5 21543.5231 4 5385.88078 1.91506627 0.10546831 f0_6 22567.3061 4 5641.82653 2.05738919 0.08411653 f0_7 24780.9352 4 6195.2338 2.41757009 0.04685581 f0_8 23023.5872 4 5755.89679 1.07018781 0.36976537 f0_9 26526.6048 4 6631.6512 2.69930664 0.02934104 f0_10 15945.1709 4 3986.29272 1.52607909 0.19211519 f0_1 59835.7808 11 5439.61643 1.78451536 0.05177922 f0_2 45467.7683 11 4133.43348 1.40517602 0.16395062 f0_3 31215.2827 11 2837.75297 0.99177412 0.45147972 f0_4 23197.0508 11 2108.8228 0.75594185 0.68462903 f0_5 21349.9643 11 1940.90585 0.69013101 0.74904802 f0_6 20172.7872 11 1833.88974 0.66875947 0.76918273 f0_7 13730.7343 11 1248.24857 0.48710485 0.91221756 f0_8 16967.2743 11 1542.47948 0.28679158 0.98842146 f0_9 27088.6496 11 2462.60451 1.00236344 0.44172982 f0_10 38735.0764 11 3521.37058 1.34809217 0.1918672 Abbildung 6.3.1.2: das Ergebnis von „Two-Way-ANOVA“-Analyse Anbei zeigt der Feld, der mit der roten Farbe markiert wird, den Interaktionseffet zwischen den Faktoren „ton(s1)“ und „ton (s2)“. Außerdem werden die zusammengefassten Ergebnisse der Varianzanalyse in Tabelle 6.3.1.3-6.3.1.5 gestellt, wobei zeigt Tabelle 6.3.1.3 das Ergebnis der „OneWay-ANOVA“-Anayse, mit Hilfe des Signifikanzkodes wird Tabelle 6.3.1.3 in Tabelle 6.3.1.4 umgewandelt, das Ergebnis der „Two-Way-ANOVA“-Analyse wird Tabelle 6.2.1.5 gezeigt. - 78 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart ankerpunkt n1 v ton(s2) s geschlecht ton(s1) f0_1 0.000 0.079 0.000 0.000 0.000 0.000 f0_2 0.000 0.202 0.000 0.000 0.000 0.000 f0_3 0.000 0.235 0.000 0.000 0.000 0.000 f0_4 0.000 0.093 0.000 0.005 0.000 0.000 f0_5 0.000 0.013 0.000 0.053 0.000 0.000 f0_6 0.000 0.004 0.000 0.104 0.000 0.000 f0_7 0.000 0.019 0.000 0.208 0.000 0.000 f0_8 0.001 0.675 0.005 0.012 0.000 0.000 f0_9 0.000 0.483 0.000 0.034 0.000 0.000 f0_10 0.000 0.687 0.002 0.312 0.000 0.000 Tabelle 6.3.1.3: Das Ergebnis der „One-Way-ANOVA“-Analyse Das Ergebnis von „One-Way-ANOVA“ zeigt jeweils den Effekt von Silbenstruktur (s), Geschlecht, zwei Töne (ton (s1), ton (s2)), Vokal (v), und Nasal (n1) in jedem Ankerpunkt mit originalen Signifikanzwerten. Je kleiner der Wert ist, desto signifikanter ist die Abhängigkeit, so sich die Signifikanzkodes wie folgend ergeben: p = 0: ’ *** ’, 0.001< p < 0.01:’ ** ’, 0.01< p < 0.05: ’ * ’, p > 0.05: ’ ’ Die Daten aus Tabelle 6.3.1.3 können dann mit diesem Kode noch umgewandelt werden: ankerpunkt n1 v ton(s2) s geschlecht ton (s1) f0_1 *** *** *** *** *** f0_2 *** *** *** *** *** f0_3 *** *** *** *** *** f0_4 *** *** ** *** *** f0_5 *** * *** *** *** f0_6 *** ** *** *** *** f0_7 *** * *** *** *** f0_8 ** ** * *** *** f0_9 *** *** * *** *** f0_10 *** ** *** *** Tabelle 6.3.1.4: Das mit dem Kode umgewandelte Ergebnis von „One-Way-ANOVA“ Von der Anzahl der Sternchen kann man den Signifikanzeffekt direkt lesen. Tabelle 6.3.1.4 zeigt also, dass eine stark signifikante Abhängigkeit (***) zwischen - 79 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart den Werten an den Ankerpunkten und den zwei Sprechern und außerdem „ton (s1)“ besteht; im Vergleich dazu sind sie nur am Ankerpunkt 80%, 100% weniger signifikant abhängig von dem Ton(s2) und am Ankerpunkt 80% weniger signifikant abhängig von dem Nasal-Offset (n1); wie Tabelle 6.3.1.4 zeigt, gibt es z.B. keine signifikante Abhängigkeit zwischen den Wert an den Ankerpunkten 10%-40%, 80%-100% und dem Vokal (v), wohingegen die Werte an den Ankerpunkten 50%70% jeweils nach dem unterschiedlichen Niveau signifikant; die Werte an den Ankerpunkten 50%, 60% , 70% und 100% sind jeweils weniger oder mehr signifikant abhängig von den verschiedenen Silbenstrukturen. Die „Two-Way-ANOVA“-Analyse, in der untersucht werden sollte, ob jede zwei Faktoren, die vorher schon erwähnt worden sind, miteinander interagieren können, ob bestimmte Töne beispielsweise in bestimmten Silbenstrukturklassen oder tonalen Kontexten besonders häufig auftreten. Tabelle 6.3.1.5 zeigt die zusammengesetzten Ergebnisse der „Two-Way-ANOVA“-Analyse mit originalen Signifikanzwerten. Außerdem wird Tabelle 6.3.1.5 mit dem Kode in Tabelle 6.3.1.6 weiter umgewandelt. ankerpunkt f0_1 f0_2 f0_3 f0_4 f0_5 f0_6 f0_7 f0_8 f0_9 f0_10 ton(s1)*geschlecht 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 ton(s1)*s ton(s1)*ton(s2) 0.000 0.000 0.022 0.572 0.380 0.002 0.000 0.000 0.924 0.924 0.052 0.164 0.451 0.685 0.749 0.769 0.912 0.988 0.442 0.192 n1*geschlecht 0.694 0.618 0.549 0.214 0.038 0.004 0.001 0.044 0.003 0.002 V*s 0.822 0.687 0.438 0.315 0.339 0.611 0.741 0.942 0.690 0.768 ankerpunkt ton(s1)*n1 ton(s1)*v geschlecht * ton(s2) ton(s2)*n1 ton(s2)*s n1*v n1*s v*geschlecht f0_1 0.004 0.973 0.018 0.187 0.984 0.844 0.694 0.338 f0_2 0.018 0.971 0.086 0.133 0.993 0.772 0.618 0.355 f0_3 0.077 0.969 0.142 0.138 0.999 0.844 0.549 0.307 f0_4 0.313 0.826 0.231 0.177 1.000 0.772 0.214 0.269 f0_5 0.610 0.193 0.224 0.198 1.000 0.690 0.038 0.128 f0_6 0.048 0.063 0.127 0.190 1.000 0.912 0.004 0.026 f0_7 0.004 0.199 0.111 0.174 0.999 0.749 0.001 0.014 f0_8 0.993 0.677 0.218 0.590 1.000 0.750 0.044 0.191 - 80 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart f0_9 0.998 0.978 0.028 0.100 0.998 0.971 0.003 0.230 f0_10 0.986 0.903 0.008 0.044 0.998 0.641 0.002 0.197 Tabelle 6.3.1.5: Das Ergebnis der „Two-Way-ANOVA“-Analyse ankerpunkte f0_1 f0_2 f0_3 f0_4 f0_5 f0_6 f0_7 f0_8 f0_9 f0_10 ton(s1)*geschlecht *** *** *** *** *** *** *** *** *** *** ankerpunkt ton(s1)* n1 f0_1 ** f0_2 * ton(s1)*v ton(s1)*s ton(s1)*ton(s2) n1*geschlecht v*s *** *** * * ** ** * ** ** ** *** *** geschlecht * ton(s2) ton(s2)* n1 ton(s2)* s n1* v n1*s v*geschlecht * f0_3 f0_4 f0_5 * f0_6 * ** * f0_7 ** ** * f0_8 * f0_9 * f0_10 *** ** * ** Tabelle 6.3.1.6: Das mit dem Kode umgewandelte Ergebnis von „two-wayANOVA“. Tabelle 6.3.1.1 zeigt, dass die Interaktionseffekt zwischen dem ersten Ton und Sprecher sehr signifikant ist, aber zwischen dem zweiten Ton und Sprecher nur am Ankerpunkt 100% sehr signifikant (mit dem Signifikantkode ***) und am Ankerpunkt 90% weniger signifikant (mit dem Signifikantkode „*“); die Interaktionseffekte zwischen dem ersten Ton und Silbenstruktur der ersten Silben am Ankerpunkt 40% , 50% , 90% und 100% sind nicht signifikant; zwischen dem ersten und zweiten Ton besteht keine signifikante Interaktionseffekt; die Interaktionseffekt zwischen dem Nasal-Offset der ersten Silben und der Silbenstruktur am Ankerpunkt 10%-40% ist jeweils nicht signifikant, aber am Ankerpunkt 50% - 100% ist jeweils mit dem verschiedenen Signifikantsniveau - 81 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart dargestellt usw. Der Korpus besteht sowohl aus den monosyllabischen als auch disyllabischen Silben, die gleichen Silben, die gleichzeitig als die erste Silbe des disyllabischen Worts und ein monosyllabisches Wort im Korpus entstehen, werden miteinander verglichen und analysiert. Aus diesen statistischen Ergebnissen kann man feststellen, dass der tonale Koartikulationseffekt sehr signifikant ist. Also, der lexikalische Ton kann nicht nur die F0-Form einer Silbe determinieren, sondern auch die Form und Höhe der F0-Kontur der benachbarten Silben beeinflussen. Anbei kann man aus dem Signifikanteffekt der Silbenstruktur in Tabelle 6.3.1.6 bemerken, dass der Silbenstruktur die Form der F0-Kontur einige Maße beeinflussen kann, insbesondere in der Silbe mit dem Nasal-Offset ist dieser Effekt noch klarer, dagegen mit dem Nukleus (Kernvokal) nicht, weil es noch viele andere Faktoren für Intensität des Vokals (im Englischen „Intensity of the vowel“) gibt, z.B. Stärke der Aussprache, intrinsische Intensität des Vokals (im Englischen „intrinsic Intensity of the vowel“) [Lin, Maocan, 1987], deshalb ist es schwer, eine speziell festgelegte Kontur der Intensität des Vokals unter den vier Tönen zu bilden. Die Interaktion zwischen dem Tontyp und der Silbenstrukturklasse ist teilweise sehr stark signifikant (mit der Kode *** gezeichnet). Außerdem ist es vorher nicht gedacht, dass im Ergebnis der ANOVA-Analysen ein Signifikanteffekt für den Sprecher gezeigt wird. Dazu kann man möglicherweise wie folgend erklären: - Das Korpus mit den 1496 Sätzen ist relativ groß, aber es gibt nur zwei Sprecher, vielleicht wegen der Menge des Sprechers kommt dieses Ergebnis vor. Die Testtextmaterialen wurden nur von zwei Sprechern, nämlich der Sprecher Yang und die Sprecherin Dai, aufgenommen. Die zwei Sprecher sprechen perfekt Mandarin, Frau Dai studiert gerade Computerlinguistik an der Universität Stuttgart. Ihre Aussprache ist ausgebildet und professionell, der Sprecher Yang hat die Testtexte auch sehr gut gesprochen. Als Lösung kann man eine durchschnittliche F0-Werte zwischen den zwei Sprechern jeweils unter den gleichen Faktoren sowie dem gleichen Tontyp, der gleichen Silbenstruktur und dem gleichen tonalen Kontext usw., mit einander - 82 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart vergleichen und herausfinden, ob der F0-Kontur sich zwischen den zwei Sprechern gleichmäßig mehr oder wenig unterscheiden. Aus der großen Menge des Korpus dieser Arbeit wird diese Analyse nicht berücksichtigt. - 83 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart 7 Ausblick Im Rahmen dieser Diplomarbeit sollte ein Modell vorgelegen, das die Oberflächenvariation der F0-Kontur von tonalen Kategorien in Abhängigkeit von Silbenstruktur und Kontext beschreibt. Hierzu wurden neu Silbenstrukturklassen ermittelt, die im Verlauf der Arbeit unterschieden wurden, die Silbenstrukturklassen von 1 bis 4 bestehen aus dem monosyllabischen Wort und von 11 bis 15 aus dem disyllabischen Wort. Es wurden 206 Stimuli konstruiert, die diese Silbenstrukturklassen möglichst optimal abdecken sollten. Weiterhin wurden die Tonrealisierungen in allen tonalen Kontexten (mit Ausnahme des neutralen Tons) untersucht. Die Charakteristische Punkte (Ankerpunkte) entlang der F0-Kontur der Töne wurden in den Dimensionen Zeit und Frequenz gemessen und graphisch dargestellt, um eine Regelmäßigkeit der Oberflächenvariation der F0-Kontur von tonalen Kategorien in Abhängigkeit von Silbenstruktur und Kontext zu finden. Durch visuelle Inspektion der graphisch dargestellten F0-Konturen wurden einige interessanten Phänomen der Alignierung zwischen F0-Kontur und Silben gefunden, z.B.: - Das „Peak delay“-Phänomen: ohne Rücksicht auf der Silbenstruktur tritt der Gipfel der F0-Kontur von dem R-Ton häufig in der Nähe von dem Offset der meisten Silben auf, das Onset der Steigerung von der F0-Kontur fängt immer in der Mitte der meisten Silben an; in der CVN (N/L/C)V Silbe taucht der Gipfel der F0-Kontur meistens vor der NV-Grenze/ LV-Grenze (Nasal/Lateral –VokalGrenze) der zweiten Silbe auf [xu, 1998]; - Der vorhersagbarer Effekt “anticipatory effect”: Wenn eine Silbe mit irgendwelchem Ton (H1/ L1/R1/ F1) von einer Silbe mit L-Ton(L2) gefolgt wird, wird ihre F0-Kontur immer unter dem Einfluss des folgenden L-Tons(L2) gestiegen. Z.B. gibt es ein bekanntes Phänomen "Tone Sandhi", der L-Ton in Mandarin Chinesischen verwandelt sich im R-Ton also, wenn der L-Ton von dem anderen L-Ton gefolgt wird; - 84 - Institut für Maschinelle Sprachverarbeitung - Uni-Stuttgart das Phänomen der Glottalisierung („creaky voice“) im L-Ton: der L-Ton sollte im Vergleich zu den anderen drei Tönen den längsten zeitlichen Dauer haben, das wird von [Xu, 1997] schon nachgewiesen. Anbei passiert das Phänomen der Glottalisierung („creaky voice“) im L-Ton tatsächlich sehr häufig. Von den graphischen Darstellungen der monosyllabischen Wörter kann man außerdem bemerken, dass die F0-Werte im Allgemeinen den Werten der Tonhöhe „Pitch velues“ nach „fünf Punkte Skala“ von [Chao, 1930] entsprechen, nämlich „High“-55, „Rising“-35, „Falling“-51. Wegen „creaky voice“ hat des LTons häufig den Wert der Tonhöhe mit Hilfe von „fünf Punkte Skalen“ wie 21, oder 211, 213, 212 usw. Die Auftauche des Phänomens ist normal, im Mandarin Chinesischen ist es nicht vermeidbar, wichtig ist, wie man es bearbeiten kann. Durch den Algorithmus „Trimming Alorithmu“ im PRAAT Skript von [Xu, 1999] wird das Problem zwar im Wesentlichen gelöst, aber es ist keine absolute Lösung. Vielleicht kann man in der Zukunft doch eine ideale Lösung finden. Die Muster, die im Kapitel 5 jeweils in der detaillierten Form beschrieben wurden, werden durch die statistische Analyse bestimmt. Also, die statistische Auswertung der Sprachdaten hat ergeben, dass ein sehr signifikanter Zusammenhang zwischen den in dieser Arbeit ermittelten Silbenstrukturklassen (besonders mit Nasal-Offset) und der Position charakteristischer Punkte entlang der F0−Kontur besteht. Darüber hinaus haben die Auswertungen ergeben, dass die Unterscheidung der vier Tontypen im Mandarin Chinesischen sinnvoll erscheint: H, R, L, F. Diese Ergebnisse bestätigen also die Vermutung, dass die segmentale Zusammensetzung der Silbe teilweise einen starken Einfluss auf den F0-Verlauf von Tönen im Mandarin Chinesischen hat und die F0-Kontur der Töne oft vom tonalen Kontext abhängen. Die Ergebnisse dieser Diplomarbeit könnten im Bereich der Sprachsynthese sinnvolle Implikation haben. Man könnte sich vorstellen in weiteren Experimenten auch die Silbenstruktur, also tri- bzw. polysyllabisch, oder die Informationsstruktur der Äußerung (z.B. Fokus) - 85 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart unter verschiedenen Geschwindigkeit (fast oder langsam) zu variieren und deren Einflüsse auf den F0-Verlauf von Silbe im Mandarin Chinesischen ebenfalls zu untersuchen. Mit Hilfe dieser Ergebnisse kann man das Modell weiter entwickeln, das die Oberflächenvariation der F0-Kontur von tonalen Kategorien in Abhängigkeit von Silbenstruktur und Kontext in quantitativer Form prädiziert, da man durch die visuelle Inspektion der graphischen Darstellung und die Auswertung der statistischen Analyse herausfinden kann, welche Faktoren die Form der F0-Kontur beeinflussen und was für Eigenschaft die F0-Konturen unter verschiedenen Restriktionen (Sowie bestimmt Geschwindigkeit, tonalen Kontext usw.) haben. Weiterhin haben [Xu, Luo, 1999 ] zusammen ein quantitatives Modell für Bildung der F0-Kontur im Mandarin Chinesischen vorgelegen. In ihrer Arbeit nehmen sie an: - es gibt zwei „Pitch Targets“ im Mandarin Chinesischen, nämlich ein Statisches und ein Dynamisches, also H- und L-Ton, F- und R-Ton; - jedes „Pitch Target“ wird zu einer Silbe zugeordnet und mit einer Silbe gleichzeitig implementiert; - Im ganzen Dauer einer Silbe wird „Pitch Target“ „continuously“ und „asymptotically“ implementiert [Xu, Wang, 2001]; Ihr Modell zeigt die F0-Kurve in jeder Silbe als ein exponentielle Asymptote, die in den unterliegend „Pitch Target“ entspricht. Das Modell ist auch geprüft worden, das Ergebnis ist anspornend. Wegen vielen Beschränkungen der objektiven Bedingungen habe ich in diese Arbeit nur einen Grundstein für die Analyse im Mandarin Chinesischen gelegt. Mit den analysierten Daten kann diese Diplomarbeit möglicherweise weiter untersucht werden. Wenn jemand sich dafür interessiert, helfe ich ihm jeder Zeit gerne bei der weiteren Analyse. - 86 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart Literaturverzeichnis [shen, 2005; Chao, 1930] Chao, Y.R., 1930. „A system of tone letters''. Le Maõtre Phon_etique 45, 24±27. [Pike, 1948] Pike, K. L., 1948. „Tone languages”. Ann Arbor: University of Michigan Press. [Luo, Wang, 1957] Luo, Changpei und Wang, Jun, 1957. „Putong Yuyin Xue Gang Yao“. [Lieberman, 1967] Lieberman, P., 1967. „ Intonation, perception and language”. Cambridge, MA: MIT Press. [Lin, 1965] Lin, Maocan, 1965. „Yin1 gao1 xian3 shi4 qi yi3 pu3 tong1 hua4 sheng1 xue2 te4 zheng1”. “sheng1 xue2 bao4”, 2-1.K. [hyman, 1973] Hyman, L. M., 1973. „The role of consonant types in natural tonal assimilations”. In Consonant ¹ypes and ¹one (L. M. Hyman, editor), pp. 151-179. Los Angeles, CA: Department of Linguistics, University of Southern California. [Hyman, 1974] Hyman, L. & R. Schuh, 1974. „Universals of tone rules”. ¸inguistic Inquiry, 5, 81115. [Xu, Shirong, 1980] Xu, Shirong, 1980. „Pu1tong1hua4 yu3yin1 zhi1shi2“. [Xu, 1986] Xu,Y., 1986. „Pu3tong1hua4 sheng1lian2de sheng1xue2 yu3yin1xue2 te4zheng1“. - 87 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart [Lin, Maocan, 1987] Lin, Maocan, 1987. „Shi2yan4 yu3yin1xue2 gai4yao4“, Intonation. [Backhaus, 96] Klaus Backhaus, Bernd Erichson, 1996. „Uni− und Multivariate Analysemethoden”. Teubner, Stuttgart. [Prieto, 1996] Prieto, P., Shih, C. & Nibert, H., 1996. „Pitch downtrend in Spanish”. Journal of Phonetics, 24, 445-473. [Xu, 1997] Xu, Y. 1997. „contextual tonal variations in Mandarin”. Journal of Phonetics, 25: 61-83. [Xu, Wang, 1997] Xu, Y., Wang, Q.E. 1997. „What can tone studies tell us about intonation?” In: Botinis, A., Kouroupetroglou, G., Carayannis, G. (Eds.), Proceedings of an ESCA Workshop on Intonation: Theory, Modells and Applications, Athens, pp. 337±340. [Xu, 1998] Xu, Y., 1998. „Consistency of tone-syllable Alignement across different syllable structures and speeking rates”. [Xu, 1999] Xu, Y., 1999. „Effescts of tone and focus on the formation and alignment of contours”. Journal of Phonetics 27, 55-105. A vailable onkine at http://www.idealibrary.com.on. [Xu, Luo, 1999] Ching X. Xu*, Yi Xu*, and Li-Shi Luo, 1999. „A pitch target approximation Modell for F0 contours in mandarin”. In: Northwestern University, Evanston, IL, USA, NASA Langley Research Center, Hampton, VA, USA, Proceedings of the 14th International Congress of Phonetic Sciences. pp. 2359-2362. - 88 - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart [Xu, Wang, 2001] Xu, Y., and Wang, 2001. „Pitch targets and their realization: Evidence from Mandarin Chinese”. Q. E. in press. Speech Communication. [Shen, 2004] Shen, Jong, 2004. http://www.pkucn.com/forumdisplay.php [Shen, 2005] Shen, Jong, 2005. „Cong2 Shen1 Diao4 dao4 Yu3 Yin1“ (vom Ton bis zur Intonation). http://www.pkucn.com/ - 89 - Institut für Maschinelle Sprachverarbeitung Anhang 1. Graphische Darstellungen -I- Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - II - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - III - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - IV - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung -V- Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - VI - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - VII - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - VIII - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung - IX - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung -X- Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart 2. Das PRAAT-Skript von Xu # SYNOPSIS: # 1) Automatically open each .wav file in a folder, manually label intervals and rectify vocal pulse markings; # 2) Save automatically trimmed (smoothed) f0 contours; # 3) Save time-normalized f0; # 4) Save sampled f0; # 5) Save mean f0, intensity, duration and peak velocity of labeled intervals; # 6) Save results into ensemble files. # INSTRUCTIONS: # 1. put it in the same folder as the “.wav” files to be analyzed, and launch PRAAT; # 2. Select Open PRAAT Script from the "PRAAT" menu (or the equivalent on pc); # 3. Locate this script in the dialogue window and select it; # 4. When the script window opens in PRAAT, select run from the Run menu (or use the key shortcut command-r or control-r); # 5. When dialogue window opens, click OK and three windows will appear. The top big window display the waveform together with vocal pulse markings generated by PRAAT. Here you can do manual checking by inserting missing marks and deleting apparent double marks. # 6. The second big window displays the waveform and the spectrogram together with optional pitch tracks, formant tracks, vocal pulse markings, etc. But these are all for your reference. If Labeling is checked in the beginning dialogue window, two label fields will be shown at the bottom of the window, and you can put whatever labels you want to mark various boundaries, sound names, etc. # 7. Check or uncheck the boxes in the dialogue window according to your analysis needs. Set appropriate values in the text fields or simply use the default values. - XI - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart # 8. When you are done with manual correction and labeling, go to the upper-left hand corner to activate the third, small window. Click "Continue" and several things will happen: the vocal pulses and the labels will be saved into .pulse and .label text files, respectively; a .f0 file will be saved which contains trimmed f0 and actual time; the trimmed f0 is also saved into a PitchTier file which can be opened by PRAAT; and two new windows will appear displaying the waveform and vocal pulses of the next file. You can repeat this procedure until all the files in the folder are processed. Or you can stop at any point by clicking the "Stop" button in the upper-left hand corner. Remember to note down the number of the current file before stopping if there are many files in the folder and you want to resume what you have been doing later on. # 9. For each .wav file, various analysis results are saved into individual files as described below. If, however, you want to change certain analysis parameters after processing all sound files without having to do them one by one again, you can set the "Input File No" to 1 and uncheck the "Pause between sound files" button before pressing "OK". # 10. After the analysis of all the individual files are done, you can put most of the analysis results together into several ensemble files: maxvelocity.txt, meanintensity.txt, duration.txt, meanf0.txt, normf0.txt and samplef0.txt. # 11. The .f0 files contain trimmed f0 with real time. # 12. The .timenormf0 files contain time-normalized f0. The f0 in each interval is divided into the same number of points (default = 10). Thus points 1-10 belong to interval 1, and points 11-20 belong to interval 2, etc. # 13. The .actutimenormf0 files also contain time-normalized f0 with each interval divided into the same number of points (default = 10). But the time scale is the original, except that the onset time of interval 1 is set to 0. # 14. The .samplef0 files contain f0 values at fixed time intervals specified by "f0 sample rate". - XII - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart # 15. Time-normalized f0 and sample f0 are generated only for labeled intervals. # 16. The .f0, .timenormf0, and .actutimenormf0 files can be opened by any graphing program (e.g., Excel). The left-hand column is time and the right-hand column f0. # 17. The .means file contains values of mean f0, mean intensity, duration and peak velocity (if applicable) of all labeled intervals. # 18. Description of the C code for the trimming algorithm used to smooth raw f0 curves: The trimming algorithm compared three f0 points at a time. If the middle point is greater than (or smaller than) both flanking points by the amount specified by MAXBUMP and MAXEDGE, it is replaced by a point that makes the line between the flanking points a straight one. This trimming algorithm effectively eliminates sharp spikes in the raw f0 tracing often seen around nasal-vowel junctions. In contrast, the triangular smoothing algorithm commonly used would always retain some effects of the spike, since its value is included in the running means. This is particularly critical for the f0 peak measurements taken in the present study. Even when a small effect of the spike is left in the curve, the smoothed bump at that location could still be taken as an f0 peak by an automatic peak searching algorithm. form Start integer Input_File_No 1 integer Maxf0 400 integer Minf0 30 integer Npoints 10 integer F0_sample_rate 100 integer Perturbation_in_ms 30 boolean Label_intervals 1 boolean Get_f0_via_pulse_marking 1 boolean Get_time_normalized_f0 0 boolean Get_sample_f0 0 boolean Get_interval_means 1 boolean Save_output_files 1 - XIII - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart boolean Pause_between_sound_files 1 boolean Get_assembled_results 0 endform directory$ = "./" Create Strings as file list... list 'directory$'*.wav numberOfFiles = Get number of strings if !numberOfFiles Create Strings as file list... list 'directory$'*.WAV numberOfFiles = Get number of strings endif hasmeanstitle = 0 hasnormf0 = 0 hassamplef0 = 0 number = input_File_No for ifile from input_File_No to numberOfFiles select Strings list fileName$ = Get string... ifile name$ = fileName$ - ".wav" - ".WAV" if get_assembled_results if get_interval_means and fileReadable(directory$+name$+".timenormf0") call All_means 'name$' endif if get_time_normalized_f0 and fileReadable(directory$+name$+".timenormf0") call All_normf0 'name$' endif if get_sample_f0 and fileReadable(directory$+name$+".samplef0") call All_samplef0 'name$' endif else call Labeling 'fileName$' endif number = number + 1 endfor - XIV - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart procedure Labeling file_name$ file_extension$ Read from file... 'directory$''file_name$' name$ = file_name$ - ".wav" - ".WAV" if label_intervals labelfile$ = name$+".label" if fileReadable (labelfile$) Read from file... 'directory$''name$'.label else To TextGrid... "interval point" point endif plus Sound 'name$' # adds one object from the current selection endif Edit if get_f0_via_pulse_marking pulsefile$ = name$+".pulse" if fileReadable (pulsefile$) Read from file... 'directory$''name$'.pulse else select Sound 'name$' To PointProcess (periodic, cc)... minf0 maxf0 endif plus Sound 'name$' Edit endif call Save 'directory$' 'name$' select Sound 'name$' Remove endproc procedure Save directory$ name$ if pause_between_sound_files pause Current file is 'number'. endif - XV - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart # sechs durch das Skript erzeugten Daten:*.f0, *.PitchTier, *.pulse, *.samplef0, *.f0velocity, *.timenormf0, *.actutimenormf0 if get_f0_via_pulse_marking select PointProcess 'name$' if save_output_files Write to short text file... 'directory$''name$'.pulse maxperiod = 1/minf0 # the time difference between two #consecutive samples in a sound. To PitchTier... maxperiod call Trimf0 Write to short text file... 'directory$''name$'.PitchTier Down to TableOfReal... Hertz Write to headerless spreadsheet file... 'directory$''name$'.f0 Remove if get_sample_f0 call Sampling call Differentiation if found_interval select PitchTier samplef0 Down to TableOfReal... Hertz Write to headerless spreadsheet file... 'directory$''name$'.samplef0 Remove select PitchTier velocity Down to TableOfReal... Hertz Write to headerless spreadsheet file... 'directory$''name$'.f0velocity Remove endif select PitchTier samplef0 plus Pitch samplef0 Remove endif - XVI - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart if get_time_normalized_f0 call Normalization if found_interval select PitchTier normf0 Down to TableOfReal... Hertz Write to headerless spreadsheet file... 'directory$''name$'.timenormf0 Remove select PitchTier normactuf0 Down to TableOfReal... Hertz Write to headerless spreadsheet file... 'directory$''name$'.actutimenormf0 Remove endif select PitchTier normf0 plus PitchTier normactuf0 plus PitchTier normactutimef0 endif plus PointProcess 'name$' Remove if get_interval_means call Means endif if get_interval_means select TableOfReal means Write to headerless spreadsheet file... 'directory$''name$'.means plus Intensity 'name$' Remove endif select PitchTier 'name$' if get_sample_f0 plus PitchTier velocity endif - XVII - Institut für Maschinelle Sprachverarbeitung Remove endif endif if label_intervals and save_output_files select TextGrid 'name$' Write to short text file... 'directory$''name$'.label Remove endif endproc procedure Trimf0 maxbump = 0.01 maxedge = 0.0 maxgap = 0.033 n = Get number of points first = Get value at index... 1 second = Get value at index... 2 penult = Get value at index... n-1 last = Get value at index... n tfirst = Get time from index... 1 tlast = Get time from index... n for k from 1 to 3 call Trim endfor #3 mal Glaeterung Remove point... 1 Add point... tfirst second + (first-second) / 1000 Remove point... n Add point... tlast penult + (last-penult) / 1000 endproc procedure Trim for i from 2 to n-1 tleft = Get time from index... i-1 tmid = Get time from index... i - XVIII - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart tright = Get time from index... i+1 gap1 = tmid - tleft gap2 = tright - tmid left = Get value at index... i-1 mid = Get value at index... i right = Get value at index... i+1 diff1 = mid - left diff2 = mid - right if diff1 > maxbump and diff2 > maxedge and gap1 < maxgap and gap2 < maxgap ... or diff2 > maxbump and diff1 > maxedge and gap1 < maxgap and gap2 < maxgap Remove point... i Add point... tmid left+(tmid-tleft)/(tright-tleft)*(right-left) endif if diff1 > maxbump and gap2 >= maxgap Remove point... i Add point... tmid left + maxbump endif if diff2 > maxbump and gap1 >= maxgap Remove point... i Add point... tmid right + maxbump endif diff1 = left - mid diff2 = right - mid if diff1 > maxbump and diff2 > maxedge and gap1 < maxgap and gap2 < maxgap ... or diff2 > maxbump and diff1 > maxedge and gap1 < maxgap and gap2 < maxgap Remove point... i Add point... tmid left+(tmid-tleft)/(tright-tleft)*(right-left) endif if diff1 > maxbump and gap2 >= maxgap Remove point... i Add point... tmid left - maxbump - XIX - Institut für Maschinelle Sprachverarbeitung endif if diff2 > maxbump and gap1 >= maxgap Remove point... i Add point... tmid right - maxbump endif endfor endproc procedure Normalization select PitchTier 'name$' lasttime = Get finishing time Create PitchTier... normactutimef0 0 lasttime Create PitchTier... normf0 0 20 Create PitchTier... normactuf0 0 20 select TextGrid 'name$' nintervals = Get number of intervals... 1 interval = 0 found_interval = 0 for m from 1 to nintervals select TextGrid 'name$' label$ = Get label of interval... 1 m if not label$ = "" start = Get starting point... 1 m end = Get end point... 1 m select PitchTier 'name$' index1 = Get high index from time... start index2 = Get low index from time... end if found_interval = 0 found_interval = 1 select PitchTier 'name$' firstf0 = Get value at time... start firstime = start endif call Normalize interval = interval + 1 - XX - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung endif endfor endproc procedure Normalize # gleiche Zeitinterval, f0 Werte bleiben gleich duration = end - start for i from index1 to index2 select PitchTier 'name$' time = Get time from index... i f0 = Get value at index... i select PitchTier normactutimef0 Add point... (time-start)/duration+interval f0 #270/1,270/2...270/27=1/10, endfor select PitchTier normf0 for x from 1 to npoints normtime = x / npoints #1/10 select PitchTier normactutimef0 f0 = Get value at time... normtime+interval select PitchTier normf0 Add point... x+interval*npoints f0 select PitchTier normactuf0 Add point... normtime*duration+start-firstime f0 endfor endproc procedure Sampling select PitchTier 'name$' Create PitchTier... samplef0 0 20 select TextGrid 'name$' nintervals = Get number of intervals... 1 found_interval = 0 # 0 ist "false", for m from 1 to nintervals - XXI - Uni-Stuttgart Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart select TextGrid 'name$' label$ = Get label of interval... 1 m if not label$ = "" # Interval stimmloser Laut oder Pause-Interval # werden nicht gelabelt start = Get starting point... 1 m end = Get end point... 1 m duration = end - start # Dauer der Interval if found_interval = 0 found_interval = 1 endif # das Prgramm lauft immer, bis ein gelabeltes # Interval gefunden wird select PitchTier 'name$' nsamples = duration * f0_sample_rate + 1 # Dauer des Interval multipliziert Geschwindigkeit gleich Abstand for x from 1 to nsamples select PitchTier 'name$' sample_time = start + x/f0_sample_rate f0 = Get value at time... sample_time select PitchTier samplef0 Add point... sample_time f0 endfor endif endfor endproc procedure Differentiation select PitchTier samplef0 To Sound (sine)... 1600 To Pitch... 0 75 600 Smooth... 10 Down to PitchTier Rename... smoothf0 Create PitchTier... velocity 0 20 select TextGrid 'name$' - XXII - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart nintervals = Get number of intervals... 1 for m from 1 to nintervals select TextGrid 'name$' label$ = Get label of interval... 1 m if not label$ = "" start = Get starting point... 1 m end = Get end point... 1 m select PitchTier smoothf0 index_first = Get high index from time... start index_last = Get low index from time... end for x from index_first to index_last - 1 if x = index_first or x = index_last - 1 x2 = x + 1 else x2 = x + 2 endif select PitchTier smoothf0 f01 = Get value at index... x f02 = Get value at index... x2 sampletime1 = Get time from index... x sampletime2 = Get time from index... x2 velocity = (f02 - f01) * f0_sample_rate velocity_time = 0.5 * (sampletime1 + sampletime2) select PitchTier velocity Add point... velocity_time velocity endfor endif endfor select Pitch samplef0 plus PitchTier smoothf0 plus Sound samplef0 Remove endproc procedure Means select Sound 'name$' - XXIII - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart To Intensity... 100 0 yes select TextGrid 'name$' nintervals = Get number of intervals... 1 Create TableOfReal... means nintervals 4 Set column label (index)... 1 meanf0 Set column label (index)... 2 mean_intensity Set column label (index)... 3 duration Set column label (index)... 4 max_velocity interval = 0 for m from 1 to nintervals select TextGrid 'name$' label$ = Get label of interval... 1 m if not label$ = "" interval = interval + 1 start = Get starting point... 1 m end = Get end point... 1 m duration = 1000 * (end - start) start1 = start + perturbation_in_ms/1000 select TableOfReal means Set row label (index)... interval 'label$' select PitchTier 'name$' meanf0 = Get mean (points)... start1 end select Intensity 'name$' intensity = Get mean... start end energy if get_sample_f0 mid = 0.5 * (start + end) select PitchTier velocity index_first = Get high index from time... mid index_last = Get low index from time... end maxvelocity = 0 for x from index_first to index_last v = Get value at index... x if abs(v) > abs(maxvelocity) maxvelocity = v endif - XXIV - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart endfor endif select TableOfReal means Set value... interval 1 meanf0 Set value... interval 2 intensity Set value... interval 3 duration if get_sample_f0 Set value... interval 4 maxvelocity endif endif endfor nemptyintervals = nintervals - interval + 1 select TableOfReal means nrows = Get number of rows if nrows > 1 for m from interval+1 to nintervals Remove row (index)... interval+1 endfor endif endproc procedure All_means file_name$ Read TableOfReal from headerless spreadsheet file... 'directory$''name$'.means nrows = Get number of rows titleline$ = "Filename" f0line$ = name$ intensityline$ = name$ durationline$ = name$ velocityline$ = name$ for n from 1 to nrows if !hasmeanstitle rowname$ = Get row label... n titleline$ = "'titleline$' endif f0 = Get value... n 1 - XXV - 'rowname$'" Institut für Maschinelle Sprachverarbeitung f0line$ = "'f0line$' Uni-Stuttgart 'f0'" intensity = Get value... n 2 intensityline$ = "'intensityline$' 'intensity'" duration = Get value... n 3 durationline$ = "'durationline$' 'duration'" maxvelocity = Get value... n 4 velocityline$ = "'velocityline$' 'maxvelocity'" endfor if !hasmeanstitle filedelete meanf0.txt #an existing file with "filedelete fileName" can be delated filedelete meanintensity.txt filedelete duration.txt filedelete maxvelocity.txt titleline$ = "'titleline$''newline$'" fileappend meanf0.txt 'titleline$' # append text to a file fileappend meanintensity.txt 'titleline$' fileappend duration.txt 'titleline$' fileappend maxvelocity.txt 'titleline$' hasmeanstitle = 1 endif f0line$ = "'f0line$''newline$'" fileappend "meanf0.txt" 'f0line$' intensityline$ = "'intensityline$''newline$'" fileappend "meanintensity.txt" 'intensityline$' durationline$ = "'durationline$''newline$'" fileappend "duration.txt" 'durationline$' velocityline$ = "'velocityline$''newline$'" fileappend "maxvelocity.txt" 'velocityline$' Remove endproc # The .samplef0 files contain f0 values at fixed time intervals specified by "f0 sample rate". - XXVI - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart procedure All_normf0 file_name$ Read TableOfReal from headerless spreadsheet file... 'directory$''name$'.timenormf0 nrows = Get number of rows titleline$ = "Normtime" resultline$ = "_"+name$ for n from 1 to nrows if !hasnormf0 normtime$ = Get value... n 1 titleline$ = "'titleline$' 'normtime$'" endif value = Get value... n 2 resultline$ = "'resultline$' 'value'" endfor if !hasnormf0 filedelete normf0.txt titleline$ = "'titleline$''newline$'" fileappend normf0.txt 'titleline$' hasnormf0 = 1 endif resultline$ = "'resultline$''newline$'" fileappend "normf0.txt" 'resultline$' Remove endproc procedure All_samplef0 file_name$ Read TableOfReal from headerless spreadsheet file... 'directory$''name$'.samplef0 nrows = Get number of rows titleline$ = "Sampletime" resultline$ = "_"+name$ for n from 1 to nrows if !hassamplef0 sampletime = Get value... n 1 if n == 1 onsettime = sampletime - XXVII - Institut für Maschinelle Sprachverarbeitung Uni-Stuttgart endif sampletime = sampletime - onsettime titleline$ = "'titleline$' 'sampletime'" endif value = Get value... n 2 resultline$ = "'resultline$' 'value'" endfor if !hassamplef0 filedelete samplef0.txt titleline$ = "'titleline$''newline$'" fileappend samplef0.txt 'titleline$' hassamplef0 = 1 endif resultline$ = "'resultline$''newline$'" fileappend "samplef0.txt" 'resultline$' Remove endproc - XXVIII -