Technische Universität München
Transcrição
Technische Universität München
PHYSIK DEPARTMENT Neurophysik der Echounterdrückung Diplomarbeit von Moritz Bürck abgegeben am 18. Oktober 2005 betreut von Prof. Dr. J. Leo van Hemmen Technische Universität München 2 Inhaltsverzeichnis 1 Echo und Echounterdrückung 5 2 Zur monauralen Echounterdrückung 9 2.1 Psychophysikalische Experimente . . . . . . . . . . . . . . . . . . . . 2.2 Biologische Evidenz . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Das Modell 9 15 19 3.1 Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2 Analytik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2.1 Lösung für einen Klick . . . . . . . . . . . . . . . . . . . . . . 22 3.2.2 Lösung für einen einsetzenden Reinton . . . . . . . . . . . . . 25 3.2.3 Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Numerik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.3.1 Verhalten für Klicks und Klickpaare . . . . . . . . . . . . . . 33 3.3.2 Verhalten für Reintöne . . . . . . . . . . . . . . . . . . . . . . 40 3.3.3 Verhalten für Rauschen . . . . . . . . . . . . . . . . . . . . . 45 3.3.4 Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.3 4 Interpretation und Anwendung 51 5 Zusammenfassung 57 3 4 A Nachtrag zu Kapitel 3.2.2 INHALTSVERZEICHNIS 59 Kapitel 1 Echo und Echounterdrückung Der im Alltag verwendete Begriff des Echos stammt aus der griechischen Mythologie. Dort ist Echo der Name einer Nymphe, die von Zeus den Auftrag erhielt, seine Gattin Hera mit dem Erzählen von Geschichten zu unterhalten, damit Zeus Zeit für seine amourösen Abenteuer hatte. Als Hera dies entdeckte, beraubte sie Echo der Sprache und ließ ihr lediglich die Fähigkeit, die letzten an sie gerichteten Worte zu wiederholen. Daher nennen wir den Widerhall eines Wortes oder Klanges Echo. Wissenschaftlicher kann man ein Echo als eine, meist abgedämpfte, Wiederholung eines akustischen Signals bezeichnen. Die Dämpfung ist üblicherweise von Frequenz zu Frequenz verschieden stark ausgeprägt, jeder Frequenzkomponente des Echos geht aber eine identische Frequenz im Signal voraus. Zwar können Schallwellen durch eine Reflexion an sehr schnell bewegten Objekten ihre Frequenz ändern (Doppler-Effekt), in natürlichen Umgebungen spielt dieser Effekt jedoch keine Rolle. Bei der Reflexion an Wänden und anderen unbewegten Objekten wird die Frequenz der Echos nicht manipuliert. Aus diesem Grund bezeichnet man Echos als frequenzspezifisch. Im Allgemeinen sind Echos Reflexionen eines akustischen Signals an Wänden und sonstigen Gegenständen der Umgebung. Dabei nehmen Schallwellen nicht nur den direkten Weg von der Schallquelle zum Ohr, sondern auch alle anderen möglichen Wege (s. Abb. 1.1). So treffen nach einem Signal zeitlich versetzt zahlreiche dem Signal ähnelnde Reflexionen in unserem Ohr ein. Überschreitet die zeitliche Verzögerung einen bestimmten Wert, die Echoschwelle, nehmen wir die Reflexionen bewusst als eigenständiges Schallereignis, als Echo, wahr. Das geschieht zum Beispiel in den Bergen, wo in weiterer Entfernung der Schallquelle eine oder wenige reflektierende Flächen existieren. Aber auch in Kirchen oder gefliesten Bädern sind aufgrund der Vielzahl besonders 5 6 KAPITEL 1. ECHO UND ECHOUNTERDRÜCKUNG Abbildung 1.1: Echos sind Reflexionen eines akustischen Signals z.B. an Wänden. Schallwellen nehmen nicht nur den direkten Weg von der Schallquelle zum Hörer, sondern auch alle anderen möglichen Wege. gut reflektierender Flächen Mehrfachreflexionen möglich und somit Echos hörbar. Dort führt die Überlagerung der zahlreichen Echos allerdings zu einem diffusen Klangbild, dem sogenannten Nachhall. Reflexionen, die vor der Echoschwelle am Ohr eintreffen, werden nicht bewusst wahrgenommen. Die Unterdrückung der Wahrnehmung dieser schnellen Echos bezeichnet man als Echounterdrückung. Echounterdrückung ist ein neuronaler Prozess. Die für Nervenzellen relevante Zeitskala liegt im Bereich von Millisekunden; die Echoschwelle für gesprochene Sprache unter Laborbedingungen zum Beispiel liegt in der Größenordnung von 20 ms [1]. Der Zeitraum vom Beginn des Signals bis zur Echoschwelle ist also relativ groß. So lässt sich der Komplex der Echounterdrückung bei näherer Betrachtung in zwei unabhängige Mechanismen unterteilen: die langsamere binaurale Echounterdrückung und die schnellere monaurale Echounterdrückung. Erstere wertet - wie der Name sagt - die Information beider Ohren aus, wohingegen Letztere bereits mit nur einem Ohr funktioniert. Das lässt sich leicht in einem kleinen Experiment überprüfen. Hält man sich in einem größeren Raum wie zum Beispiel einem Hörsaal probeweise ein Ohr zu, wird mit kurzer Verzögerung ein Teil der sonst unhörbaren Echos hörbar. In einem kleinen Raum hingegen ist das nicht der Fall. Wie wesentlich Echounterdrückung für die Wahrnehmung unserer Umwelt ist, wird sofort klar, wenn man sich die Echounterdrückung wegdenkt. Deutlich wird das am Beispiel der Bahnhofshalle. Jeder weiß, wie mühsam es oft ist, in einer Bahn- 7 hofshalle Lautsprecherdurchsagen zu verstehen. Das hat zwei Gründe: zum einen werden die verschiedenen Lautsprecher vor allem in alten Anlagen oft mit kleinen Verzögerungen angesteuert, was quasi künstlich Echos erzeugt; zum anderen ermöglichen die Weite und die großen, gut reflektierenden Wände einer Bahnhofshalle sehr große Zeitunterschiede zwischen Signal und Echo, was heißt, dass die Echounterdrückung zu großen Teilen umgangen wird. Ein Gespräch ohne Echounterdrückung würde sich demnach in einem normalen Zimmer ähnlich wie Lautsprecherdurchsagen in einer Bahnhofshalle anhören. Manchmal sind Echos allerdings erwünscht: In Konzerthallen beispielsweise wird viel Mühe darauf verwendet, den Saal so zu gestalten, dass bewusst nicht wahrnehmbare Echos das Klangbild verbessern. Besondere Erwähnung verdient die Echounterdrückung im Zusammenhang mit der Ortung von Hörobjekten vor allem in engen und unübersichtlichen Umgebungen. Hier sind potentielle Feinde im Vergleich zu einem weiten und offenen Umfeld wie beispielsweise der Savanne nur sehr schwer zu entdecken. Deswegen ist es dort in besonderem Maße überlebenswichtig, Schallquellen schnell und zuverlässig orten zu könnnen. Das setzt voraus, dass die irreführende Ortsinformation der Echos nicht gewertet wird. Tatsächlich ist das auch der Fall. Wir stützen uns bei der Ortung von Schallquellen fast ausschließlich auf den schnellen bzw. direkten Schall, also die ersten Wellenfronten des Signals. Dieses Phänomen wird Law of the First Wave ” Front“ oder auch Precedence Effect“ (früher Haas Effekt“) genannt [5, 6]. ” ” Die wesentlichen und für das Verständnis der kommenden Kapitel wichtigen Punkte lassen sich wie folgt zusammenfassen: 1. Echos sind frequenzspezifisch 2. Schnelle Echos werden unterdrückt 3. Es gibt binaurale und monaurale Echounterdrückung Im Zentrum der vorliegenden Arbeit steht die monaurale Echounterdrückung. Es wird zunächst ein Überblick über relevante psychophysikalische Experimente und biologische Forschungsergebnisse geliefert. Dann wird das Modell einer möglichen neuronalen Implementierung vorgestellt und sein analytisches und numerisches Verhalten für Klicks und Reintöne untersucht. Im letzten Kapitel werden biologische Bedeutung und mögliche Anwendungen besprochen. 8 KAPITEL 1. ECHO UND ECHOUNTERDRÜCKUNG Kapitel 2 Zur monauralen Echounterdrückung Im Folgenden sollen einige Forschungsergebnisse vorgestellt werden, die mit der monauralen Echounterdrückung in direktem Zusammenhang stehen. Die psychophysikalischen Experimente beschäftigen sich vor allem mit der Wahrnehmung von Klicks oder kurzen Tonimpulsen in der Gegenwart von anderen Klicks oder Tönen. Der anatomische Aspekt wird durch eine Arbeit abgedeckt, die eine neuronale Verschaltung im Hirn von Mäusen untersucht, die möglicherweise für die monaurale Echounterdrückung zuständig ist. 2.1 Psychophysikalische Experimente Den ersten und deutlichsten Hinweis auf die Existenz der monauralen Echounterdrückung finden wir in einer Veröffentlichung aus dem Jahre 1963 [10]. Harris et al. von den Bell Laboratories untersuchten die binaurale Wechselwirkung eines einzelnen Klicks mit einem Klickpaar. Den Probanden werden über einen Kopfhörer insgesamt drei Klicks vorgespielt. Auf einem Ohr hören sie ein Klickpaar, bestehend aus Klick B und Klick C in einem Abstand von entweder 0.5, 1, 2, 4 oder 8 Millisekunden; auf dem anderen Ohr einen einzelnen Klick, A genannt, dessen Zeitpunkt sie selbst bestimmen können. Aufgabe der Versuchspersonen ist es nun, das Schallereignis zu zentrieren, das heisst, den einzelnen Klick (Klick A) mit dem Klickpaar (Klick B und C) so abzugleichen, dass sie die Klicks gleichzeitig wahrnehmen. Man erwartet, dass Klick A teilweise mit 9 10 KAPITEL 2. ZUR MONAURALEN ECHOUNTERDRÜCKUNG Klick B und teilweise mit Klick C synchronisiert wird. In Abbildung 2.1 sehen wir, dass die Ergebnisse weitgehend den Erwartungen entsprechen. Auffallend ist allerdings eine Ausnahme: wenn Klick B und C einen Abstand von 2 ms haben, wird Klick A überraschenderweise nur mit Klick B synchronisiert. In der Abbildung lässt sich der Zusammenhang im Detail nachvollziehen: aufgetragen ist die Zahl der Zentrierungen von Klick A über den relativen interauralen Zeiten zwischen den Klicks A und B für die fünf untersuchten Interklickintervalle der Klicks B und C. Die Pfeile an den x-Achsen markieren die Zeitpunkte von Klick B und C. Dort häufen sich die Zentrierungen. Im Fall 3 allerdings, dem Interklickintervall von 2 ms, bleiben Zentrierungen zum Zeitpunkt von Klick C aus. Abbildung 2.1: Die Ergebnisse von Harris et al. [10]. Aufgetragen ist die Anzahl der Zentrierungen von Klick A über dem zeitlichen Abstand zwischen Klick A und Klick B. Die Pfeile unter den x-Achsen markieren die Zeitpunkte der Klicks B und C. Erwartungsgemäß häufen sich dort die Zentrierungen von Klick A. Überraschenderweise wird Klick A nicht mit Klick C synchronisiert, wenn Klick C 2 ms nach Klick B erfolgt. Klick C ist also unhörbar, wenn der zeitliche Abstand zum vorhergehenden Klick B 2 ms beträgt. Offensichtlich nehmen die Versuchspersonen Klick C bei einer Verzögerung von 2 ms nicht wahr. Bei einem Abstand von 2 ms unterdrückt Klick B also die Wahrnehmung von Klick C. Wesentlich ist, dass bei den beiden kürzeren Zeiten von 0.5 und 1 ms Klick C bereits wahrgenommen wird. Daher kann die Unterdrückung des zwei- 2.1. PSYCHOPHYSIKALISCHE EXPERIMENTE 11 ten Klicks bei 2 ms nicht durch eine neuronale Refraktärzeit erklärt werden. Auch mechanische Eigenschaften der Basilarmembran können die Autoren als Ursache ausschliessen. Als Erklärung schlagen sie eine Art neuronales Tor vor, welches sich ungefähr 1 ms nach Beginn der neuronalen Aktivität schließt und sich nach rund 2 ms wieder öffnet. Nach den Überlegungen der Autoren könnte solch ein Mechanismus zum Beispiel durch Selbstinhibition der vom ersten Stimulus angeregten Neuronen realisiert werden. Er müsste greifen, bevor die Signale der beiden Ohren zusammengeführt werden, d.h. spätestens auf der Ebene des Nucleus Olivaris Superioris, dem zweiten neuronalen Kern nach der Hörschnecke. Als Ort des Mechanismus wird insbesondere der Nucleus Cochlearis in Erwägung gezogen, also der erste Kern direkt nach der Cochlea. Die Idee des neuronalen Tores wird von Zurek 1980 zur Erklärung seiner Forschungsergebnisse [18] aufgegriffen. Zurek spielt den Versuchspersonen zunächst über Kopfhörer drei Paare kurzer Rauschimpulse vor. Die einzelnen Paare haben einen Abstand von 400 ms, die Verzögerung ∆t zwischen den Rauschimpulsen eines Paares wird zwischen 1 ms und 11 ms eingestellt. In einem der drei Paare wird jetzt der zweite der Rauschimpulse solange verändert, bis der Proband die Veränderung feststellen kann. Diese Veränderung erfolgt an beiden Ohren unterschiedlich, so dass die Wahrnehmung der Veränderung ein Maß für die Fähigkeit ist, nach einem ersten, für beide Seiten identischen Signal Signalunterschiede zwischen den beiden Ohren zu bemerken. In zwei Versuchsserien wurde die Empfindlichkeit bezüglich Zeitverschiebungen und Amplitudenveränderungen untersucht. Am geringsten ist die Empfindlichkeit in beiden Fällen für ein ∆t von 2 ms. Hier werden Verschiebungen von bis zu 620 µs (≥ 30% von ∆t!) und Amplitudenänderungen von bis zu 12 dB nicht wahrgenommen. Zu ähnlichen Ergebnissen kommt Zurek in einer weiteren Versuchsanordnung. Statt der Impulspaare wird hier ein 50 ms dauernder Rauschimpuls verwendet. Innerhalb des Rauschimpulses wird ein 5 ms langes Teilintervall manipuliert, und zwar wieder auf beiden Seiten unterschiedlich. Der Zeitpunkt, zu dem diese Manipulation einsetzt, variiert zwischen 0 ms und 45 ms nach Beginn des Signals. Wie zuvor ist es Aufgabe der Versuchsperson zu erkennen, ob das sich rechte Signal vom linken unterscheidet. Analog zu obigem Experiment findet die Manipulation einmal über eine zeitliche Verschiebung und in einer weiteren Serie über eine Änderung der Amplitude statt. Am geringsten ist die Empfindlichkeit in den ersten 1 - 10 ms nach dem Beginn des Rauschens. Die in diesem Zeitraum nicht wahrgenommenen maximalen Verschiebungen bzw. Amplitudenänderungen betragen bis zu 620 µs respektive 14 dB. 12 KAPITEL 2. ZUR MONAURALEN ECHOUNTERDRÜCKUNG Im Kern der Versuchsergebnisse steht also, dass die interaurale Empfindlichkeit nach dem Einsetzen eines Signals ein nichtmonotones Verhalten zeigt. Für den Zeitraum von etwa 0.5 bis 10 ms nach dem Beginn ist die Empfindlichkeit reduziert, mit einer maximalen Reduzierung im Bereich von 2 - 3 ms. Wie bereits angedeutet können die Ergebnisse ebenfalls durch die Existenz des von Harris vorgeschlagenen neuronalen Tores erklärt werden, also einer verzögerten Inhibition, die durch das Einsetzen des Signals ausgelöst wird. Nach Zurek kann der Precedence Effect“, das heisst die Tatsache, dass die Ortung einer Schallquelle von ” den ersten Schallwellen dominiert wird, als Resultat dieses vorübergehenden Verlustes an Empfindlichkeit verstanden werden. Erwähnenswert ist in diesem Zusammenhang eine Arbeit von Rakerd und Hartmann, in der festgestellt wird, dass der Pre” cedence Effect“ wesentlich von einem abrupten Beginn des Tonsignals abhängt [13]. Es wäre denkbar, dass der von Harris und Zurek postulierte Mechanismus der Inhibition durch einen nur langsam hörbar werdenden Ton, der sich gewissermaßen einschleicht“, nicht oder nur teilweise ausgelöst wird. Dadurch würde der Prece” ” dence Effect“ wenn nicht vollkommen ausgelöscht so doch zumindest abgeschwächt werden. Etwas später, in den Jahren 1983 bis 1988, untersucht E. R. Hafter gemeinsam mit verschiedenen Kollegen in einer ganzen Reihe von Veröffentlichungen die Wahrnehmung von Klicks in Klickserien, speziell in Abhängigkeit der Klickraten [7–9]. Zunächst kommen sie dort zu dem Ergebnis, dass bei Raten unter 100/s (also bei Interklickintervallen von 10 ms und mehr) die Information der Klicks vollständig erhalten bleibt, wohingegen bei höheren Raten (bei Interklickintervallen von weniger als 10 ms) ein Informationsverlust auftritt, der mit zunehmender Rate der Klicks steigt. Auch wenn der Begriff der Information nicht eindeutig definiert wird, bleibt die Tatsache der stärkeren gegenseitigen Beeinflussung der Klicks mit steigender Rate bestehen. Die Autoren zeigen, dass sich der gemessene Einfluss der Klicks aufeinander qualitativ von einem theoretisch möglichen Einfluss von sowohl neuronalen Refraktärzeiten, als auch Schmalbandfiltern und der Nicht-Unabhängigkeit aufeinander folgender interner Rauschproben unterscheidet. Erklärt werden könnte das Verhalten laut Hafter und Kollegen jedoch durch einen neuronalen Sättigungsprozess“. ” In den nachfolgenden Untersuchungen stellen Hafter und Kollegen fest, dass die von ihnen beschriebene Sättigung in einzelnen Frequenzbändern stattfindet, d.h. frequenzspezifisch ist. Auch beeinflussen interaurale Unterschiede der Signale den Mechanismus nicht. Schließlich kommen die Autoren zu dem Schluss, dass die untersuchte Sättigung dem Precedence Effect“ nicht zugrunde liegt und es sich um ” ein monaurales Phänomen handeln muss. Erstaunlicherweise geben sie dem Prozess den Namen Binaurale Adaptation“. Den Sitz der Binauralen Adaptation“ vermu” ” 2.1. PSYCHOPHYSIKALISCHE EXPERIMENTE 13 ten sie im Nucleus Cochlearis, genau dem Ort also, den Harris für sein neuronales Tor vorschlägt. Die bis jetzt vorgestellten Mechanismen des neuronalen Tores bzw. der Selbstinhibition und des Sättigungsprozesses sind allesamt in den ersten 10 ms nach Beginn eines Schallereignisses aktiv und unabhängig von interauralen Merkmalen. Daher werde ich sie zur besseren Verständlichkeit im Folgenden unter dem Begriff der monauralen Echounterdrückung zusammenfassen. Es gibt noch zahlreiche interessante psychophysikalische Experimente zur Wahrnehmung von Klicks und Tönen in Gegenwart anderer Schallereignisse, die in den Standardwerken der Psychoakustik nachgelesen werden können [1,3,12,17,19]. Meist liegt der Focus der Arbeiten jedoch entweder auf der Untersuchung binauraler Effekte oder auf einem anderen als dem für uns interessanten Zeitrahmen von 10 ms nach Beginn eines Signals. Das macht es sehr mühsam, relevante Informationen zu extrahieren. Direkte Widersprüche zu dem vorgeschlagenen Mechanismus der monauralen Echounterdrückung habe ich in diesen Quellen allerdings nicht gefunden. Insbesondere besteht kein Widerspruch zwischen der monauralen Echounterdrückung und dem Clifton-Effect“, in dem es um spezielle Umstände geht, unter denen Echos ” hörbar werden [2]. Um die Problematik vieler Veröffentlichungen zu veranschaulichen, möchte ich hier noch auszugsweise eine Veröffentlichung von Freyman, Clifton und Litovsky [4] wiedergeben. Die Autoren beschreiben drei Experimente, von denen uns nur das erste, das Screening für die beiden anderen Experimente, interessiert: Die Versuchsperson sitzt in einem schalltoten Raum zwischen zwei Lautsprechern. Mit leichter Verzögerung geben die Lautsprecher je einen Klick wieder. Die Verzögerung variiert zwischen 2 und 14 ms und die Versuchsperson gibt an, ob sie ein Echo hört oder nicht. Die Ergebnisse der neun Versuchspersonen sind in Abbildung 2.2 zusammengefasst. Aufgetragen ist der Prozentsatz der Versuchsdurchläufe, in denen die Versuchspersonen ein Echo wahrnehmen, über der Verzögerung zwischen den beiden Lautsprechern für zwei verschiedene Bedingungen. Erst wurden den Versuchspersonen die zwei Klicks nur einmal vorgespielt (NC, für no conditioning“), dann wurden die ” Versuchspersonen mit neun Klicks bei einer Rate von 4/s auf den Testklick eingestimmt (R4N9 für rate 4 number 9“). Man sieht, wie die - wenn hier auch nicht ” eindeutig als monaural klassifizierbare - Echounterdrückung ihre höchsten Werte bei einer Verzögerung von 2 - 6 ms erreicht und nach 10 ms faktisch auf null reduziert ist. Ein Trainingseffekt ist ebenfalls zu beobachten. Festzuhalten ist, dass die Ergebnisse nicht im Widerspruch zu obigen Ergebnissen und Postulaten stehen. 14 KAPITEL 2. ZUR MONAURALEN ECHOUNTERDRÜCKUNG Abbildung 2.2: Screening von Freyman, Clifton und Litovsky [4]. Aufgetragen ist der Prozentsatz der Versuche, in denen ein Echo wahrgenommen wurde, über der Verzögerung der Echos. Gezeigt sind Daten von neun Personen für zwei Versuchsanordnungen: Ohne vorhergehende Einstimmung ( NC“) und mit Einstimmung auf ” den Versuch ( R4N9“). Bei den meisten Versuchspersonen ist ein Trainingseffekt zu ” beobachten: Echos werden mit geringerer Wahrscheinlichkeit wahrgenommen, wenn die Probanden auf den Versuch eingestimmt wurden. Zur Problematik der Arbeit sind mehrere Punkte zu bemerken. Zunächst sind die Schwankungen zwischen den Versuchspersonen beträchtlich. Desweiteren sortieren die Autoren zwei der Versuchspersonen aus, weil der zu untersuchende Effekt (der Einfluss des Trainings auf die Wahrnehmung der Echos) nicht den Erwartungen entsprechend zu Tage tritt. Von den verbliebenen sieben Versuchspersonen werden für die weiterführenden Experimente vier ausgewählt, d.h. die Gesamtzahl der Versuchspersonen ist recht gering. Schließlich schreiben die Autoren selbst, dass sich die Ergebnisse für den Fall, dass der schnellere Lautsprecher nicht der linke (wie in den dokumentierten Experimenten) sondern der rechte war, signifikant von den oben dargestellten Ergebnissen unterschieden, gehen darauf allerdings weiter nicht 2.2. BIOLOGISCHE EVIDENZ 15 ein. Vor allem die großen Schwankungen von Individuum zu Individuum in Verbindung mit der meist geringen Anzahl an Probanden sind Gründe, psychophysikalische Experimente zurückhaltend zu bewerten. Im Fall der monauralen Echounterdrückung gibt es jedoch noch einen handfesten biologischen Hinweis, der im nächsten Abschnitt vorgestellt werden soll. 2.2 Biologische Evidenz Um verstehen zu können, wie akustische Information tatsächlich im Gehirn verarbeitet wird, sind neurophysiologische Experimente entlang der neuronalen Pfade des Gehörs unabdingbar. Bei Säugetieren ist der Nucleus Cochlearis der erste Nervenknoten nach der Cochlea (Hörschnecke). Der auditorische Nerv eines Ohres läuft also aus der Cochlea direkt in den Nucleus Cochlearis. Von dort werden die Reize eines Ohres nach beiden Seiten zu den höheren Zentren weitergeleitet. Der Nucleus Cochlearis ist also der einzige Kern, in dem ausschließlich monaurale Information verarbeitet wird. Aus diesem Grund würde er sich als Ort für die monaurale Echounterdrückung besonders eignen. Wickesberg und Oertel [16] dokumentieren in ihrer Veröffentlichung zwei elektrophysiologische Versuchsreihen am Nucleus Cochlearis von Mäusen. Um ihre Experimente verständlich darstellen zu können, muss zunächst näher auf den Aufbau des Nucleus Cochlearis eingegangen werden. Abbildung 2.3A stellt die Reproduktion einer Aufnahme eingefärbter Zellkörper und Nervenfasern dar, in Abbildung 2.3B sieht man schematisch die Verschaltung im Nucleus Cochlearis. In beiden Abbildungen ist zu erkennen, dass der Nucleus Cochlearis in zwei funktionelle Untereinheiten unterteilt werden kann, den Anteroventralen Nucleus Cochlearis und den Dorsalen Nucleus Cochlearis (i. d. Abb. AVCN und DCN). Beide Untereinheiten sind tonotop aufgebaut, d.h. nach Frequenzen geordnet (in Abb. 2.3B l“ und h“ für low“ bzw. highfrequency“). Der auditorische Nerv ” ” ” ” (i.d. Abb. VIII N.) ist mit beiden Untereinheiten tonotop verbunden. Zusätzlich existiert eine Projektion vom dorsalen zum anteroventralen Teil des Nucleus Cochlearis. Die Projektion ist frequenzspezifisch, da die Neurone im DCN und ihre Zielzellen im AVCN von den gleichen Fasern des auditorischen Nervs erregt werden [15]. Im ersten Experiment charakterisieren die Autoren Art und genaue Lokalisierung der Verbindung vom DCN zum AVCN. Dafür werden mittels einer Injektion von Glutamat (bekannt als Geschmacksverstärker) Zellen in verschiedenen Bereichen des DCN erregt und gleichzeitig das intrazelluläre Potential je einer Zelle im AV- 16 KAPITEL 2. ZUR MONAURALEN ECHOUNTERDRÜCKUNG CN gemessen. Die untersuchten Zellen im AVCN sind sämtlich Ziel inhibitorischer Signale aus dem DCN. Der Bereich im DCN, der direkt oder indirekt mit den beobachteten Neuronen im AVCN in Verbindung steht, das sogenannte afferente Feld“, ” ist stets gleich groß. Ziel des zweiten Experiments ist die Aufklärung der zeitlichen Koordinierung der Inhibition im Nucleus Cochlearis. Wie zuvor werden die Zellpotentiale verschiedener Neurone im AVCN gemessen, diesmal jedoch werden sowohl DCN als auch AVCN über eine Elektrode getrennt voneinander stimuliert. Die inhibitorischen postsynaptischen Potentiale erreichen den AVCN rund 2 ms nach der Stimulation des auditorischen Nervs, die exzitatorischen postsynaptischen Potentiale treffen mit einer Verzögerung von 0.7 ms ein. Wickesberg und Oertel kommen zu dem Schluss, dass Aktionspotentiale im auditorischen Nerv eine Inhibition auslösen, die spätere Signale unterdrücken kann. Die Unterdrückung ist maximal, wenn der zeitliche Abstand zwischen den Signalen im auditorischen Nerv 2 ms beträgt. Damit decken sich die Schlussfolgerungen von Wickesberg und Oertel [16] vollständig mit den Eigenschaften der monauralen Echounterdrückung. Im nächsten Kapitel soll daher basierend auf den soeben beschriebenen Ergebnissen das Modell einer möglichen neuronalen Realisierung der monauralen Echounterdrückung untersucht werden. 2.2. BIOLOGISCHE EVIDENZ Abbildung 2.3: Verschaltung im Nucleus Cochlearis gemäß Wickesberg und Oertel [16]. Links als eine Abbildung eingefärbter Zellen aus den Versuchen, rechts als schematische Zeichnung. In Abbildung A ist sehr schön zu erkennen, wie die Fasern des auditorischen Nervs sich aufspalten und sowohl den dorsalen (DCN) als auch den anteroventralen (AVCN) Teil des Nucleus Cochlearis innervieren. Die mit den eingefärbten Fasern verbundenen Zellen erscheinen als schwarze Punkte. Man sieht, dass die von einem Nervenbündel des auditorischen Nervs innervierten Bereiche von AVCN und DCN wieder untereinander verbunden sind. Abbildung B zeigt den gleichen Zusammenhang schematisch. Der Nucleus Cochlearis ist in beiden Untereinheiten tonotop, das heisst nach Frequenzen geordnet (siehe Beschriftung tonotopic ” axes“, l“ und h“ für low“ bzw. high frequency“). Der auditorische Nerv kontak” ” ” ” tiert Neurone im DCN (schwarzes Quadrat) und im AVCN (schwarzer Stern bzw. Kreis). Die Verbindung zwischen DCN und AVCN besteht genau zwischen den Neuronen, die von den gleichen Fasern des auditorischen Nervs erregt werden. Da alle miteinander verbundenen Nervenzellen auf diese Weise nur von einer Frequenz angesprochen werden, ist die Verschaltung frequenzspezifisch. Die vom auditorischen Nerv ausgehenden Verbindungen sind exzitatorisch (leere Dreiecke), die Projektion vom DCN zum AVCN ist inhibitorisch (ausgefüllte Dreiecke). 17 18 KAPITEL 2. ZUR MONAURALEN ECHOUNTERDRÜCKUNG Kapitel 3 Das Modell Zunächst soll hier konkret der Aufbau des vorgeschlagenen Modells erläutert werden, dann sein Verhalten. Dazu wird, um das Verhalten qualitativ verstehen zu können, ein Netzwerk von Poisson-Neuronen betrachtet, anschliessend werden, für eine näher an der Wirklichkeit liegende Beschreibung, Spike-Response-Zellen verwendet. In beiden Fällen interessiert uns speziell das Verhalten für Klickpaare und für einen einsetzenden Reinton. 3.1 Aufbau Der Aufbau des Modells ist denkbar einfach (s. Abb. 3.1). Analog zur von Wickesberg und Oertel vorgeschlagenen Verschaltung im Nucleus Cochlearis gibt es im Modell drei Populationen von Neuronen: die Neurone des auditorischen Nervs, die des anteroventralen und die des dorsalen Nucleus Cochlearis. Die Neurone des auditorischen Nervs dienen in unserem Modell als Input. Jedes Neuron des auditorischen Nervs ist exzitatorisch mit je genau einem Neuron der anderen beiden Populationen verbunden. Je eine Zelle des DCN ist inhibitorisch mit einer Zelle des AVCN verbunden, im numerischen Teil mit mehreren Zellen. Das Output unseres Modells, die Aktivität der Neurone des AVCN, wird also bestimmt von einer Stimulation aus dem auditorischen Nerv und einer Hemmung aus dem DCN. Da Echos frequenzspezifisch sind, gehen wir von einer Frequenztrennung innerhalb der drei tonotopen Neuronpopulationen aus. Je drei verknüpfte Neurone bilden so einen Neuronkanal i, der nur Signale einer bestimmten Frequenz f verarbeitet. Im 19 20 KAPITEL 3. DAS MODELL numerischen Teil bildet die Projektion vom DCN zum AVCN wie erwähnt eine Ausnahme. Da eine strikte Frequenztrennung biologisch kaum realisierbar ist, nehmen wir eine Streuung der Inhibition in benachbarte Frequenzkanäle an (gestrichelte Linien in Abb. 3.1). Abbildung 3.1: Verschaltung im Nucleus Cochlearis. Links die bekannte Skizze von Wickesberg und Oertel, rechts das Modell für einen Frequenzkanal. Im rechten Bild sind die drei miteinander verbundenen Neuronpopulationen und ihre Verbindungen zu sehen, exzitatorische Synapsen sind durch kleine leere Kreise symbolisiert, inhibitorische durch kleine ausgefüllte Kreise; die gestrichelten Verbindungen sind nur in den numerischen Rechnungen von Relevanz. Zum Ziele der exakten Lösbarkeit wollen wir uns jedoch im nächsten Abschnitt auf strikte Frequenztrennung beschränken. Als Folge reicht die Beschreibung eines einzigen Frequenzkanals für die Charakterisierung des ganzen Modells. 3.2 Analytik Ein reales Neuron ist, grob gesprochen, ein Schwellenelement. Exzitatorischer und inhibitorischer Input summieren sich im Zellpotential und ein Spike wird abgefeuert, falls das Potential eine bestimmte Schwelle überschreitet. Die Schwelle stellt eine Nichtlinearität im System dar und macht eine analytische Lösung unmöglich. Deswegen werden wir ein auf Feuerraten basierendes Modell verwenden, das auf die Berücksichtigung einer Schwelle verzichtet und im Gegenzug eine exakte Lösung ermöglicht. In dem Modell wird angenommen, dass dem Feuern der Neurone ein stochastischer Prozess, genauer, ein inhomogener Poisson-Prozess zugrunde liegt. 3.2. ANALYTIK 21 Ein Poisson-Prozess wird durch drei Eigenschaften definiert: erstens ist die Wahrscheinlichkeit im Intervall t + ∆t einen Spike zu finden gleich λ(t)∆t, zweitens ist die Wahrscheinlichkeit in diesem Intervall zwei oder mehr Spikes zu finden o(∆t) und drittens sind Ereignisse in disjunkten Intervallen unabhängig. Ist λ(t) eine Konstante, liegt ein homogener Poisson-Prozess vor, ist es eine Funktion von t haben wir es mit einem inhomogenen Poisson-Prozess zu tun. Ein Neuron, dessen Feuerverhalten mit einem inhomogenen Poisson-Prozess beschrieben werden kann, wird Poisson-Neuron genannt. In einem Poisson-Neuron i ist die Ratenfunktion durch λi (t) = ν 0 + v(t) = ν 0 + X Jij (tfj ) (t − tfj ) (3.1) j,f definiert [11]. ν 0 ist die spontane Feuerrate und v(t) steht für das Zellpotential. Es ist bestimmt durch die Summe über alle Inputneurone j und ihre Feuerzeiten tfj (im Summenzeichen mit f abgekürzt). Jij steht für die Stärke des Input von Neuron j; (t) steht für den Einfluss eines Spikes im Inputneuron j auf das Zellpotential v(t) des betrachteten Neurons i, das postsynaptische Potential. Das postsynaptische Potential wird für den exzitatorischen Input allgemein mit der Alphafunktion beschrieben, (t) = (t/τ ) exp(1 − t/τ ) (3.2) mit τ als charakteristischer Zeit üblicherweise im Bereich von Millisekunden. Aufgrund der Kausalität verschwindet (t) für t < 0. Analog zu den exzitatorischen postsynaptischen Potentialen (EPSP) wollen wir auch inhibitorische postsynaptische Potentiale (IPSP) mit der Alphafunktion beschreiben. Ferner setzen wir ohne Beschränkung der Allgemeinheit die spontanen Feuerraten auf null. In Gleichung (3.1) wird über Spikes summiert. Es kann gezeigt werden, dass es legitim ist, hier zu einer Integration über den Erwartungswert der Spikes überzugehen [11]. Als Konsequenz nehmen wir an, dass die Ratenfunktion für die Neurone im auditorischen Nerv proportional zum Eingangssignal Fin (t) ist, das heisst λ0 (t) = α Fin (t). (3.3) Ferner folgt für die Ratenfunktionen in den anderen beiden Neuronpopulationen, dass sie beschrieben werden können durch 22 KAPITEL 3. DAS MODELL Z ∞ ds exzit. (s) λ0 (t − ∆t01 − s) λ1 (t) = J01 (3.4) 0 im dorsalen Teil des Nucleus Cochlearis und analog dazu im anteroventralen Teil mit Z ∞ Z ∞ ds inhib. (s) λ1 (t − ∆t12 − s). ds exzit. (s) λ0 (t − ∆t02 − s) + J12 λ2 (t) = J02 0 0 (3.5) ∆tij ist dabei die axonale Verzögerung zwischen Neuron i und j. Für die uns interessierende Aktivität im anteroventralen Teil des Nucleus Cochlearis als Funktion des Input Fin (t) ergibt sich somit: ∞ Z λ2 (t) = α J02 Z0 ∞ + α J01 J12 0 ds exzit. (s) Fin (t − ∆t02 − s) + Z ∞ ds exzit. (s) ds0 inhib. (s0 ) Fin (t − ∆t01 − ∆t12 − s − s0 ) 0 (3.6) Die Lösungen dieser Gleichung für verschiedene Inputfunktionen werden in den nächsten beiden Abschnitten vorgestellt. Dort bezeichnet stets λ0 (t) die Ratenfunktion der Neurone im auditorischen Nerv, λ1 (t) die Ratenfunktion der Neurone im DCN und λ2 (t) die Ratenfunktion der Neurone im AVCN. 3.2.1 Lösung für einen Klick Als erstes soll uns die Lösung für einen Klick interessieren. Ein idealer Klick ist unendlich kurz, bleibt aber hörbar. Da im Ohr das Empfinden der Lautstärke über eine Integration erfolgt, heisst das, dass das Integral eines Klick über der Zeit nicht verschwindet. Eine Deltafunktion als Input ist somit für unsere Zwecke perfekt. Es sei also λ0 (t) = α δ(t). (3.7) Nehmen wir zunächst an, die charakteristischen Zeiten von EPSP und IPSP, τexzit. und τinhib. , seien beide identisch τ . Mit Gleichung (3.7) ergibt (3.6) sich dann zu: 3.2. ANALYTIK λ2 (t) = α J02 23 (t − ∆t02 ) 1− t−∆t02 (t − ∆t012 )3 2− t−∆t012 τ τ e e + α J01 J12 , τ 6 τ2 (3.8) mit ∆t012 = ∆t01 + ∆t12 . Der erste Term spiegelt den exzitatorischen, der zweite den inhibitorischen Einfluss auf die Spikerate wider. Aufgrund der Kausalität gilt der exzitatorische Term nur für Zeiten t > ∆t02 und der inhibitorische Term nur für Zeiten t > ∆t012 . Gleichung (3.8) lässt sich zu λ2 (t) = α J02 (t − ∆t02 ) + α J01 J12 e1 (t − ∆t012 )2 (t − ∆t012 ) 6τ (3.9) vereinfachen. Der exzitatorische Teil hat trivialerweise genau die Form eines postsynaptischen Potentials. Die Inhibition hat ebenfalls die Form einer Alphafunktion, jedoch zeitlich verschmiert. Die Lösung verliert erheblich an Übersichtlichkeit, wenn sich die charakteristischen Zeiten von Inhibition und Exzitation unterscheiden: J01 J12 λ2 (t) = α J02 (t − ∆t02 ) + α × τexzit. τinhib. ( " # t−∆t t − ∆t012 2 2− τ 012 inhib. e 2 − 3 + 1 1 1 1 τexzit. − τinhib. τexzit. − τinhib. " #) t−∆t t − ∆t012 2 2− τ 012 exzit. +e . 2 + 3 1 1 1 1 τexzit. − τinhib. τexzit. − τinhib. (3.10) In Abbildung 3.2 sind die beiden Lösungen im Vergleich zu ihrem exzitatorischen Einfluss auf die Feuerrate aufgetragen; die Parameter sind biologisch plausibel und entsprechen soweit anwendbar den später im numerischen Teil verwendeten Werten. Die grüne Kurve soll lediglich dem besseren Vergleich dienen und stellt den rein exzitatorischen Teil der Lösung dar, also den Verlauf eines EPSP. Die rote und die blaue Kurve sind Lösungen von Gleichung (3.6). Die rote Kurve stellt die Lösung für identische charakteristische Zeiten von Inhibition und Exzitation dar, die blaue Kurve erhält man bei einer Vergrößerung der charakteristischen Zeit der Inhibition. In beiden Fällen wird die abfallende Flanke des EPSP durch den Einfluss der Inhibition deutlich verschoben, das Signal also verschmälert. Wichtig ist, dass ein ausgeprägtes Minimum der Feuerrate existiert. Für identische charakteristische Zeiten liegt es in Abbildung 3.2 bei ca. 2.5 ms, für die vergrößerte Zeit der Inhibition verschiebt sich das Minimum nach rechts (hier auf ca. 3.5 ms) und fällt stärker aus. 24 KAPITEL 3. DAS MODELL Abbildung 3.2: Lösungen von Gleichung (3.6) für eine Deltafunktion. Aufgetragen ist die relative Feuerrate in willkürlichen Einheiten über der Zeit in Millisekunden. Nach einem kurzen Anstieg sinkt die Feuerrate kurzzeitig unter die Spontanaktivität auf ein ausgeprägtes Minimum. Dieses Minimum verschiebt und verstärkt sich für größere charakteristische Zeiten der Inhibition. Nachfolgende Reize werden zu Zeiten einer negativen relativen Feuerrate unterdrückt. Das Verhalten deckt sich also mit den psychophysikalischen Experimenten. α = J01 = J02 = 1, J12 = −0.75, ∆t02 = 0.2 ms, ∆t012 = 0.4 ms, τexzit. = 0.5 ms. Für die rote Kurve gilt τinhib. = 0.5 ms, für die blaue τinhib. = 2 ms. Das Verhalten für Klickpaare kann aus dem Verhalten für Klicks abgeleitet werden, da das Poisson-Neuron ein lineares Modell ist. Die Lösung für ein Klickpaar ist aus diesem Grund die Summe der beiden Lösungen für die einzelnen Klicks. Aus Abbildung 3.2 ist somit ersichtlich, dass ein Klick den nachfolgenden unterdrückt. Der Zeitpunkt der maximalen Unterdrückung verschiebt sich mit zunehmender charakteristischer Zeit der Inhibition nach rechts, zugleich wird die Unterdrückung stärker. Eine schnelle Unterdrückung ist bei ansonsten gleichen Parametern also immer schwächer als eine langsame Unterdrückung. Ob im biologischen System eher eine schnelle, schwächere oder eine langsamere, stärkere Unterdrückung realisiert ist, wird vor allem von der Wahrnehmungsschwelle für Feuerraten abhängen. Je empfindlicher wir eine Steigerung der Rate wahrnehmen können, desto stärker, ergo langsamer, muss in dem Modell die Inhibition sein, um 3.2. ANALYTIK 25 den Einfluss eines nachfolgenden Klicks annullieren zu können. Zusammenfassend stellen wir fest, dass die Lösung unseren Vorstellungen aus den psychophysikalischen Experimenten entspricht. Ein Klick unterdrückt nachfolgende Klicks, und zwar maximal bei einem Klickabstand von wenigen Millisekunden. Zusätzlich wird das von einem einzelnen Klick verursachte Signal durch die Unterdrückung schmäler, also verschärft. 3.2.2 Lösung für einen einsetzenden Reinton Der Reinton in vereinfachter Darstellung In erster Näherung lässt sich ein einsetzender Reinton durch eine Heaviside-Funktion beschreiben: Erst (für t < 0) nichts (0), dann (für t > 0) ein Signal (1). Die Feuerrate im auditorischen Nerv sei also im folgenden λ0 (t) = α Θ(t). (3.11) Damit wird (3.6) gelöst von t−∆t02 1− τ 1 exzit. λ2 (t) = α J02 τexzit. e − (t − ∆t02 ) − e + ( t−∆t012 τexzit. 2 2 2 t − ∆t012 1 2− + α J01 J12 e τinhib. − e τexzit. + + + τinhib. a3 τexzit. a2 a2 τexzit. ) t−∆t t − ∆t012 2 1 2− τ 012 inhib. + − − (t − ∆t012 ) τinhib. (3.12) +e a3 τexzit. a2 a mit a= 1 τexzit. − 1 τinhib. . (3.13) Gleichung (3.12) verkürzt sich im Fall identischer charakteristischer Zeiten für Inhibition und Exzitation zu: 26 KAPITEL 3. DAS MODELL h i t−∆t02 λ2 (t) = α J02 τ e1 − (t − ∆t02 ) − e1− τ + ( t−∆t012 (t − ∆t012 )3 (t − ∆t012 )2 2 2 2− τ + α J01 J12 e τ − e + − 6τ 2 ) t−∆t012 + e2− τ (t − ∆t012 ) τ − τ 2 . (3.14) In (3.12) und (3.14) spiegelt wie zuvor der erste Summand den exzitatorischen, der zweite den inhibitorischen Einfluss auf die Spikerate wider. Auch hier gilt aufgrund der Kausalität der exzitatorische Term nur für Zeiten t > ∆t02 und der inhibitorische Term nur für Zeiten t > ∆t012 . Abbildung 3.3 zeigt zwei Lösungen und ihren exzitatorischen Anteil. Auch hier steht die grüne Kurve wieder für den rein exzitatorischen Einfluss der Lösungen auf die Feuerrate und die rote bzw. blaue Kurve für eine Lösung mit identischen bzw. verschiedenen charakteristischen Zeiten von Inhibition und Exzitation; wieder sind alle Parameter mit den später im numerischen Teil verwendeten vergleichbar. Die Exzitation alleine führt zu einer wachsenden Feuerrate, die rund 4 ms nach Beginn des Signals ihr Maximum erreicht. Findet Inhibition statt, ändert sich der Verlauf der Feuerrate deutlich. Steigt sie zunächst noch kurz an, fällt sie nach dem Greifen der Inhibition scharf ab: hier wächst die Inhibition stärker als die Exzitation. Dann steigt die Feuerrate wieder an, erreicht ein Maximum und fällt schließlich auf einen Gleichgewichtswert. Für unterschiedliche charakteristische Zeiten von Inhibition und Exzitation ist ein Maximum in der Feuerrate besser sichtbar, da in diesem Fall die Exzitation ihr Maximum deutlich schneller erreicht als die Inhibition. Ein einsetzendes konstantes Signal führt also nach einem kurzen Anstieg zunächst zu einem Absinken der Feuerrate bevor sie für große Zeiten auf einen Gleichgewichtswert steigt. Das Verhalten deckt sich qualitativ mit unseren Erwartungen, das heisst den psychophysikalischen Experimenten: nachdem ein Signal erkannt wird (kurzer Anstieg der Feuerrate), ist die Wahrnehmung kurz gestört (relative Feuerrate negativ), wonach sich ein Gleichgewichtszustand einstellt. Die bisherigen Ergebnisse sind vielversprechend, unklar ist jedoch, ob sie relevant sind. Denn die Modellierung eines einsetzenden Reintons durch eine HeavisideFunktion ist ausgesprochen grob, es ist keinerlei Phaseninformation enthalten. In der Realität aber liegt natürlich kein konstantes Signal, sondern eine sinusförmige Schwingung vor. Diese soll in den folgenden Rechnungen berücksichtigt werden. 3.2. ANALYTIK 27 Abbildung 3.3: Lösungen von Gleichung (3.6) für eine Heaviside-Funktion. Aufgetragen ist wie in Abbildung 3.2 die relative Änderung der Feuerrate in willkürlichen Einheiten über der Zeit in Millisekunden. Zu Beginn des Signals steigt die Feuerrate kurz an, fällt dann unter die Spontanfeuerrate und erreicht nach einem unterschiedlich stark ausgeprägten Maximum einen Gleichgewichtswert. Der Gleichgewichtswert sinkt für steigende charakteristische Zeiten der Inhibition. Das Absinken der relativen Feuerrate auf einen negativen Wert kurz nach Einsetzen des Signals deckt sich mit der in Experimenten beobachteten kurzen Störung der Wahrnehmung eines andauernden Signals bei seinem Einsetzen [18]. α = J01 = J02 = 1, J12 = −0.35, ∆t02 = 0.2 ms, ∆t012 = 0.4 ms, τexzit. = 0.5 ms. Für die rote Kurve gilt τinhib. = 0.5 ms, für die blaue τinhib. = 1 ms. Der Reinton als Schwingung Ein idealer Reinton ist eine Sinusschwingung. Im menschlichen Ohr löst jedoch nur eine Erhöhung des Luftdrucks, also nur jede zweite Halbschwingung des Tons, ein neuronales Signal aus. Genaugenommen muss die Aktivität der Neurone im auditorischen Nerv für einen Reinton deshalb durch λ0 (t) = sin(ωt) für sin(ωt) > 0 0 für sin(ωt) ≤ 0 beschrieben werden. Diesen unhandlichen Ausdruck werden wir zum Ziel einer ge- 28 KAPITEL 3. DAS MODELL schlossenen analytischen Lösung durch λ0 (t) = α [ 1 − cos(ωt) ] Θ(t) (3.15) für einen einsetzenden Reinton ersetzen. In Abbildung 3.4 wird die Bedeutung dieser Annahme klar. Im Vergleich zur grünen Kurve, dem Sinus, hat die rote Kurve, die von uns verwendete Gleichung (3.15), verschobene, breitere Maxima. In unserer Rechnung ist der auditorische Nerv also etwas träge, reagiert mit Verspätung und verschmiert das Signal; der wesentliche Aspekt, der Charakter einer Schwingung, ist jedoch erhalten. Abbildung 3.4: Die Funktionen [ 2 sin(t) ] und [ 1−cos(t) ] im Vergleich. Die von uns verwendete Funktion setzt weniger abrupt ein als die Sinusfunktion und ist deutlich breiter. Die Lösungen für (3.6) mit der in (3.15) angegebenen Input-Funktion sind wesentlich unhandlicher als zum Beispiel noch Gleichung (3.12), weshalb hier auf eine explizite Darstellung verzichtet wird. Sie ist in Anhang A nachzulesen. In Abbildung 3.5 sind jedoch Graphen der Lösungen zu sehen. Die Farbkodierung ist identisch zu den vorherigen Abbildungen: Grün zeigt das Verhalten des Systems ohne Inhibition, Rot das Verhalten im Fall gleicher charakteristischer Zeiten für Inhibition 3.2. ANALYTIK 29 Abbildung 3.5: Lösungen von Gleichung (3.6) für die Heaviside-Funktion multipliziert mit der Schwingung [ 1 − cos(ωt) ]. Aufgetragen ist die relative Änderung der Feuerrate in willkürlichen Einheiten über der Zeit in Millisekunden. Der Verlauf der Kurven ist, von der sinusförmigen Amplitudenmodulation abgesehen, vergleichbar mit Abbildung 3.3: nach Einsetzen des Reintons fällt die relative Feuerrate unter die Spontanrate, rund 1 ms später erreicht sie wieder positive Werte, steigt auf ein Maximum und sinkt dann auf einen Gleichgewichtswert. Wie für eine Heaviside-Funktion wird die Wahrnehmung kurz nach Beginn des Signals gestört, das Verhalten des Modells deckt sich auch hier mit den experimentellen Daten. Zu beachten ist, dass die Amplitude der Schwingung in allen drei Kurven gleich ist, in der Verschaltung bleibt die Phaseninformation des Tons also vollständig erhalten. Die Parameter sind mit Abbildung 3.3 identisch, die Frequenz ω des Reintons betrg̈t 440 Hz. und Exzitation und Blau schließlich den Fall einer längeren charakteristischen Zeit der Inhibition. Nicht überraschend ist, dass alle drei Kurven mit 440 Hz moduliert sind, der Frequenz des verwendeten Tones. Ein wichtiger Punkt ist, dass die Amplitude der Schwingungen konstant bleibt, die Gesamtaktivität hingegen durch die Inhibition deutlich verringert wird. Das entscheidende Merkmal des Signals, die Phaseninformation, wird durch den vorgeschlagenen Mechanismus der Unterdrückung also nicht manipuliert. Von der sinusförmige Amplitudenmodulation abgesehen wird der qualitative Ver- 30 KAPITEL 3. DAS MODELL lauf der Änderung der Feuerrate für einen einsetzenden Reinton bereits durch eine Heaviside-Funktion sehr gut beschrieben. Ganz wie in Abbildung 3.3 führt eine reine Exzitation zu einer wachsenden Feuerrate, die rund 4 ms nach Beginn des Signals ihr Maximum erreicht. Wird die Inhibition zugeschaltet, fällt die Feuerrate nach dem Greifen der Inhibition zunächst scharf ab und steigt dann auf ein Maximum, bevor sie den Grenzwert für große Zeiten erreicht. Genau wie zuvor ist das Maximum für eine langsamere Inhibition besser ausgeprägt. Zwei kleine, aber wesentliche Unterschiede zu Abbildung 3.3 lassen sich jedoch feststellen. Erstens ist der kurze Anstieg der Aktivität vor Einsetzen der Inhibition nicht mehr zu erkennen, der Beginn des Signals kann also nicht wahrgenommen werden. Ein derartiges Verhalten ist allerdings nicht realistisch: ein Neuron im auditorischen Nerv löst Spikes im anteroventralen und im dorsalen Teil des Nucleus Cochlearis gleichzeitig aus, daher kann der erste Spike eines anhaltenden Tones niemals unterdrückt werden. Es handelt sich um eine Folge der fehlenden Schwelle unseres Neuronmodells in Verbindung mit dem unnatürlich langsamen Einsetzen der Schwingung. Hier stossen wir offensichtlich an die Grenzen der Modellierung. Viel wesentlicher ist allerdings der zweite Unterschied: Betrachten wir den Bereich, in dem die relative Feuerrate negativ wird, so fällt uns auf, dass im Gegensatz zu vorher die blaue Kurve ihr Minimum schneller erreicht als die rote und beide Kurven fast gleichzeitig den Nullwert durchlaufen. Die charakteristische Zeit der Inhibition beeinflusst also nicht mehr die zeitliche Ausdehnung der Unterdrückung, sondern nur noch ihre Stärke. Der zuvor beobachtete Effekt einer variablen Dauer der negativen relativen Feuerrate kann mit dem abrupten Einsetzen des Signals, der Unstetigkeit der Heaviside-Funktion im Nullpunkt, erklärt werden. Mit größeren charakteristischen Zeiten der Inhibition hat die Unstetigkeit auch länger inhibitorischen Einfluss auf die Feuerrate. Ein einsetzender Reinton führt also in dem Modell zunächst zu einem zeitlich klar umrissenen Absinken der Feuerrate bei Beginn des Tones. Dann stellt sich eine von der Stärke der Inhibition abhängige Gleichgewichtsaktivität ein. Höchst bemerkenswert ist, dass die Amplitude der Schwingung nicht von der Inhibition beeinflusst wird. 3.2.3 Fazit Diskutiert wurden die Lösungen für die analytischen Äquivalente zu einem Klick und einem einsetzenden Reinton. Zusammenfassend kann man sagen, dass sich die 3.3. NUMERIK 31 Ergebnisse in beiden Fällen gut mit den psychophysikalischen Experimenten decken. Klicks unterdrücken nachfolgende Klicks und bei einem einsetzenden Reinton ist die Wahrnehmung kurz nach seinem Beginn gestört. Da die für den Ton charakteristischen Schwingungen nicht beeinträchtigt werden, ist seine Wahrnehmung außerhalb der kurzen Zeit nach dem Einsetzen des Tons nicht gestört. Interessanten Einfluss auf das Verhalten des Modells hat eine wachsende charakteristische Zeit der Inhibition. Sowohl für Klicks als auch für einen einsetzenden Reinton nimmt die Stärke der Unterdrückung mit der charakteristischen Zeit der Inhibition zu. Im Fall von Klicks steigt mit wachsender charakteristischer Zeit auch die Verzögerung der Unterdrückung, für Reintöne hat die charakteristische Zeit der Inhibition hingegen fast keinen Einfluss auf Zeitpunkt und Dauer der Unterdrückung. Wie nah die Ergebnisse am Verhalten des biologischen Systems sind, ist schwer einzuschätzen. Gerade zum Zeitpunkt des Einsetzens des Signals spielt die, im PoissonModell vernachlässigte, Schwelle eine wichtige Rolle. So ist es vom Poisson-Neuron zur real existierenden Zelle unter Umständen noch ein großer Schritt. Da die bisherigen Ergebnisse jedoch sehr ermutigend sind, soll die vorgeschlagene Verschaltung im nächsten Abschnitt unter Zuhilfenahme eines anderen, näher an der Realität liegenden Neuronmodells untersucht werden. Für das neue Modell ist eine analytische Lösung nicht mehr möglich, weshalb die Berechnungen numerisch mittels Computersimulationen durchgeführt werden. 3.3 Numerik Wie wir im vorherigen Abschnitt gesehen haben, stehen die Ergebnisse der analytischen Betrachtungen in gutem Einklang mit den psychophysikalischen Experimenten. Allerdings sind auch Schwächen des Poisson-Neurons zu Tage getreten. Numerische Berechnungen können uns im Vergleich zur analytischen Lösung im Wesentlichen zwei Vorteile bieten. Ein Vorteil ist, dass die Aussagen der Rechnungen nicht nur Wahrscheinlichkeiten und Raten, sondern real existierende Spikes und konkrete zeitliche Abfolgen von Spikes betreffen. Das ermöglicht es, den Einfluss der genauen zeitlichen Abstimmung auf die Eigenschaften der neuronalen Verschaltung im Detail nachzuvollziehen. Ein weiterer Vorteil ist die realistischere Darstellung der Neurone und die daraus resultierende bessere Vergleichbarkeit mit der Wirklichkeit. In unseren Simulationen werden alle Neurone mit einem angepassten Spike-Response-Modell (SRM) [11] beschrieben. Charakteristisch für das SRM ist, dass Spikes mit einer Deltafunktion beschrieben 32 KAPITEL 3. DAS MODELL werden und dass absolute und relative Refraktärzeiten explizit berücksichtigt werden. Für das Zellpotential vi (t) einer mit den Zellen j verbundenen Zelle i gilt im SRM: vi (t) = X η(t − tfi ) + f X Jij (t − tfj − ∆axon ). ij (3.16) j,f Die Summe über f ist eine Summe über die Feuerzeiten tf der beteiligten Neurone, also der Neurone i und seiner ”Nachbarn” j. Die Funktion η(t) beschreibt das Refraktärverhalten der Zellen: in der absoluten Refraktärzeit (t < τabs ) mit dem Wert –∞, in der relativen Refraktärzeit (t ≥ τabs ) mit einem endlichen negativen Term. Jij steht für die Kopplungsstärke von Neuron j zu Neuron i, die Alphafunktion (t) wie im analytischen Teil für die postsynaptische Antwort auf einen Spike. Die axonale Verzögerung ∆axon von Neuron j zu Neuron i kommt durch die in realen Systemen ij auftretende synaptische Verzögerung ∆syn und die Laufzeit der Spikes entlang der Axone von Neuron j zu Neuron i zustande. Überschreitet das Potential vi (t) eine bestimmte Schwelle ϑ, wird in Neuron i ein Spike ausgelöst. In den Simulationen werden, wie bereits in Abschnitt 3.2, exzitatorische (EPSP) und inhibitorische (IPSP) postsynaptische Potentiale als analog angenommen. Sie werden einheitlich als Alphafunktion beschrieben, mit der Zeitkonstante τexzit. für EPSP und τinhib. für IPSP. Die Membranzeitkonstante τm bestimmt den exponentiellen Rückfall des Zellpotentials auf das Ruhepotential, ist also vor allem in der relativen Refraktärzeit von Bedeutung. Alle Berechnungen werden mit zwei verschiedenen Parametersätzen durchgeführt. Einmal wurden Amplitude, Form, Dauer und zeitliche Koordination der Potentiale den einzelnen Ergebnissen von Wickesberg und Oertel angepasst. Dieser Parametersatz ist durch eine Membranrelaxationszeit von τm = 0.3 ms charakterisiert. Da das eine vergleichsweise kurze Membranrelaxationszeit ist, wurde sie für einen weiteren Satz von Parametern auf τm = 1 ms gesetzt, um die Robustheit des Mechanismus zu untersuchen. In der folgenden Tabelle sind die Parameter für die beiden Membranrelaxationszeiten zusammengefasst: τm τe τi τabs ∆syn Jexzit. ϑ 0.3 ms 0.5 ms 4 ms 0.25 ms 0.2 ms 1.2 0.3 1 ms 0.5 ms 4 ms 0.25 ms 0.2 ms 1.2 0.8 3.3. NUMERIK 33 Beide Parametersätze unterscheiden sich also zunächst nur in den Membranrelaxationszeiten τm und in der Schwelle ϑ. Der Schwellwert ist normiert, d.h. eine Schwelle von 0.3 bedeutet, dass bei 30 % des maximalen Wertes, den ein EPSP nach einem Spike erreicht, ein Spike ausgelöst wird. Freie Parameter sind die Stärke der Inhibition, Jinhib. , und die Streuung der Inhibition in benachbarte Frequenzen, ESB (Echo Suppression Branching). Keine Streuung findet bei ESB = 1 statt, für ESB = n werden zusätzlich die benachbarten n−1 Nervenfasern inhibiert. Die Inhibition klingt exponentiell mit dem Abstand ab. Die Abklingrate wird so gewählt, dass die Stärke der Inhibition im weitestentfernten noch inhibierten Neuron weniger als 2 % des Wertes im direkt innervierten Neurons beträgt. Wenn nicht anders erwähnt, liegt den gezeigten Ergebnissen bei minimaler Streuung der Inhibition in benachbarte Frequenzen (ESB = 5) eine mittlere Stärke der Inhibition zu Grunde (Jinhib. = −1.25 für τm = 0.3 ms und Jinhib. = −3.0 für τm = 1 ms). Zur Modellierung der Peripherie wird das etablierte C++ Paket LUTEar der Universität von Essex verwendet. LUTEar liefert zu .wav-Dateien die zugehörigen Spikezeiten in den einzelnen Fasern des auditorischen Nervs. Diese Spikezeiten bilden den Input des untersuchten Modells. Als Input werden die Spikezeiten von Klicks, Klickpaaren, Reintönen und schließlich Rauschen verwendet. 3.3.1 Verhalten für Klicks und Klickpaare In Anlehnung an die psychophysikalischen Experimente von Harris wird zunächst das Verhalten des Modells für Klicks und Klickpaare ergründet. Wie in den Versuchen von Harris haben die Klicks eine Länge von 0.3 ms. In Abbildung 3.6 sehen wir die Ergebnisse eines Testlaufs mit einem einzelnen Klick als Signal: links die Aktivität der Neurone im auditorischen Nerv, in der Mitte die Ausgabe des Modells für τm = 0.3 ms und rechts für τm = 1 ms. In allen drei Fällen ist die Zahl der Spikes allgemein groß, das Rauschen im auditorischen Nerv also sehr ausgeprägt. Trotzdem ist das Signal, also der Klick, immer deutlich zu erkennen. Ebenfalls zu erkennen ist allerdings eine Art von Schwänzen, die die Klicks nach sich ziehen, eine Aktivität, die vor allem in den Kanälen tiefer Frequenzen ausgeprägt ist. Es handelt sich hierbei um Nachschwingungen der Basilarmembran. Zu bemerken ist auch, dass die Spikes in tiefen Frequenzen mit leichter Verzögerung ausgelöst werden. Das lässt sich auf die Geometrie der Basilarmembran zurückführen: die bekannte Wanderwelle breitet sich entlang der Membran von den Bereichen mit hoher Eigenfrequenz zu denen mit tiefer Eigenfrequenz hin aus. Dabei 34 KAPITEL 3. DAS MODELL Abbildung 3.6: Spikeaktivität für einzelne Klicks. Aufgetragen sind die Frequenzkanäle über der Zeit; ein Punkt markiert einen Spike im jeweiligen Kanal. Zum Vergleich steht ganz rechts die charakteristische Frequenz der Kanäle. Links sieht man die Aktivität im auditorischen Nerv, in der Mitte im Nucleus Cochlearis mit τm = 0.3 ms und recht im Nucleus Cochlearis mit τm = 1 ms zum Vergleich. In allen drei Fällen ist der Klick, die Stimulation aller Frequenzkanäle bei t = 20 ms, klar zu erkennen. Im linken Bild zieht der Klick deutlich ein schwanzartiges Muster in der Aktivitätsverteilung nach sich. Die rechten beiden Bilder zeigen, dass diese Schwänze im Modell für verschiedene Parameter deutlich unterdrückt werden. Außerdem resultieren die Klicks hier in einem schmaleren Signal; nach den Klicks ist ein deutliches Sinken der Spontanaktivität zu beobachten. Nachfolgende Reize werden also erwartungsgemäß unterdrückt. nimmt die Geschwindigkeit der Wanderwelle laufend ab. Als Folge werden in Abbildung 3.6 die Spikes in Bereichen mit tiefer Eigenfrequenz sichtbar später ausgelöst als in Bereichen mit hoher Eigenfrequenz. Vergleicht man die drei Graphen untereinander, fällt auf, dass die Dichte der Aktivität im auditorischen Nerv allgemein höher und die Schwänze nach den Klicks ausgeprägter sind als im Nucleus Cochlearis. Insbesondere fällt auf, dass in dem Zeitraum nach den Klicks besonders wenige Spikes zu beobachten sind. Erwartungsgemäß scheinen also frühere Spikes später kommende Reize zu unterdrücken. Bemerkenswert ist, dass es zwischen den Aktivitäten im Nucleus Cochlearis für die beiden verschiedenen Parametersätze keine mit bloßem Auge erkennbaren Unterschiede 3.3. NUMERIK 35 gibt. Diese Ununterscheidbarkeit gilt nicht nur für einen einzelnen Klick, sondern uneingeschränkt auch für Klickpaare und, mit einer später diskutierten Ausnahme, für Reintöne. Daher wird im Folgenden nur noch der Parametersatz mit τm = 0.3 ms diskutiert; die Ergebnisse für τm = 1 ms sind identisch. Für den Vergleich mit den psychophysikalischen Experimenten interessiert uns natürlich weniger die Reaktion des Systems auf einen einzelnen Klick als vielmehr das Verhalten für Klickpaare mit verschiedenen Abständen der Klicks. Abbildungen 3.7 und 3.8 zeigen die entsprechenden Ergebnisse. Von links nach rechts sehen wir in beiden Abbildungen zunächst einen einzelnen Klick, dann 8 Klickpaare mit Klickabständen von je 0.5, 1, 2, 3, 4, 6, 8 und 10 ms. Abbildung 3.7: Spikeaktivität für eine Klickserie im auditorischen Nerv. Dargestellt ist die Aktivität für einen einzelnen Klick gefolgt von 8 Klickpaaren, die je einen Klickabstand von 0.5, 1, 2, 3, 4, 6, 8 und 10 ms haben. Gut zu erkennen sind die in immer größeren Abständen aufeinander folgenden einzelnen Klicks sowie die Schwänze, die die Klicks nach sich ziehen. Die Berechnung erfolgte mit LUTEar. Abbildung 3.7 zeigt die mit größerem Klickabstand steigende zeitliche Ausdehnung der Aktivität im auditorischen Nerv. Von einem einzelnen Klick bis zu Klickpaaren mit 0.5 und 1 ms Klickabstand werden die Bänder breiter, bis wir ab einem Abstand von 2 ms und mehr innerhalb der Klickpaare die einzelnen Reize unterscheiden können. Deutlich ist auch hier wieder das Nachschwingen der Basilarmembran zu erkennen. 36 KAPITEL 3. DAS MODELL Abbildung 3.8: Spikeaktivität für eine Klickserie analog zu Abbildung 3.7 im Nucleus Cochlearis. Im Vergleich zu der Aktivität im auditorischen Nerv sind die Schwänze fast nicht mehr zu erkennen und die ersten drei Klickpaare nach dem einzelnen Klick, die Paare mit dem Klickabstand von 0.5, 1 und 2 ms sind nicht zu unterscheiden. Insbesondere bei dem Klickpaar mit einem Klickabstand von 2 ms (bei t = 15 ms) ist der zweite Klick, in deutlichem Gegensatz zu Abbildung 3.7, nicht auszumachen. Für größere Klickabstände kann man die einzelnen Klicks wieder deutlich erkennen. Das Verhalten des Modells deckt sich genau mit den Ergebnissen von Harris, nach denen der zweite Klick bei einem Interklickintervall von 2 ms nicht wahrgenommen wird. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25. In Abbildung 3.8 sieht man, dass, wie bereits im Testlauf festgestellt, die Gesamtaktivität im Nucleus Cochlearis geringer ist als noch im auditorischen Nerv. Auch die Nachschwingungen der Basilarmembran sind, analog zum Testlauf, weitgehend verschwunden. Betrachten wir die zeitliche Ausdehnung der Aktivität, stellen wir jedoch interessante Abweichungen von Abbildung 3.7 fest: Zwar ist die Aktivität für den einzelnen Klick ebenfalls schwächer als für die Klickpaare, innerhalb der ersten drei Klickpaare (Abstand 0.5, 1 und 2 ms) jedoch verändert sich die Breite der Bänder nicht. Erst bei einem Klickabstand von 3 ms nimmt die Breite deutlich zu und wir können einen zweiten Klick erahnen, eine Ahnung, die bei den darauffolgenden Klickpaaren zur Gewissheit wird. 3.3. NUMERIK 37 Das Verhalten des Modells deckt sich also genau mit den Ergebnissen von Harris. Übersichtlicher lassen sich die Ergebnisse darstellen, indem man die Spikes aller Kanäle in einem Zeitintervall dt aufsummiert und gegen die Zeit anträgt wie in Abbildung 3.9. Gut erkennt man die abgesenkte Gesamtaktivität und den starken Rückgang der Aktivität direkt nach einem Klick. Bei den besonders interessanten Klickabständen von 0.5, 1, 2 und 3 ms kann man hingegen nur wenig erkennen. Das liegt an der Wahl des Zeitintervalls dt. Um den Effekt des vergleichsweise ausgeprägten Rauschens auszumitteln, muss für eine klare Darstellung das Zeitintervall dt mindestens 1.9 ms betragen. Damit wird auch die Feinstruktur nivelliert. Abbildung 3.9: Gesamtaktivität für eine Klickserie im auditorischen Nerv und im Nucleus Cochlearis. Aufgetragen ist die Summe der Spikes in allen Kanälen in einem Zeitinterval dt = 1.9 ms über der Zeit. Für kurze Klickabstände sind die einzelnen Klicks nicht zu identifizieren, gut zu erkennen ist jedoch die allgemein verringerte Aktivität sowie der besonders starke Rückgang der Aktivität unmittelbar nach einem Reiz. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25. Der Vorteil der letzten Darstellungsform ist die Übersichtlichkeit. Das macht sie geeignet, um den Einfluss der beiden freien Parameter, der Stärke der Inhibition und der Streuung der Inhibition in benachbarte Frequenzen, auf das Verhalten des Modells zu verdeutlichen. In Abbildung 3.10 ist der Einfluss der Stärke der Inhibition auf das Verhalten des 38 KAPITEL 3. DAS MODELL Modells erkennbar. Neben der Aktivität im auditorischen Nerv ist die Aktivität im Nucleus Cochlearis dargestellt, einmal mit schwächerer (Jinhib. = −0.75) und einmal mit stärkerer (Jinhib. = −1.75) Inhibition. Mit zunehmender Inhibition sinkt die Aktivität insgesamt und der von den Klicks ausgelöste Effekt der Unterdrückung nachfolgender Spikes wird deutlicher. Abbildung 3.10: Einfluss der Stärke der Inhibition auf die Gesamtaktivität für eine Klickserie. Aufgetragen ist die Aktivität im auditorischen Nerv und im Nucleus Cochlearis für schwächere (Jinhib. = −0.75) und für stärkere (Jinhib. = −1.75) Inhibition. Je stärker die Inhibition, desto deutlicher wird das Absinken der Gesamtaktivität und der Rückgang der Spikezahl unmittelbar nach einem Reiz. τm = 0.3 ms und ESB = 5. Der zweite freie Parameter ist die Streuung der Inhibition in benachbarte Frequenzen. Eine große Streuung heißt, dass die Aktivität in einer Faser des auditorischen Nervs nicht nur die nachfolgenden Reize in der gleichen, sondern auch in einer Zahl benachbarter Fasern unterdrückt. Je größer also die Streuung der Inhibition, desto geringer ist die Frequenzspezifizität der Echounterdrückung. Von einer Echounterdrückung erwarten wir jedoch, wie zu Anfang dieser Arbeit dargelegt, dass sie frequenzspezifisch ist. Vor diesem Hintergrund stellt sich die Frage, inwiefern die Streuung der Inhibition hier von Interesse ist. Eine große Streuung entspricht einem großen afferenten Feld, also einem großen Bereich im dorsalen Teil des Nucleus Cochlearis, der ein Neuron des anteroventralen 3.3. NUMERIK 39 Nucleus Cochlearis inhibiert. In den Experimenten von Wickesberg und Oertel sind die beobachteten afferenten Felder von nicht vernachlässigbarer Größe. Aus diesem Grund ist eine Untersuchung des Einflusses inhibitorischer Streuung auf das Verhalten des Modells naheliegend. Abbildung 3.11: Einfluss der Streuung der Inhibition auf die Gesamtaktivität für eine Klickserie. Gezeigt ist die Aktivität im auditorischen Nerv und im Nucleus Cochlearis für Inhibition großer Streuung. Noch deutlicher als in Abbildung 3.9 und 3.10 sinkt hier die Zahl der Spikes unmittelbar nach einem Klick oder Klickpaar. Im Gegensatz zu den vorhergehenden Abbildungen bleibt die spontane Aktivität, also die Spikezahl vor oder lange nach den Klicks, praktisch unverändert. τm = 0.3 ms, ESB = 41 und Jinhib. = −0.12. Der Einfluss der Streuung der Inhibition auf das Verhalten des Modells ist aus Abbildung 3.11 ersichtlich. In Abwesenheit von Klicks wird die Gesamtaktivität kaum verringert, wohingegen die Unterdrückung von Spikes direkt nach den Klicks genauso stark ist wie in den oben diskutierten Fällen (vgl. Abb. 3.9). Dieses Verhalten ist leicht zu verstehen: die Inhibition ist hier breiter (ESB = 41) und schwächer (Jinhib. = −0.12) als zuvor (ESB = 5, Jinhib. = −1.25), weshalb ein Spike in einer Fiber des auditorischen Nervs nicht reicht, um nachkommende Spikes zu unterdrücken; erst wenn viele Kanäle gleichzeitig aktiviert werden, wie bei einem Klick, wird die Inhibition in einer Faser ausreichend stark, um einen Spike zu unterdrücken. Insgesamt entspricht das Verhalten für Klicks unseren Vorstellungen: gemäß den 40 KAPITEL 3. DAS MODELL Ergebnissen von Harris werden Klicks in 2 ms Abstand von einem anderen Klick unterdrückt; Variationen in Stärke und Streuung der Unterdrückung beeinflussen das Verhalten des Modells nachvollziehbar; für beide Membranzeitkonstanten werden nicht unterscheidbare Ergebnisse erzielt. Auch mit den Ergebnissen der analytischen Rechnungen stehen die numerischen Simulationen im Einklang. Im Fall von Klicks sind die analytischen Vereinfachungen anscheinend nicht kritisch. Spannend ist die Frage, inwieweit das für einen einsetzenden Reinton ebenfalls gilt: Hier stießen wir im letzten Kapitel an die Grenzen unserer Modellierung. Daher soll im nächsten Abschnitt untersucht werden, wie das Modell mit SRMNeuronen auf einen anhaltenden Reinton reagiert. 3.3.2 Verhalten für Reintöne Im Vergleich zu den Klicks des letzen Abschnitts erwarten wir für Reintöne deutlich komplexere Muster der Neuronenaktivität. Das wird von Abbildung 3.12 bestätigt. Dargestellt ist die Aktivität für einen einsetzenden Reinton von 440 Hz im auditorischen Nerv. Deutlich zu sehen ist das Anschalten bei 0.44 s und, nach einer kurzen Einschwingphase, das Phaselocking. In Abbildung 3.13, der Aktivität für den gleichen Ton im Nucleus Cochlearis, ist insbesondere das Phaselocking wesentlich schwerer zu erkennen. Bedenkt man, dass die Abbildungen einem Ton von 100 dB(A) entsprechen, scheint fraglich, ob schwächere Signale überhaupt noch eine verwertbare Aktivität im Nucleus Cochlearis hervorrufen. In der in Abbildung 3.12 und 3.13 gewählten Form der Darstellung ist sehr mühsam, Details zu erkennen. Damit ist sie für eine genauere Analyse ungeeignet; es bedarf einer Aufbereitung der Rohdaten. Da anzunehmen ist, dass das Phaselocking entscheidend ist für die Erkennung und Verarbeitung von Tönen, summieren wir über alle Spikes, die einen identischen zeitlichen Abstand voneinander haben. Wir ordnen also die Spikes nach Interspikeintervallen (s. Abb. 3.14). Betrachten wir zunächst die Aktivität im auditorischen Nerv, also die grüne Kurve. Das Phaselocking tritt hier klar zu Tage: bis zu dem verhältnismäßig großen Spikeabstand von 40 ms liegt eine Oszillation der Aktivität mit 440 Hz vor. Das Rauschen liefert die abklingende Hintergrundaktivität. Die rote Kurve beschreibt die Aktivität im Nucleus Cochlearis. Für Spikeabstände von ca. 8 ms und weniger ist die Spikezahl im Vergleich zur grünen Kurve drastisch reduziert (bei 2 ms um den Faktor 25!). In diesem Bereich ist das Rauschen praktisch vollständig unterdrückt, das Phaselocking nur rudimentär zu erkennen. Spikes mit einem Interspikeintervall unterhalb einer bestimmten Grenze, hier ca. 8 ms, werden 3.3. NUMERIK 41 Abbildung 3.12: Spikeaktivität für einen Reinton von 440 Hz von 100 dB(A) im auditorischen Nerv. Leicht zu erkennen ist der Beginn des Tones bei t = 0.44 s. Ähnlich einem Klick werden durch das abrupte Einschalten die bekannten Schwänze erzeugt. Nach einer Einschwingphase stellt sich in den Frequenzen um 440 Hz Phaselocking ein. Die Berechnung der Spikezeiten erfolgte mit LUTEar. also unterdrückt. Interessant sind aber nicht nur die Unterschiede zwischen den Kurven sondern auch ihre Gemeinsamkeit: Ab Spikeabständen von rund 17 ms gibt es zwischen den Kurven fast keinen Unterschied mehr. Da Phaselocking bis zu einem Spikeabstand von 40 ms vorliegt, wird ein großer Teil der Information, die Information der niederen harmonischen Schwingungen des Reintons, von dem Modell nicht verändert. Hier liegt also eine Diskrepanz zwischen numerischer und analytischer Lösung, in welcher die Phaseninformation nicht verändert wird, vor. Wird die Stärke der Inhibition verändert, verschiebt sich die Grenze der Interspikeintervalle, unterhalb derer Spikes unterdrückt werden. Schwächt man die Inhibition ab, werden nur noch Spikes mit geringerem Abstand unterdrückt, verstärkt man sie, verschwinden auch Spikes mit größeren Interspikeintervallen. In Abbildung 3.15 sehen wir, dass es an dieser Stelle - zum ersten und einzigen Mal einen signifikanten Unterschied im Verhalten des Modells für die beiden Parametersätze mit τm = 0.3 ms und τm = 1 ms gibt. Im Fall schwacher Inhibition verschiebt 42 KAPITEL 3. DAS MODELL Abbildung 3.13: Spikeaktivität für einen Reinton von 440 Hz von 100 dB(A) im Nucleus Cochlearis. Analog zu Abbildung 3.12 kann man Beginn des Signals, Einschwingphase und Phaselocking erkennen. Im Vergleich zu Abbildung 3.12 sind die Merkmale deutlich schwieriger auszumachen. Die Form der Darstellung ist nicht optimal, in Abbildung 3.14 sind die gleichen Daten wesentlich übersichtlicher dargestellt. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25. sich für den Parametersatz mit τm = 1 ms die Grenze wie erwartet in Richtung Ursprung; für τm = 0.3 ms taucht hier bei einem Spikeabstand von etwa 1 ms ein Peak auf. Dieses Zwischenhoch in der Aktivität lässt sich durch die kurze Membranrelaxationszeit erklären und passt auch zu der von Harris beschriebenen Wahrnehmung der Klicks in einem Abstand von 0.5 ms und 1 ms. Die Bedeutung des Peaks bleibt jedoch unklar, solange nicht endgültig festgestellt wird, welche Relaxationzeit im Nucleus Cochlearis relevant ist. Wenn eine Streuung der Inhibition in benachbarte Frequenzen stattfindet, ändert sich das Verhalten des Modells deutlich (s. Abb. 3.16). Im vorigen Abschnitt hatten wir festgestellt, dass die mittlere Gesamtaktivität bei großer Streuung der Inhibition in Abwesenheit von Klicks kaum verändert wird. In Abbildung 3.16 sehen wir, dass dies nicht nur in Abwesenheit von Klicks sondern auch in Anwesenheit eines Reintons gilt: zwar ist die Hintergrundaktivität und auch die vom Signal verursachte Aktivität im Vergleich zum auditorischen Nerv abge- 3.3. NUMERIK 43 Abbildung 3.14: Spikeaktivität für einen Reinton von 440 Hz von 100 dB(A) im auditorischen Nerv und im Nucleus Cochlearis. Aufgetragen ist die Absolutzahl der Spikes über dem zeitlichen Abstand von ihrem Vorspike. Klar tritt sowohl im auditorischen Nerv als auch im Nucleus Cochlearis das Phaselocking zu Tage. Das Rauschen liefert besonders im auditorischen Nerv eine ausgeprägte Hintergrundaktivität. Im Nucleus Cochlearis werden Spikes mit kurzen Interspikeintervallen stark unterdrückt. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25. senkt, ein qualitativer Unterschied der beiden Kurven ist jedoch nicht zu erkennen. Ein Reinton wird von dem Mechanismus praktisch nicht verändert, wenn die Inhibition im Nucleus Cochlearis breit über die Frequenzen gestreut ist. Der Unterschied zwischen numerischer und analytischer Lösung verschwindet also im Falle breiter Streuung der Inhibition. Insgesamt ist das Verhalten des Modells für anhaltende Reintöne in den numerischen Simulationen zufriedenstellend: Zwar ist ein deutlicher Unterschied zur analytischen Lösung vorhanden, zumindest im Fall einer breit gestreuten Inhibition kann allerdings von übereinstimmenden Ergebnissen der beiden Lösungswege gesprochen werden. Festzuhalten ist auch, dass in jedem Fall, also auch bei wenig ausgeprägter Streuung der Inhibition, das heisst, einem von der Analytik verschiedenen Verhalten, ein großer Teil der Phaseninformation erhalten bleibt. Genug, um die Frequenz des Signals eindeutig rekonstruieren zu können. 44 KAPITEL 3. DAS MODELL Abbildung 3.15: Spikeaktivität für einen Reinton im Nucleus Cochlearis für den Fall schwacher Inhibition. Im Vergleich zu Abbildung 3.14 ist die Aktivität im auditorischen Nerv unverändert, die Unterdrückung von Spikes mit geringen Interspikeintervallen im Nucleus Cochlearis jedoch weniger ausgeprägt. Für den Parametersatz mit einer Membranrelaxationszeit von 0.3 ms existiert ein deutlicher Peak der Aktivität bei ca. 0.5 ms. Der Peak passt zu den psychophysikalischen Experimenten von Harris, nach denen ein Klick mit 0.5 ms Abstand zum vorhergehenden Klick nicht unterdrückt wird. τm = 0.3 ms und Jinhib. = −0.75 bzw. τm = 1 ms und Jinhib. = −2.0. Die in diesem Abschnitt aufgeführten Abbildungen zeigen das Verhalten des Modells für einen Reinton von 440 Hz. Für einen Reinton von 1000 Hz wurden analoge Berechnungen mit vergleichbaren Resultaten durchgeführt. Die Lautstärke wurde für alle gezeigten Ergebnisse in LUTEar auf 100 dB(A) eingestellt. Für einen Reinton ist das sehr viel. Das Modell liefert für 70 und 50 dB(A) jedoch keine anderen Effekte, sie sind lediglich schwerer zu erkennen. Speziell bei 50 dB(A) sind sie für ein ungeschultes Auge nicht zu sehen. Das bedeutet jedoch nicht, dass sie im auditorischen System nicht wahrgenommen werden. Vielmehr muss das auditorische System in Bezug auf seine nativen Daten zu mindestens der gleichen Identifikationsleistung in der Lage sein wie ein geschultes Auge in Bezug auf die vorliegenden Graphen. 3.3. NUMERIK 45 Abbildung 3.16: Spikeaktivität für einen Reinton im auditorischen Nerv und im Nucleus Cochlearis für den Fall starker Streuung der Inhibition in benachbarte Frequenzen. Im Vergleich zu den Abbildungen 3.14 und 3.15 fällt auf, dass im Nucleus Cochlearis die Spikes mit geringen Interspikeintervallen kaum unterdrückt werden. Die Phaseninformation des Tones bleibt vollständig erhalten. τm = 0.3 ms, ESB = 41 und Jinhib. = −0.12. 3.3.3 Verhalten für Rauschen Im letzten Abschnitt wurde unter anderem festgestellt, dass der vorgeschlagene Mechanismus das Rauschen bei kurzen Interspikeintervallen stark schwächt. Dem soll hier mit einem Signal, das ausschliesslich aus weißem Rauschen besteht, nachgegangen werden. Um für diesen Fall aussagekräftige Graphen zu erhalten, ist eine differenziertere Art der Auftragung als für Reintöne notwendig. Wieder tragen wir die Spikezahl über den Interspikeintervallen auf, diesmal jedoch für jeden Kanal getrennt. Abbildung 3.17 ist ein derartiger Graph für einen Reinton von 440 Hz im auditorischen Nerv. Die Analogie zu Abbildung 3.14 ist nicht zu übersehen. Bei einem Blick auf Abbildung 3.18, dem gleichen Graphen für lautes Rauschen, wird klar, weshalb die Auftrennung nach Kanälen nötig ist. Das Rauschen regt die Basilarmembran zu Eigenschwingungen an, die jedoch in der Summe unsichtbar sind, da die Eigenfrequenzen für jeden Kanal unterschiedlich sind. Die Aktivitätsverteilung nach dem Durchlaufen des Modells ist in Abbildung 3.19 zu sehen. Die Unterdrückung ist 46 KAPITEL 3. DAS MODELL Abbildung 3.17: Aktivitätsverteilung für einen Reinton von 440 Hz im auditorischen Nerv. Aufgetragen sind die Kanäle über den Interspikeintervallen, dunkle Punkte stehen für viele, helle Punkte für wenige Spikes. Die Analogie zu den vorherigen Abbildungen ist unübersehbar. Die Kanäle um eine Frequenz von 440 Hz, (Kanal 90) feuern kohärent, die Hintergrundaktivität stammt aus den restlichen Kanälen. Die Berechnung erfolgte mit LUTEar. sehr stark, allerdings werden nicht nur die Eigenschwingungen unterdrückt, sondern allgemein alle Spikes mit geringem Interspikeintervall. Der Effekt ist also sehr unspezifisch. Im Falle einer breiten Streuung der Inhibition werden die Eigenschwingungen ebenfalls reduziert, jedoch wesentlich subtiler (s. Abb. 3.20). Dieser Effekt verschwindet in Simulationen mit leisem Rauschen, da die Basilarmembran vom Rauschen dann nicht mehr in Eigenschwingungen versetzt wird. Trotzdem ist der Effekt von Interesse, weil er verdeutlicht, dass Eigenschwingungen der Basilarmembran von dem Mechanismus wirkungsvoll unterdrückt werden und noch einmal klar wird, dass die Streuung der Inhibition einen wesentlichen Einfluss auf das Verhalten des Modells ausübt. 3.3. NUMERIK 47 Abbildung 3.18: Aktivitätsverteilung für Rauschen von 100 dB(A) im auditorischen Nerv. In den einzelnen Kanälen (gut sichtbar im unteren Bereich, Kanal 0 200) feuern die Neurone kohärent mit der charakteristischen Frequenz des Neuronkanals. Es treten die von Klicks und Reinton bekannten Schwänze auf, die Basilarmembran wird durch das Rauschen in Eigenschwingungen versetzt. Die Berechnung erfolgte mit LUTEar. 3.3.4 Fazit In den numerischen Simulationen wurde das Verhalten des Modells für Klickpaare, Reintöne und Rauschen untersucht. Am klarsten sind die Ergebnisse für die Klickpaare, nicht zuletzt, weil die Daten sehr einfach zu interpretieren sind: für beide Membranrelaxationszeiten als auch für unterschiedlich starke Streuung der Inhibition deckt sich das Verhalten des Modells mit den psychophysikalischen Experimenten. Der Mechanismus ist folglich robust, über die Breite der vorliegenden Streuung im realen System läßt sich jedoch keine Aussage treffen. Da wir von einer frequenzspezifischen Echounterdrückung ausgehen, favorisieren wir schwache oder keine Streuung der Inhibition in benachbarte Frequenzen. Für Reintöne stellen wir für geringe Streuung qualitative Unterschiede zwischen der Aktivität im auditorischen Nerv und im Nucleus Cochlearis fest. Hier unterscheiden sich numerische und analytische Lösung. Dieser Unterschied verschwindet bei einer großen Streuung der Inhibition: hier wird das Signal im Nucleus Cochlearis kaum 48 KAPITEL 3. DAS MODELL Abbildung 3.19: Aktivitätsverteilung für Rauschen von 100 dB(A) im Nucleus Cochlearis für den Fall geringer Streuung der Inhibition. Die analoge Abbildung für einen Reinton ist Abbildung 3.14. Spikes mit kurzen Interspikeintervallen werden unterdrückt. Als Folge sind auch die Eigenschwingungen der Basilarmembran nicht mehr sichtbar. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25. verändert. Bei unnatürlich starkem Rauschen wird die Basilarmembran zu Eigenschwingungen angeregt. Diese werden sowohl im Fall schmaler als auch breiter Streuung unterdrückt, die effizientere und dadurch elegantere Unterdrückung findet jedoch bei breiter Streuung der Inhibition statt. Insgesamt sollten wir im jetzigen Stadium der Erkenntnisse unsere Gedanken weniger auf Echounterdrückung und ihre biologische Realisation fokussieren, als vielmehr versuchen, analytische und numerische Lösung zusammenzuführen und damit den Kern des Modells, seine Aufgabe im Gehör und auch mögliche Anwendungen, zu erkennen. 3.3. NUMERIK Abbildung 3.20: Aktivitätsverteilung für Rauschen von 100 dB(A) im Nucleus Cochlearis für den Fall breiter Streuung der Inhibition. Die Eigenschwingungen der Basilarmembran werden unterdrückt, allerdings weniger massiv und mit einer geringeren Auswirkung auf die Aktivität insgesamt als in Abbildung 3.19. Die Gesamtaktivität ist jedoch geringer als in Abbildung 3.18. τm = 0.3 ms, ESB = 41 und Jinhib. = −0.12. 49 50 KAPITEL 3. DAS MODELL Kapitel 4 Interpretation und Anwendung Interpretation der Ergebnisse und Aufgabe der Verschaltung Die bisherigen Ausführungen hatten zum Ziel, Existenz, Ort und Eigenschaften der monauralen Echounterdrückung zu ergründen. Im letzten Kapitel haben wir schließlich gesehen, dass das vorgeschlagene Verschaltung für beide verwendeten, vollkommen verschiedenen Neuronmodelle die psychophysikalischen Experimente sehr gut bis gut widerspiegelt. In beiden Fällen ist der Mechanismus robust bezüglich Variationen der Parameter, sodass wir in Verbindung mit den von Wickesberg und Oertel vorgestellten biologischen Hinweisen davon ausgehen können, dass eine derartige Unterdrückung im Nucleus Cochlearis real existiert. Aus unserer Arbeit geht also die Existenz der Verschaltung hervor, unklar bleibt jedoch ihre Aufgabe. Handelt es sich überhaupt um eine Echounterdrückung? Oder vielleicht um eine Lautstärkeanpassung? Um eine Rauschunterdrückung, einen Mechanismus zur Unterdrückung der Eigenschwingungen der Basilarmembran? Eigenschwingungen der Basilarmembran werden, wie in Abschnitt 3.3.1 und 3.3.3 gezeigt, in dem Modell tatsächlich unterdrückt. Erst wurden sie durch einen Klick, dann durch lautes Rauschen erzeugt, in beiden Fällen durch die vorgeschlagene Verschaltung aber drastisch reduziert. Die zur Anregung der Eigenschwingungen durch Rauschen notwendige Lautstärke zeigt jedoch, dass Rauschunterdrückung sicher nicht der originäre Zweck der Verschaltung sein kann. Denkbar wäre auch eine Regelung der Lautstärke. In den analytischen Rechnungen und auch in den numerischen Simulationen mit breiter Streuung der Inhibition haben wir gesehen, dass die durch einen einsetzenden Reinton hervorgerufene Aktivität durch den Mechanismus insgesamt reduziert wird, die Information der Schwingung, 51 52 KAPITEL 4. INTERPRETATION UND ANWENDUNG also das Charakteristikum des Tons, hingegen nicht beeinflusst wird. Reguliert wird also einzig die Lautstärke des Signals. Eine Lautstärkeregulierung möglichst früh im auditorischen System, also zum Beispiel im Nucleus Cochlearis, macht Sinn, da das Gehör mit Sicherheit auf die Wahrnehmung und Verarbeitung leiser Signale optimiert ist. Außerdem ist bekannt, dass die Aktivität im Gehirn im Allgemeinen eher gering ist ( sparse coding“). ” Eine aktive Lautstärkeregulation findet zwar schon im Mittelohr statt, die Zeitskala des akustischen Reflexes, der Versteifung der Hörknöchelchen, bewegt sich allerdings im Bereich von 2 - 10 ms. Die damit entstehende Lücke zwischen dem Beginn des Signals und dem Einsetzen des akustischen Reflexes würde genau durch die vorgeschlagene neuronale Unterdrückung geschlossen. Zusätzlich wird der dorsale Teil des Nucleus Cochlearis von Nerven aus höheren Zentren konnektiert, was theoretisch eine Steuerung der Lautstärkeanpassung durch höhere Zentren, wie sie auch für den akustischen Reflex vorliegt, ermöglicht. Ist eine solche Funktion des Mechanismus gegeben, spräche das klar für eine breite Streuung der Inhibition. Gehen wir von einem Mechanismus der Echounterdrückung aus, wäre hingegen eine wenig ausgeprägte Streuung der Inhibition naheliegend. Echos sind, wie bereits mehrmals erwähnt, stets frequenzspezifisch; plausibel für eine Echounterdrückung wäre also ebenfalls Frequenzspezifizität - falls sie ausschliesslich diese eine Funktion haben soll. Es ist aber nicht klar, ob eine Echounterdrückung frequenzspezifisch sein muss. So ist bekannt, dass Hörereignisse, die zum gleichen Zeitpunkt einsetzen, miteinander assoziiert werden. In einem Orchester beispielsweise spielen die verschiedenen Instrumente mit einem kleinen, vom Zuhörer nicht wahrgenommenen Versatz schlicht, weil die Musiker sonst die Stimme ihres eigenen Instrumentes nicht mehr identifizieren können. Wenn das auditorische System Signale, die genau zeitgleich einsetzen, grundsätzlich einer einzigen Quelle zuordnet, ist als Konsequenz die Unterdrückung von Echos nicht zwingenderweise frequenzspezifisch. Also ist es auch nicht nötig, im Modell an frequenzspezifischer Inhibition festzuhalten. Für die am leichtesten interpretierbaren Ergebnisse, das Verhalten für Klicks, macht es in den Simulationen keinen Unterschied, ob die Unterdrückung frequenzspezifisch oder über eine breite Streuung erfolgt. Für einen Reinton wird im Falle einer breiten Streuung die Aktivität insgesamt reduziert, die Phaseninformation des Tons bleibt jedoch vollständig erhalten. Für eine frequenzspezifische Inhibition gibt es hingegen keinen expliziten Grund. Wir kommen daher zu der Schlussfolgerung, dass der in dieser Arbeit beschriebene Mechanismus neuronaler Inhibition auf biologischer Ebene über eine breite Streuung 53 der Inhibition in Nachbarkanäle realisiert ist. Die erzielte Wirkung ist die einer monauralen Unterdrückung schneller Echos sowie eine Reduzierung der effektiven Lautstärke. Bezug zur Hörakustik und mögliche Anwendung Der von uns vorgestellte Mechanismus könnte in einigen Bereichen der Hörakustik Anwendung finden, so zum Beispiel aktuell in der elektronischen Spracherkennung, oder, damit verwandt, auch in Hörgeräten. Sowohl für elektronische Systeme als auch für schwerhörige Menschen ist es in Umgebungen mit vielen Reflexionen nicht leicht, speziell Sprache zu verstehen. Die Echos ’verwischen’ die Signale, was das Erkennen und Verstehen erschwert. In der Hörakustik beschäftigt man sich schon seit langem mit diesem Problem. So bestand die erste Generation von Hörgeräten noch aus rein analogen Verstärkern, die breitbandig die Lautstärke aller akustische Reize, eventuell mit besonderer Verstärkung im hohen, mittleren oder tiefen Frequenzbereich, angehoben haben. Dementsprechend wurden nicht nur Signale, sondern auch sämtliche Hintergrundgeräusche, insbesondere die Echos, mitverstärkt. Derartige Geräte waren in vielen Situationen nur bedingt hilfreich. Die zweite Generation, bereits auf digitaler Technik basierend, ermöglichte dann die gezielte Verstärkung ganz bestimmter Frequenzbereiche und damit ein erheblich differenzierteres Hörbild. Störgeräusche mit charakteristischen Frequenzen wie zum Beispiel Straßenlärm konnten so von der Verstärkung ausgenommen werden. Die dritte, aktuelle Generation der Hörgeräte sind elektronische Systeme von hoher Komplexität: mit bis zu drei Mikrophonen pro Ohr können sie Geräusche lokalisieren und auf Wunsch richtungsspezifisch verstärken, Sprache als solche erkennen und hervorheben, Windgeräusche unterdrücken, Rückkopplungen auslöschen und vieles mehr. Bei dem Lesen der Datenblätter dieser Hörgeräte wird einem bewußt, was für eine atemberaubende Entwicklung dieser Bereich in den letzten Jahrzehnten durchlaufen hat. In modernen Hörgeräten sind somit auch die technischen Voraussetzungen für die Implementierung einer Echounterdrückung erfüllt. Tatsächlich ist im Jahr 2005 von einem der weltweit führenden Hörgerätehersteller, der Schweizer Firma Phonak, das erste Hörgerät mit eingebauter Echounterdrückung vorgestellt worden. Es handelt sich um das Modell Savia“, die angesprochene Technologie läuft unter dem ” Namen Echoblock“. Ihre Funktionsweise ist, da weltweit einmalig, ein Betriebsge” heimnis. Anhand der öffentlich zugänglichen Information kann jedoch abgeschätzt werden, inwieweit Echoblock“ unserem Modell ähnelt und unseren Überlegungen ” 54 KAPITEL 4. INTERPRETATION UND ANWENDUNG so zusätzliches Gewicht verleiht. Abbildung 4.1: Auszug aus einem Prospekt über das System Savia der Firma Phonak. Originaluntertitel: Das Prinzip von EchoBlock. Der Nachhall wird erkannt ” und unterdrückt“. Die Aktivität klingt nach Ende des Signals asymptotisch ab, macht dann aber einen scharfen Knick und fällt schlagartig auf Null. Für unser Modell ist ein derartiger Knick nicht zu erwarten, die Aktivität wird nach Ende des Signals aber schneller als exponentiell auf Null fallen. Abbildung 4.1 zeigt schematisch die Funktionsweise des Systems Echoblock“. Auf” getragen ist offensichtlich der Schalldruck über der Zeit. Über eine gewisse, mit Signal“ unterschriebene Zeit ist der Schalldruck konstant, dann fällt der Schall” druck, vermutlich exponentiell, ab ( Nachhall-Ausläufer“). Hier greift EchoBlock“ ” ” und unterdrückt den langen Schwanz des Nachhalls. Für einen Vergleich mit unserem Modell müssen wir uns Gedanken über das Verhalten der von uns vorgeschlagenen Verschaltung bei einem abklingenden Ton machen. In diesem Zusammenhang ist eine Publikation aus dem Jahr 1960 interessant. Es handelt sich um eine Untersuchung von Stein, in der das Absinken der Mithörschwelle nach dem Abschalten von weissem Rauschen studiert wird [14]. Die Probanden hören zunächst einen 500 ms langen Rauschpuls. Nach Ende des Rauschens wird ihnen zu verschiedenen Zeitpunkten ein 30 µs-Klick vorgespielt. Aufgabe der Versuchspersonen ist es, die Lautstärke des Klicks so einzustellen, dass er gerade wahrnehmbar ist. Der Wert der Lautstärke, bei dem der Klick gerade wahrgenommen wird, heisst Mithörschwelle. Nicht überraschend ist, dass mit steigendem zeitlichen Abstand des Klicks die Mithörschwelle sinkt. Ungefähr 300 ms nach Ende des Rauschens wird die natürliche Hörschwelle der Klicks erreicht, ab diesem Zeitpunkt beeinflusst das vorhergehende Signal die Wahrnehmung also nicht mehr. Interessant 55 ist jedoch die Veränderung der Wahrnehmung innerhalb dieser ersten 300 ms: Bis 4 ms nach Ende des Rauschens bleibt die Mithörschwelle auf dem gleichen Pegel wie während des Rauschens, dann folgt ein Absinken der Mithörschwelle auf die natürliche Hörschwelle. Das Absinken folgt dabei keinem exponentiellen Gesetz, es ist wesentlich schneller. Während das schnelle Absinken nur Spekulationen über einen aktiven Mechanismus der Wahrnehmungsunterdrückung nährt, kann die Verzögerung des Absinkens nach Ende des Tones um 4 ms sehr leicht mit unserem Modell erklärt werden: Analog zu der Verzögerung der Inhibition zu Beginn eines Tones erfolgt ihr Abklingen mit Verspätung. Das Gleichgewicht zwischen Inhibition und Exzitation, das sich, wie im vorherigen Kapitel gesehen, bei einem anhaltenden Ton einstellt, wird bei dem Ende oder einer Abschwächung des Reintons gestört. Die Exzitation wird augenblicklich, die Inhibition jedoch mit Verzögerung abfallen. Aus der anhaltenden Inhibition folgt die von Stein beschriebene Verzögerung im Absinken der Mithörschwelle. Klingt das Signal langsam ab, wird es so zu einem bestimmten Zeitpunkt immer von der zu einem vorhergehenden und damit stärkeren Signal gehörenden Inhibition unterdrückt werden. Damit ist die Inhibition und folglich die Unterdrückung des Nachhalls überproportional stark. Wir sehen also, dass das Verhalten unseres Modells mit einem weiteren, gänzlich anderen psychophysikalischen Experiment übereinstimmt. Zusätzlich scheint der im Hörgerät der Firma Phonak Anwendung gefunden habende Algorithmus zur Echounterdrückung zumindest prinzipiell unserer Verschaltung ähnlich zu sein. Damit verstärken sich die für das vorgeschlagene Modell sprechenden Indizien, es ist aber auch möglich, dass der untersuchte Mechanismus bereits seinen Weg in die Anwendung gefunden hat. Bedenkt man nun einerseits, aus welchen Jahren die für die vorliegende Arbeit entscheidenden Publikationen stammen, nämlich 1960 (Harris et al.) und 1990 (Wickesberg und Oertel), als auch andererseits die äußerst überschaubare Architektur der untersuchten Verschaltung, stellt sich die Frage, ob bei einer mehr am biologischen Vorbild orientierten Forschung die Echounterdrückung ihren Weg nicht schon viel früher in Produkte des Alltags gefunden hätte. Am Beispiel der vorliegenden Arbeit wird damit ein weiteres Mal deutlich, wie fruchtbar es für Forschung und Entwicklung sein kann, sich an biologischen Lösungsstrategien zu orientieren. 56 KAPITEL 4. INTERPRETATION UND ANWENDUNG Kapitel 5 Zusammenfassung Zu Beginn dieser Arbeit wurde einleitend festgestellt, dass Echos nicht nur in den gemeinhin mit Echos assoziierten Umgebungen wie zum Beispiel Bergen existieren sondern Teil unseres Alltags sind. Gewöhnlich werden die Echos jedoch nicht bewusst wahrgenommen, da sie von unserem Nervensystem unterdrückt werden. Thema der Arbeit ist ein Mechanismus zur Unterdrückung von Echos, genauer ein neuronales Modell für die monaurale Echounterdrückung. Eine Reihe von psychophysikalischen Experimenten weist darauf hin, dass ein einsetzendes Signal, sei es nun Klick oder Reinton, eine Inhibition auslöst, die dann nachfolgende Reize unterdrückt. Diese Unterdrückung hat ihr Maximum einige Millisekunden nach Beginn des ersten Reizes. Basierend auf biologischen Forschungsergebnissen erstellen und untersuchen wir ein Modell, das eine mögliche neuronale Implementierung monauraler Echounterdrückung darstellt. Hierfür verwenden wir zwei verschiedene Typen von Neuronmodellen, einmal Poisson-Neurone, die nur entfernt biologischen Neuronen entsprechen, dafür aber eine analytische Lösung für die vorgeschlagene Verschaltung ermöglichen, und als zweites Spikes-Response-Neurone, die biologische Neurone sehr realistisch beschreiben, im Gegenzug aber numerische Simulationen erfordern. Untersucht wird das Verhalten für in verschiedenen Abständen aufeinander folgende Klicks und einsetzende Reintöne. Beginnen wir mit den analytischen Lösungen. Erwartungsgemäß werden Klicks, die anderen Klicks folgen, unterdrückt. Diese Unterdrückung ist maximal für Klickintervalle von einigen Millisekunden. Es zeigt sich, dass die charakteristische Zeit der Inhibition nicht nur Verzögerung und Dauer der Unterdrückung beeinflusst, sondern auch ihre Stärke. Auf einen einsetzenden Reinton reagiert das System zunächst mit einem Absinken der Feuerrate. Danach erklimmt die Aktivität ein mehr oder min57 58 KAPITEL 5. ZUSAMMENFASSUNG der ausgeprägtes Maximum, um dann auf einen Gleichgewichtswert zu fallen. Der zeitliche Verlauf der Unterdrückung wird hier von der charakteristischen Zeit der Inhibition nicht beeinflusst, wohl aber das Ausmaß der Unterdrückung. Der Gleichgewichtswert der Feuerrate ist im Vergleich zu dem Wert, der sich ohne Inhibition ergibt, erniedrigt. Essentiell ist, dass die vom Sinussignal verursachten Amplitudenschwankungen, das Charakteristikum des Tones, jedoch nicht vermindert werden. Die Phaseninformation wird also im analytisch lösbaren Modell vollständig erhalten. In den numerischen Rechnungen zeigt das Modell im Vergleich zu den analytischen Lösungen zumindest für Klicks fast identisches Verhalten. Auch hier werden Klicks von vorhergehenden Klicks unterdrückt, maximal ist die Unterdrückung für Klickintervalle von 2 - 3 ms. Die Variation eines im analytischen Teil nicht vorhandenen Parameters, der Streuung der Inhibition in benachbarte Frequenzen, zeigt hier noch keinen Einfluss auf das Verhalten des Modells. Für einen Reinton als Signal ändert sich das. Bei geringer Streuung der Inhibition wird hier ein Teil der Phaseninformation des Tonsignals unterdrückt. Bei großer Streuung der Inhibition in benachbarte Frequenzen wird die Phaseninformation, ähnlich den analytischen Lösungen, nicht reduziert. Sowohl die analytischen als auch die numerischen Ergebnisse stehen in Einklang mit den beschriebenen psychophysikalischen Experimenten. Klicks werden von vorhergenden Klicks unterdrückt, und zwar maximal bei einem Klickabstand von wenigen Millisekunden; Reintöne werden in den analytischen Lösungen kurz nach ihrem Beginn manipuliert, ihre Phaseninformation bleibt aber vollständig erhalten. Das gilt für die relevanten Parametersätze auch in den numerischen Rechnungen. In der Arbeit kommen wir zu dem Schluss, dass der untersuchte Mechanismus real existiert und seine Aufgabe sowohl die monaurale Echounterdrückung als auch eine Lautstärkeanpassung ist. Das klare Design macht das Modell für die Theorie ansprechend und für die Praxis verwertbar. Anhang A Nachtrag zu Kapitel 3.2.2 In diesem Anhang soll die aus Gründen der Übersichtlichkeit in Kapitel 3.2.2 nicht ausgeführte mathematische Darstellung der analytischen Lösung für einen schwingenden Reinton als Eingangssignal nachgeholt werden. In Kapitel 3.2.2 hatten wir einen einsetzenden Reinton mit folgender Inputfunktion beschrieben: Fin (t) = [ 1 − cos(ωt) ] Θ(t). (A.1) Aufgrund der Linearität des Poisson-Modells ist die gesuchte Lösung die Summe der Lösungen für eine Heaviside-Funktion und für eine negative Kosinusfunktion. Für eine bessere Übersichtlichkeit zerlegen wir die Lösung zudem in einen inhibitorischen und einen exzitatorischen Teil: λ2 (t) = λexzit. (t) + λinhib. (t) 2 2 Für den exzitatorischen Teil der Lösung ergibt sich 59 (A.2) 60 ANHANG A. NACHTRAG ZU KAPITEL 3.2.2 t−∆t02 1− τ 1 exzit. Θ(t − ∆t02 )+ = α J02 τexzit. e − (t − ∆t02 ) − e ( t−∆t02 e1 t − ∆t02 −τ exzit. + + α J02 2 2 − e 1 ω τexzit. +1 2 ω 2 τexzit. τexzit. 1 + − 1 cos ω(t − ∆t02 ) + 2 2 2 1 ω τexzit. +1 2 ω 2 τexzit. ) t−∆t02 1 2 −τ Θ(t − ∆t02 ). sin ω(t − ∆t02 ) − + − 1 e exzit. 2 ω τexzit. ω 2 τexzit. λexzit. (t) 2 (A.3) Hier ist der erste Term identisch mit dem exzitatorischen Teil der Lösung für eine Heaviside-Funktion als Input. Der zweite Term stammt aus der Integration über die Schwingung. Für den inhibitorischen Teil der Lösung gilt ebenfalls, dass der erste Summand identisch dem inhibitorischen Term der Lösung für eine Heaviside-Funktion ist. Die allgemeinere, also für verschiedene Relaxationszeiten von Inhibition und Exzitation gültige Lösung ist t−∆t τexzit. 2 2 1 t − ∆t012 2 2− τ 012 exzit. = α J01 J12 + + 2 + e τinhib. − e τinhib. a3 τexzit. a2 a τexzit. t−∆t012 2 1 t − ∆t012 2− + e τinhib. + − − (t − ∆t ) τ Θ(t − ∆t012 ) + 012 inhib. a3 τexzit. a2 a ( e2 1 1 2× + α J01 J12 2 − 1 ω τexzit. τinhib. τexzit. ω2 τ 2 +1 a exzit. t−∆t t−∆t 2 2 1 − τ 012 − τ 012 exzit. inhib. e 1+ +e t − ∆t012 − + 2 × 1 a a +1 2 ω 2 τexzit. 1 1 1 1 2 − 1 − 1 A (t) + A (t) − × 1 2 2 2 ω2 ω 2 τexzit. a2 ω 2 τexzit. ω 2 τexzit. ) h t−∆t012 i − τ Θ(t − ∆t012 ), (A.4) e inhib. a(t − ∆t012 ) − 1 + 1 λinhib. (t) 2 was sich im Fall identischer charakteristischer Zeiten für Inhibition und Exzitation zu 61 " λinhib. (t) 2 +e 2− 2 = α J01 J12 e τ − e t−∆t012 τ ( − 1 ω2 τ 2 2− t−∆t012 τ (t − ∆t012 )3 (t − ∆t012 )2 − 6τ 2 # (t − ∆t012 )τ − τ 1 6τ 2 +1 e− t−∆t012 τ 2 Θ(t − ∆t012 ) + α J01 J12 (t − ∆t012 )3 + + e2 × ω2 τ 2 1 2 × +1 ) t−∆t012 i × − 1 e− τ (t − ∆t012 )2 1 ω2 τ 2 h 1 1 2 1 1 − 1 A (t) + A (t) − 1 2 ω2 τ 2 ω2 ω2 τ 2 ω2 τ 2 Θ(t − ∆t012 ) (A.5) vereinfacht. Die Terme A1 (t) und A2 (t) sind dabei wie folgt definiert: A1 (t) = − t − ∆t012 τinhib. ω2 τ12 inhib. +1 e − t−∆t012 τinhib. + 1 1 2 ω 2 τinhib. +1 2 × 1 2 sin ω(t − ∆t012 ) − − 1 cos ω(t − ∆t012 ) + 2 2 ω τinhib. ω τinhib. t−∆t012 1 − − − 1 e τinhib. 2 ω 2 τinhib. (A.6) und 012 t − ∆t012 − t−∆t 1 A2 (t) = e τinhib. + × 2 2 a +1 ω (a + 1)2 t−∆t − τ 012 2 inhib. (a − 1) sin ω(t − ∆t012 ) − 2 a cos ω(t − ∆t012 ) + 2 a e , (A.7) wie in Kapitel 3.2.2 gilt a= 1 τexzit. − 1 τinhib. . (A.8) 62 ANHANG A. NACHTRAG ZU KAPITEL 3.2.2 Wir sehen, dass die Lösung sehr unübersichtlich ist. Es stellt sich jedoch heraus, dass viele Terme nur wenig zum Verlauf der Lösung beitragen. Die Lösung verhält sich näherungsweise wie die Summe aus der Lösung für eine Heaviside-Funktion und der negativen Kosinusfunktion. Literaturverzeichnis [1] Jens Blauert, Spatial Hearing, MIT Press Cambridge, Massachusetts (1999) [2] R.K. Clifton, Breakdown of echo suppression in the precedence effect, Journal of the Acoustical Society of America 82 (1987) 1834-1835 [3] G.M. Edelman, Auditory function, Wiley New York (1988) [4] R.L. Freyman, R.K. Clifton and R.Y. Litovsky, Dynamic processes in the precedence effect, Journal of the Acoustical Society of America 90 (1991) 874884 [5] M.B. Gardner, Historical Background of the Haas and/or Precedence Effect, Journal of the Acoustical Society of America 43 (1968) 1243-1248 [6] H. Haas, Über den Einfluss des Einfachechos auf die Hörsamkeit von Sprache, Acustica 1 (1951) 49-58 [7] E.R. Hafter and R.H. Dye, Detection of interaural differences of time in trains of high frequency clicks as a function of interclick interval and number, Journal of the Acoustical Society of America 73 (1983) 644-651 [8] E.R. Hafter and E.M. Wenzel, Lateralization of transients presented at high rates: site of the saturation effect, Hearing - physiological basis and psychophysics, edited by R. Klinke and R. Hartman, Springer Berlin (1983) 220-208 [9] E.R. Hafter et al., Onset coding in lateralization: Its form, site and function, Auditory function, edited by G.M. Edelman, Wiley (1988) 647-674 [10] G.G. Harris, J.L. Flanagan and B.J. Watson, Binaural Interaction of a Click with a Click Pair, Journal of the Acoustical Society of America 35 (1963) 672678 63 64 LITERATURVERZEICHNIS [11] J.L. van Hemmen, Theory of Synaptic Plasticity, Handbook of Biological Physics (Vol.4), Neuro-informatics, Neural Modelling, Elsevier Amsterdam (2001) [12] R. Klinke, Hearing, Springer Berlin (1983) [13] B. Rakerd and W.M. Hartmann, Localization of sound in rooms: III. Onset and duration effects, Journal of the Acoustical Society of America 78 (1986) 1695-1706 [14] H.J. Stein, Das Absinken der Mithörschwelle nach dem Abschalten von weissem Rauschen, Acustica 10 (1960) 116-119 [15] R.E. Wickesberg and D. Oertel, Tonotopic projection from the dorsal to the anteroventral cochlear nucleus of mice, Journal of Comparative Neurology 268 (1988) 389-399 [16] R.E. Wickesberg and D. Oertel, Delayed, Frequency-Specific Inhibition in the Cochlear Nuclei of Mice: A Mechanism for Monaural Echo Suppression, Journal of Neuroscience 10 (1990) 1762-1768 [17] W.A. Yost, Fundamentals of hearing, Academic Press San Diego (1994) [18] P.M. Zurek, The precedence effect and its possible role in the avoidance of interaural ambiguities, Journal of the Acoustical Society of America 67 (1980) 952-964 [19] E. Zwicker, Psychoacoustics, Springer Berlin (1999)