Zufällige Graphen
Transcrição
Zufällige Graphen
Zufällige Graphen SS 2009 Inhaltsverzeichnis 1 Einleitung und grundlegende Definitionen 1 2 Die Gradfolge 4 3 Schwellenfunktionen und Teilgraphen 15 4 Asymptotische Verteilungen 29 5 Verzweigungsprozesse 54 6 Der Poisson-Verzweigungsprozess 65 7 Der Phasenübergang im Erdös-Rényi-Graph 75 8 Der kritische Erdös-Rényi-Graph 95 9 Der Zentrale Grenzwertsatz für die riesige Komponente 100 10 Inhomogene Zufallsgraphen 106 2 1 Einleitung und grundlegende Definitionen Diese Vorlesung beschäftigt sich mit der Theorie zufälliger Graphen. Darunter wollen wir die Mengen aller Graphen auf einer Vertexmenge, versehen mit einem Zufallsmechanismus, verstehen. Es bietet sich an, zunächst zu definieren, was ein Graph ist. Definition 1.1 Ein Graph G ist ein Tupel (V, E). Dabei ist V eine Menge von Punkten, die man Knoten oder Vertices nennt. E ist entweder eine Teilmenge der Menge {(i, j) : i, j ∈ V }, in welchen Fall man von eiem gerichteten Graphen spricht, oder {{i, j} : i, j ∈ V }; dies ist der Fall eines ungerichteten Graphen. Wir werden in dieser Vorlesung ausschließlich mit dem ungerichteten Fall befasst sein. Beim Zufallsgraphen unterscheidet man nun zwischen verschiedenen Modellen. Dabei ist ein Modell durch die Wahrscheinlichkeit bestimmt, mit der bestimmte Teilgraphen ausgewählt werden. Da wir V für gewöhnlich endlich wählen, müssen (und werden) wir uns um die Wahl einer σ-Algebra keine Bedanken machen: Wir nehmen einfach die Potenzmenge der Menge aller möglichen Kanten. Definition 1.2 Es sei V eine höchstens abzählbare Menge von Vertices. Ein Zufallsgraphenmodell ist ein Wahrscheinlichkeitsmaß P auf der Menge V := {{i, j} : i, j ∈ V }. 2 Beispiel 1.3 a) Das wohl bekannteste Modell ist der sogenannte Erdös-Rényi-Graph G(n, p). Hierbei ist V = {1, . . . , n}. Das Maß P wählt alle Kanten i.i.d. mit Wahrscheinlichkeit p, also hat jeder Graph n G = (V, E) mit |E| = k, 0 ≤ k ≤ n2 die Wahrscheinlichkeit P(G) = pk (1 − p)( 2 )−k aufzutreten. b) Eng verwandt mit dem Erdös-Rényi-Graphen ist das Modell G(n, M). Wieder wählen wir als V = {1, . . . , n}. Über V wählt man jede Eckenmenge E mit |E| = M mit gleicher Wahrscheinlichkeit, also 1 1l . (n2 ) {|E|=M } P(G) = M 1 c) (Perkolation) Eine geometrisch geordnete Version des Erdös-Renyi-Graphen ist das Perkolationsmodell. Hierbei nimmt man ein zumeist regelmäßiges Gitter, oft den Zd , d ≥ 1, löscht Kanten daraus mit Wahrscheinlichkeit 1 − p und behält sie mit Wahrscheinlichkeit p bei – dies unabhängig für alle Kanten. Man kann sich natürlich fragen, wozu man Zufallsgraphen betrachtet. Wir werden zumeist den Standpunkt vertreten, dass es sich bei Zufallsgraphen um interessante mathematische Objekte handelt, die bei unterschiedlicher Parameterwahl einen Wechsel im Verhalten zeigen, einen sogenannten Phasenübergang. Darüber hinaus sind einzige Zufallsgraphen gute und handhabbare Modelle für nicht-mathematische Phänomene, etwa: • poröse Medien • soziale Strukturen • Internet uvm. Die erstmalige Einführung von Zufallsgraphen geht allerding auf Paul Erdös zurück, der sie als eine neue Beweistechnik, die probabilistische Methode, in die Graphentheorie einführte: Beispiel 1.4 Ein Km , m ≥ 2, ist ein vollständiger Graph auf m Kanten. In der Graphentheorie sind nun die Ramsey-Zahlen bekannt geworden. Wir sagen, dass die (k, l)’te Ramseyzahl R(k, l) = n ist, wenn jede Färbug der Kanten des kn mit blau und rot immer entweder einen blauen Kl oder einen roten Kl liefert. Beispielsweise ist R(2, 2) = 2, weil man die eine Kante zwischen den beiden Punkten entweder rot oder blau färben muss. Man sieht auch sofort, dass R(m, 2) = R(2, m) = m gilt, denn entweder ist eine Kante rot (bzw. blau) gefärbt oder man hat einen blauen (bzw. roten) Km . Die Frage nach anderen Ramsey-Zahlen R(k, l) ist aber schwierig, insbesondere ist für die Diagonalzahlen R(k, k) nur wenig bekannt: Man weiß, dass R(3, 3) = 6 und R(4, 4) = 18 gilt. Für R(5, 5) ist bekannt, dass 43 ≤ R(5, 5) ≤ 49 gilt und ähnlich 102 ≤ R(6, 6) ≤ 165. Von Erdös ist die Anekdote überliefert, dass wir, falls uns eine weit überlegene außerirdische Macht angriffe und drohte, die Welt zu zerstören, falls wir nicht R(5, 5) angeben können, alles daran setzen sollten, alle Computer und Wissenschaftler, die wir besitzen, um R(5, 5) zu berechnen. Sollten die Aliens allerdings R(6, 6) willen wollen, so sollten wir versuchen, sie zu zerstören. Die probabilistische Methode gibt nun eine Möglichkeit, eine untere Schranke für R(k, k) zu berechnen (dass R(l, l) für alle k, l endlich ist, zeigte Ramsey 1929). Es gilt R(k, k) ≥ 2k/2 . Dieses Resultat geht auf Erdös (1947) zurück. 2 Beweis: Da R(2, 2) = 2 und R(3, 3) = 6 gilt, nehmen wir k ≥ 4 an. Sei N < 2k/2 . Wir färben alle Kanten unabhängig mit Wahrscheinlichkeit 12 rot oder blau. Also hat jede n Färbung die Wahrscheinlichkeit 2−( 2 ) . Sei A ⊂ {1, . . . , n}, |A| = k. Sei AR = {Die Farbe jeder Kante in A ist rot}. Also ist k P(AR ) = 2−(2) . Damit folgt P(∃A ⊆ {1, . . . , n}, |A| = k, A ist rot gefärbt) [ X = P AR ) ≤ P(AR ) |A|=k N −k 2 2. = k |A|=k Nun lässt sich zeigen (einfache Übung) Nk N ≤ k−1 . 2 k Da außerdem N < 2k/2 und k ≥ 4 vorausgesetzt war, folgt k k k2 k Nk N −(k2) 1 ≤ k−1 2−(2) < 2 2 −(2)−k+1 = 2− 2 +1 ≤ . 2 k 2 2 Aus Symmetriegründen folgert man analog 1 P(∃A : |A| = k, A ist blau gefärbt) < . 2 Somit ist P(∃A : |A| = k, A ist entweder ganz rot oder ganz blau gefärbt) < 1. Also gibt es Färbungen, bei denen |A| = k auftreten, die beide Farben tragen. 2 Die probabilistische Methode hat heutzutage in viele Gebiete Einzug gehalten (vgl. das Buch von Noga Alon und Joel Spencer). Im Laufe dieser Vorlesung werden wir zunächst (und vielleicht ausschließlich) mit den Modellen G(n, p) und G(n, M) beschäftigt sein. Dabei werden verschiedene Aspekte dieser Modelle betrachtet. Für manche wird es wichtig sein, den festen Wahrscheinlichkeitsraum G(n, p) bzw. G(n, M) zu betrachten. Bei anderen werden wir eher einen Prozessaspekt betrachten, also beispielsweise einen Graphen allmählich mit Kanten füllen und daher zueinander passende Realisierungen von (G(n, M))0≤M ≤(n) betrachten. Beide Gesichts2 punkte illustrieren unterschiedliche Phänomene der Zufallsgraphen. 3 2 Die Gradfolge Definition 2.1 Es sei G = (V, E) ein Graph und v ∈ V . Der Grad v, deg(v), ist definiert als die Anzahl aller Nachbarn von v: deg(v) = |{w : {v, w} ∈ E}|. Die Folge der Grade ist eine der wichtigsten Charakteristika eines Graphen. Mit ihr wollen wir uns in diesem Abschnitt befassen. Dabei legen wir stets das Modell G(n, p) zugrunde. Sei also G ∈ G(n, p) (womit wir meinen, der Graph G wird gemäß G(n, p) gezogen). Sei (di )ni=1 die Folge der Grade der Vertices, die wir schon in absteigender Reihenfolge sortiert haben, also d1 ≥ d2 ≥ . . . ≥ dn . Den maximalen Grad d1 und den minimalen Grad dn bezeichnen wir auch mit ∆(G) bzw. δ(G). Es sei Xk (G) die Anzahl der Knoten in G mit Grad genau k, Yk sei die Anzahl der Knoten mit Grad mindestens k und Zn die Anzahl an Vertices mit Grad höchstens k, also X X Yk = Xk und Zk = Xl . l≥k l≤k Offenbar ist dr ≥ k ⇔ Yk ≥ r und dn−r ≤ k ⇔ Zk ≥ r + 1. Wir beginnen mit einem langweiligen Fall. Proposition 2.2 Falls p = o(n−3/2 ), so besteht G aus unabhängigen (unverbundenen) Kanten. Beweis: Es gilt EY2 n X n−1 X n−1 j p = EXj ≤ n j j=2 j=2 ≤ n· n−1 X (pn)j j=2 j! = o(1), aufgrund der Voraussetzung. 2 Gilt zudem pn2 → 0, so gibt es in G asymptotisch P-f.s. gar keine Kanten, d. h. P(G hat Kanten) → 0, 4 ist pn2 → ∞, aber p = o(n−3/2 ), so gibt es ein M, so dass d1 = . . . = d2M = 1 und d2M +1 = . . . = dn = 0 gilt. M ist dabei von der Größenordnung p n2 ∼ pn2 /2. Mehr gibt es in diesem Fall kaum zu sagen, daher nehmen wir von nun an p ≫ n−3/2 an (wobei wir a(n) ≫ b(n) schreiben, wenn b(n) = o(a(n)) gilt). Satz 2.3 Sei ε > 0 fest und εn−3/2 ≤ p = p(n) ≤ 1 − εn−3/2 . Es sei k = k(n) ∈ N. Setze λk = λk (n) = nB(k; n − 1, p). Dann gilt: (i) Falls limn→∞ λk (n) = 0, dann ist lim P(Xk = 0) = 1. (ii) Falls limn→∞ λk (n) = ∞, dann ist lim P(Xk ≥ t) = 1 ∀ t fest. (iii) Falls 0 < lim λk (n) = lim λk (n) < +∞, dann ist Xk asymptotisch Poi(λk )-verteilt. Beweis: OBdA sei ρ ≤ 21 . Bemerke, dass λk = nB(k; n − 1, p) = EXk . Daher: Daraus folgt (i). P(Xk ≥ 1) ≤ EXk = λk (n). Sei also von nun an lim λk (n) > 0. Wir zeigen nun, dass für jedes r ≥ 1, das r-te faktorielle Moment von Xk Er Xk := EXk (Xk − 1) . . . (Xk − r + 1) (2.1) asymptotisch wie λrk (n) geht. Da Xk die Anzahl der Vertices vom Grad k ist, ist Er Xk die erwartete Anzahl geordneter r-Tupel von Vertices vom Grad k. Um also Er Xk zu berechnen, fragen wir nach der Wahrscheinlichkeit, dass gegebene Knoten x1 , . . . , xr allesamt den Grad k haben. Dazu betrachten wir zunächst die Kanten, die die x1 , . . . , xr untereinander verbinden. Wir nehmen an, dass es l solcher Kanten gibt, und dass xi zu d˜i ≤ k der x1 , . . . , xr verbunden ist, dann folgt r X d˜i = 2l i=1 5 und xi muss mit k− d˜i der Knoten verschieden von x1 , . . . , xr verbunden werden. Aufgrund der Unabhängigkeit der Kanten hat dieses Ereignis die Wahrscheinlichkeit r Y i=1 B(k − d˜i ; n − r, p). Wir unterscheiden zwei Fälle: Zum einen sei (p(n)) von 0 weg beschränkt. Dann folgt aus lim λk (n) > 0, dass die relevanten Werte k(n) von der Ordnung pn sind, z. B. 1 3 pn ≤ k(n) ≤ pn 2 2 (dies lässt sich schon aus der Chebyshev-Ungleichung ablesen, genauer gilt sogar p k(n) = pn + O(n log n), wie man aus dem Gesetz vom iterierten Logarithmus erkennt). Hieraus leitet man ab (Übung), dass es eine Funktion φr (n) mit limn→∞ φr (n) = 0 gibt, so dass B(k − d, n − r, p) ≤ φr (n) − 1 B(k; n − 1, p) für alle festen r und d gilt. Aus (2.1) folgt dann Er (Xk ) ∼ (n)r B(k; n − 1, p)r ∼ λrk (wobei (n)r := n(n − 1) . . . (n − r + 1)). Der zweite Fall ist, dass p = o(1) gilt. Dann schätzen wir Er Xk folgendermaßen ab: Er Xk ≤ (n)r R X R l=0 l l R−l pq Pmax d∗i =2l r Y i=1 B(k − d∗i ; n − r, p), (2.2) wobei (n)r die Auswahlmöglichkeiten für die xi beschreibt, R = r2 und q = 1 − p ist, die Summe für die inneren und das Maximum für die äußeren Verbindungen steht. Es wird hierbei natürlich über alle d∗i mit d∗i ≤ min{r − 1, k} maximiert. Da lim λk (n) > 0 und p = o(1) gilt, folgt k(n) = o(n) für alle relevanten k. Ist also 0 ≤ d ≤ min{r − 1, k(n)} und ist n genügend groß, so folgt d B(k − di n − r, p) (k)d k −d ≤ p <2 n . b(K, N − R, P ) (n − r − k)d p Also folgt aus (2.2) 2l ) R X k R pl 2 r Er (Xk ) ≤ nr B(k, n − r, p)r 1 + pn l l=1 ) ( R 2 l X k 2 . ≤ nr B(k, n − r, p)r 1 + 2r 2 pn l=1 ( 6 (2.3) Die Annahme, dass lim λk (n) > 0 impliziert, dass k 2 = o(pn2 ). Wäre nämlich für ein √ η > 0 k ≥ η pn für beliebig große n, so folgte en k n k pk p ≤ lim n lim λk (n) ≤ lim n k k epn k = lim n k √ η√pn e p ≤ lim n η ≤ lim n2−n 1/5 = 0, im Gegensatz zur Annahme. Da k 2 = o(pn2 ), folgt aus (2.3) Er Xk ≤ nr B(k, n − r, p)r {1 + o(1)} = λrk {1 + o(1)}. Betrachtet man nur unabhängige, d. h. unverbundene, Vertices, so ergibt sich Er Xk ≥ q R (n)r B(k, n − r, p)r = λrk {1 + o(1)}, da q → 1 konvergiert. Also gilt Er Xk ∼ λrk . Berechnet man umgekehrt das r-te faktorielle Moment einer Poi(λk )-verteilten Zufallsvariablen Y , so ergibt sich Er Y ∼ λrk . (Übung) Gilt nun lim λk (n) = +∞, dann folgt aus E2 (Xk ) ∼ λ2k auch EXk2 = λ2k (1 + o(1)). Mithilfe der Chebyshev-Ungleichung ergibt sich lim P(Xk ≥ t) = 1 n→∞ für jedes feste t. Gilt schließlich lim sup λk < +∞, so folgt die Behauptung aus dem untenstehenden Satz 2.4 und Er (Xk ) ∼ λrk . 2 Satz 2.4 Sei λ = λ(n) eine nicht-negative beschränkte Funktion auf N. Seien X1 , X2 , . . . ganzzahlige Zufallsvariablen, so dass lim (Er (Xn ) − λr ) = 0 r = 0, 1, . . . . n→∞ Dann gilt auch dT V (PXn , Pλ ) → 0 für die totale Variationsdistanz dT V . 7 Beweis: Siehe Bollobas, Random Graphs, Theorem 1.22. 2 Man kann den Beweis von Satz 2.3 so modifizieren, dass man entsprechende Resultate für Yk und Zk erhält: Satz 2.5 Sei ε > 0 und εn−3/2 ≤ p(n) =: p ≤ 1 − εn−3/2 und sei k = k(n) ∈ N. Setze µk = nB̄(k, n − 1, p) und wobei B̄(l, m, p) = νk = n(1 − B̄(k + 1, n − 1, p)), X B(j; m, p). j≥l Dann gelten die Behauptungen aus Satz 2.3, wenn wir Xk und λk durch Yk und µk oder Zk und νk ersetzen. Dieses Resultat erlaubt es uns, die ersten und letzten Elemente der Gradfolge in Verteilung zu bestimmen. Ein paar Resultate für moderat große Werte von p sehen folgendermaßen aus: Satz 2.6 Sei p = p(n) so dass p(1 − p) → ∞. (log n)3 Seien c > 0 und m ∈ N fest und x = x(c, n) so, dass Z ∞ 2 n· e−y /2 dy = c, x d. h. approximativ für großes x, 1 n −x2 /2 √ e = c. 2π x Dann gilt lim P(dm < pn + x(pqn) n→∞ 1/2 −c )=e m−1 X k=0 mit q := 1 − p. Beweis: Setze K := ⌈pn + x(pqn)1/2 ⌉. Dann ist dm < pn + x(pqn)1/2 8 ck k! gleichbedeutend damit, dass höchstens m − 1 Vertices mindestens Grad K haben. Also: YK ≤ m − 1. Gemäß Satz 2.5 konvergiert die Verteilung von YK gegen P oi(µK ), wobei µK := nB̄(K; n − 1, p) ist. Nach Definition x gilt: x(pqn)1/2 = o((pqn)2/3 ). Aus dem Satz von de Moivre-Laplace folgt daher c · n = c. µK ∼ n Daraus folgt der Satz. 2 √ Der Wert von x in diesem Satz ist ungefähr 2 log n für jedes c. Außerdem gilt √ log log n log(2 π) 1 1/2 1− . x(1, n) = (2 log n) +o √ − 4 log n 2 log n log n Also gilt für jedes δ = o(1), dass x′ = x(1, n) + δ zu einem Wert c′ ∼ exp(−(2 log n)1/2 δ) gehört. Somit lässt sich Satz 2.6 auch schreiben als Satz 2.7 Sei pqn (log n)3 → ∞ und y ∈ R fest. Dann gilt √ m−1 X e−ky p log log n log(2 π) y −y lim P dm < pn + 2pq log n 1 − = e−e − + . n→∞ 4 log n 2 log n 2 log n k! k=0 Betrachtet man d1 , so erhält dieses Resultat eine aus der Extremwerttheorie sehr bekannte Form. Korollar 2.8 Sei pqn (log n)3 → ∞ und y ∈ R fest. Dann gilt für den Maximalgrad ∆ = d1 √ p log log n log(2 π) y −y lim P d1 < pn + 2pq log n 1 − = e−e . − + n→∞ 4 log n 2 log n 2 log n Für p-Werte, die sehr nahe bei 0 oder 1 sind, lassen sich noch aus Satz 2.4 über den maximalen und minimalen Grad ableiten. Der Beweis des folgenden Satzes ist eine (etwas längere) Übung. Satz 2.9 Seien k, x und y fest, k ≥ 2, x > 0 und y ∈ R. Falls p ∼ x n− 9 k+1 k ist, dann folgt P(∆(G) = k) → 1 − e−x und P(∆(G) = k − 1) → e−x Falls p≈ k /k! . (log n + k log log n + y) n gilt, so folgt P(δ(G) = k) → 1 − e− und k /k! P(δ(G) = k + 1) → e−e e−y k! −y/k! . Wir wollen uns nun fragen, ob es eine Art Gesetz der großen Zahlen gibt, also Werte von p, für die für fast alle G ∈ G(n, p) der Maximalgrad derselbe ist. Ähnliches lässt sich natürlich auch für den Minimalgrad fragen. Schließlich können wir auch die Frage untersuchen, ob die Knoten maximalen (oder minimalen) Grades eindeutig sind. Diese Analyse basiert auf Satz 2.3. Zunächst zeigen wir, dass, falls fast alle G ∈ G(n, p) den gleichen Maximalgrad haben, p = o( logn n ) gilt. Wir werden auch sehen, dass diese Bedingung beinahe hinreichend ist. Satz 2.10 Sei p ≤ 12 . Angenommen, es gibt eine Funktion D(n), so dass in G(n, p) gilt lim P(∆(G) = D(n)) = 1. n→∞ Dann folgt p=o log n n . Beweis: Nach Satz 2.3 müssen wir lim nB(D; n − 1, p) = +∞ n→∞ und lim nB(D + 1; n − 1, p) = 0 n→∞ haben, um das gewünschte Resultat zu erzielen. Daher gilt B(D + 1; n − 1, p) p(n − D − 1) = lim = 0, n→∞ n→∞ (1 − p)(D + 1) B(D; n − 1, p) lim → 0, da n − D − 1 nicht gegen 0 geht und 1 − p auch nicht gegen ∞. Unter also pn D Ausnutzung von nB(D; n − 1, p) = +∞ erhalten wir, dass auch für jedes c > 1 lim nB(⌈cpn⌉, n − 1, p) = +∞ 10 gilt (denn c np → 0). Also: D lim n n→∞ epn cpn cpn = lim n n→∞ e cpn c = +∞ Dies ist für alle c > 0 nur möglich, wenn p = o( logn n ) ist. 2 Satz 2.11 Sei p = o( logn n ) und k = k(n) ≥ pn so, dass max{λk (n), λk (n)−1 } minimal ist. Dann gilt: (i) Ist 0 < lim λk (n) ≤ lim λk (n) < ∞, dann ist P(∆(G) = k(n)) ∼ 1 − e−λk (n) und P(∆(G) = kn (n) − 1) ∼ e−λk (n) . (ii) Gilt lim λk (n) = +∞, so hat G P-f.s. maximalen Grad k(n) und gilt lim λk (n) = 0, dann hat G P-f.s. maximalen Grad k(n) − 1. Beweis: Man rechnet nach, dass pn λk+1 k ∼ → ∞, →0 pn λk k+1 und λk pn ∼ →0 λk−1 k gilt. Also gilt λk+1 → 0 und λk−1 → ∞. Nach Satz 2.3 bedeutet λk−1 → ∞, dass G P-f.s. einen Vertex mit Grad k(n) − 1 enthält. Also ist der Maximalgrad von G mindestens k(n) − 1. Darüber hinaus gilt P(∆(G) ≥ k + 1) = P( n−1 X j=k+1 Xj ≥ 1) ≤ E n+1 X EXj = O(λk+1) = o(1). j=k+1 Also ist der Grad von G P-f.s. k(n) − 1, es sei denn es gibt einen Knoten vom Grad k(n), in diesem Fall ist der Maximalgrad k(n). P(∆(G) = k(n)) ∼ P(Xk ≥ 1) und P(∆(G) = k(n) − 1) ∼ 1 − P(∆(G) = k(n)). Schließlich kennen wir das Verhalten von P(Xk ≥ 1) aus Satz 2.3. 2 Für p ≤ 21 ist das Verhalten des Minimalgrades etwas anders als das des Maximalgrades. Es gelten die folgenden Sätze: 11 Satz 2.12 (i) Sei p ≤ 12 . Angenommen, es gebe eine Funktion d(n), so dass in G(n, p) lim P(δ(n) = d(n)) = 1 n→∞ gilt. Dann folgt p ≤ (1 + o(1)) log n/n. (ii) Gilt p ≤ (1+o(1)) logn n , dann gibt es eine Funktion d(n), so dass δ(n) P-f.s. entweder d(n) oder d(n) − 1 ist. Beweis: (i) Wir schreiben als p = log n+ω(n) . n Ist dann ω(n) = o(log n), so ist n λ0 = nB(0, n − 1, p) = n(1 − p)n−1 ∼ e−ω(n) = e−ω(n) . n Dann folgt aber mit Satz 2.3, dass G P-f.s. einen isolierten Knoten hat, wenn ω(n) → für eine Konsante C gilt. −∞ geht. Daher können wir annehmen, dass p ≥ log n+C n Wie im Beweis von Satz 2.10 sieht man ein, dass, falls lim P(δ(n) = d(n)) = 1 n→∞ gilt, für jedes feste ε mit 0 < ε < 21 , gilt εpn e √ 2 pεpn e−pn+p εn → ∞. n εpn εp Also: 1 1 log pn + pn(ε + ve log + ε − 1) → ∞. 2 ε Da dies für beliebig kleine ε > 0 gilt, folgt, dass log n log n . +o p≤ n n log n − (ii) Geht wie im Beweis von Satz 2.11. 2 Wir wenden uns nun der Eindeutigkeit des Vertex mit maximalem Grad zu: Satz 2.13 (i) Sei p ≤ 1 2 und pn → ∞, log n dann hat P-f.s. G einen eindeutigen Knoten von maximalem Grad und einen eindeutigen Knoten von minimalem Grad. (ii) Ist p ≤ 21 und hat P-f.s. G einen endeutigen Knoten von maximalem und einen eindeutigen Knoten von minimalen Grad, dann gilt pn → ∞. log n 12 Beweis: (i) Sei k maximal mit n· Man überprüft schnell, dass n−1 X l=k B(l, n − 1, p) ≥ 1. k > pn, k ∼ pn, nB(k − 1; n − 1, p) → 0 und B(k; n − 1, p) →1 B(k − 1; n − 1, p) gilt. Also kann man l = l(n) so wählen, dass pn < l < k und nB(l, n − 1, p) → 0 n−1 X B(l, n − 1, p) → ∞ und n k=l gilt. Variiert man l so, dass dies wahr bleibt, kann man ein m, pn < m < k finden, so dass n−1 X n B(i; n − 1, p) → ∞ und n k=m n−1 X i=m B(i, n − 1, p)nB(m; n − 1, p) → 0 gilt. Wir behaupten nun, dass P-f.s. einen, aber nur einen Knoten vom Grad mindestens m gibt. Dies folgt, da die erwartete Anzahl von Knoten vom Grad m E[Ym ] = n n−1 X i=m B(i; n − 1, p) ist. Also gilt E[Yn ] → ∞. Aus Satz 2.4 folgt daher, dass ∆(G) ≥ m P-f.s. Andererseits berechnet sich die Wahrscheinlichkeit, dass zwei Vertices den gleichen Grad von mindestens m haben als X X P[Xj ≥ 2] ≤ E2 (Xj ) j≥m j≥m (wobei E2 das 2te faktorielle Moment bezeichnet). Nun gilt X X E2 (Xj ) = n(n − 1)(pB(j − 1, n − 2, p)2 + (1 − p)B(j; n − 2, p)2 ) j≥m j≥m ≤ X j≥m n2 B(j; n − 2, p)2 ≤ nB(m − 1; n − 2, p)n ∼ nB(m, n − 1, p)n Also P j≥m P(Xj X j≥m X j≥m−1 B(j; n − 2, p) B(j; n − 1, p) → 0. ≥ 2) → 0. Dies beweist die Behauptung. 13 (ii) Ist eine Übung. 2 Das Gesamtbild ist also dieses: • Ist p = 0( logn n ), so sind Minimal- und Maximalgrad P-f.s. festgelegt (und es gibt mehrere Vertices von diesem Grad). • Ist ε logn n ≤ p ≤ (1 + o(1)) logn n für ein ε > 0, so ist der Minimalgrad festgelegt (und es gibt viele Knoten von diesem Grad), wäahrend das Maximalgrad nicht mit Wahrscheinlichkeit 1 konzentriert ist. • Ist (1 + ε) logn n ≤ p ≤ C logn n für ε0, C > 0, dann sind weder Maximal- noch Minimalgrad f.s. festgelegt. pn → ∞, p ≤ • Scließlich ist für log n bzw. minimalem Grad. 1 2 P-f.s. ein eindeutiger Knoten von maximalen 14 3 Schwellenfunktionen und Teilgraphen Einer der bemerkenswertesten Entdeckungen von Erdös und Rény bei der Untersuchung von Zufallsgraphen ist das Auftreten von Schwellen. Damit meinen wir, dass für viele Eigenschaften eines Zufallsgraphen sich die Wahrscheinlichkeit ihres Auftretens in einem sehr kleinen Fenster von 0 auf 1 (oder 1 auf 0) ändert, wenn man p varriiert. Definition 3.1 Wir nennen A eine wachsende Eigenschaft (und schreiben G ∈ A, wenn der G die Eigenschaft A hat), falls p → P[G ∈ A] wachsend ist. Ist p 7→ P[G ∈ A] fallend, so heißt A fallend. Bemerkung: Diese Definition ist ursprünglich nur eine Folgerung aus der ursprünglichen Definition, die besagt, dass für G ∈ A und G′ ⊇ G auch G ∈ A gilt. Definition 3.2 p̂ = p̂(n) heißt Schwellenfunktion für die wachsende Eigenschaft A, falls P[G ∈ A] → Dabei schreiben wir p ≪ p̂, falls und p ≫ p̂, falls 0, falls p ≪ p̂(n) . 1, falls p ≫ p̂(n) p(n) →0 p̂(n) p(n) →∞ p̂(n) gilt. Ähnliches ließe sich auch im Modell G(n, M) definieren, aber wir werden in Rahmen dieser Vorlesung zunächst beim Modell G(n, p) verharren. Wir zeigen zunächst Satz 3.3 Jede monotone Eigenschaft hat eine Schwellenfunktion. Beweis: OBdA sei A eine monoton wachsende Grapheneigenschaft. Sei 0 < ε < 1 und m ∈ N mit (1 − ε)m ≤ ε. Sei p so klein, dass P(G ∈ A) ≤ ε in G(n, p). Betrachte unabhängige Kopien G(1) , . . . , G(m) von G ∈ G(n, p) auf derselben Knotenmenge. Ḡ sei ihre Vereinigung. Beachte, dass Ḡ ∈ G(n, p′ ) mit p′ = 1 − (1 − p)m ≤ mp gilt. Daher gilt P(G(1) ∪ . . . ∪ G(m) ∈ A) ≤ P(Gmp ∈ A). 15 Andererseits ist A wachsend und daher hat G(1) ∪ . . . ∪ G(m) die Eigenschaft A, falls G(i) ∈ A für irgendein i gilt. Daher folgt P[G(1) ∪ . . . ∪ G(m) ∈ / A] ≤ P[G(i) ∈ / A für jedes i] = (1 − P[G ∈ A])m = (1 − ε)m ≤ ε. Also gilt P(Ḡ ∈ A) ≥ P[G(1) ∪ . . . ∪ G(m) ∈ A] ≥ 1 − ε. Also ist für alle p̃ ≥ mp Pp̃ (G ∈ A) ≥ 1 − ε. Bezeichne nun p(ε) den P -Wert für den Pp(ε) [G ∈ A] = 1 − ε gilt. Dann folgt für ε < 1 2 1 p(ε) ≤ p( ) ≤ p(1 − ε) ≤ mp(ε), 2 wobei m von ε, aber nicht von n abhängt. Also ist 1 ≍ p(1 − ε). p(ε) ≍ p 2 Aus der folgenden Proposition folgt dann, dass beispielsweise p( 21 eine Schwellenfunktion ist. 2 Proposition 3.4 Angenommen, A ist eine wachsende Eigenschaft von Teilmengen in G(n, p). Es sei p(ε) definiert, so dass Pp(ε) [G ∈ A] = ε. p̂(n) ist genau dann eine Schwellenfunktion, wenn p(ε) =: p(ε; n) ≍ p̂(n) für jedes ε ∈ (0, 1). Beweis: Wir verweisen auf das Buch “Random graphs” von Janson, Luczak, Ruciński, Proposition 1.23. 2 Ein berühmtes Beispiel für Schwellenfunktionen sind die Situationen, wo wir untersuchen, ob ein G ∈ G(n, p) einen gegebenen Graphen, sagen wir Γ, als Teilgraphen enthalten, also beispielsweise ob ein G ∈ G(m, p) ein Dreieck enthält. Offenbar ist dies eine wachsende Eigenschaft, sie sollte also nach dem Vorhergehenden eine Schwellenfunktion sein. Die Technik, dies herzuleiten, ist die Methode des ersten und zweiten Moments, die eigentlich nur aus der Tschebyschev-Ungleichung besteht. Da die Zufallsgraphen-Theoretiker darauf sehr stolz sind, werden wir sie abstrakt und an einem Beispiel vorstellen. Die erste Momentenmethode ist eine einfache Anwendung der Markov-Ungleichung: Für jede Zufallsvariable X mit Werte in N0 gilt P[X > 0] ≤ EX. 16 Die Methode des ersten Moments besteht nun darin zu zeigen, dass EXn = o(1) gilt und sonst Xn = 0 asymptotisch fast sicher (das ist Graphentheorie-Slang für P[Xn = 0] → 1). Die zweite Momentenmethode oder Methode des 2. Moments besteht aus einer Anwendung der Chebyschev-Ungleichung. Sei X eine Zufallsvariable mit EX > 0. Dann ist {X = 0} ≤ {|X − EX| ≥ EX}, also P(X = 0) ≤ P(|X − EX| ≥ EX) = VX . (EX 2 ) (3.1) Kann man also zeigen, dass die rechte Seite gegen 0 geht, so folgt Xn 6= 0 asymptotisch p VX Xn −→ 1. fast sicher. Ähnlich sieht man, dass für Zufallsvariablen X mit (EX) 2 = o(1) gilt EX n Bemerkung 3.5 Ungleichung (3.1) lässt sich noch verbessern. Aus der Cauchy-SchwarzUngleichung (angewandt auf X = X1lX6=0 ) lässt sich z. B. gewinnen: (EX)2 ≤ EX 2 P(X 6= 0), also (EX)2 P(X = 6 0) ≥ EX 2 und daher P(X = 0) ≤ 1 − VX VX (EX)2 = = . 2 2 EX EX (EX)2 + VX Dies ist manchmal besser als (3.1). Beispiel 3.6 Wir wenden uns für einen Moment von der Graphentheorie ab: Sei [n]p der Wahrscheilichkeitsraum, der aus allen Teilmengen von {1, . . . , n} besteht, wobei jedes Element A ⊆ {1, . . . , n} mit Wahrscheinlichkeit p|A| (1 − p)n−|A| gezogen wird, wir werfen also für jede Zahl eine p-Münze und entscheiden, ob diese Zahl teilnimmt. Wir fragen nach der Anzahl der arithmetischen Progressionen der Länge k in einem zufälligen Element aus [n]p . Sei diese Xk und k ≥ 2 fest. Wir müssen zunächst eine asymptotische Abschätzung der Anzahl der arithmetischen Progressionen der Länge k in {1, . . . , n}, f (n, k), haben. Wir wählen f (n, k) ∼ n2 , da eine Progression durch die ersten beiden Elemente festgelegt ist und es knapp n2 Wahlen dafür gibt. Für i = 1, . . . , f (n, k) sei nun Ii der Indikator, der angibt, ob die i-te Progression in [n]p auftaucht oder nicht. Dann ist f (n,k) Xk = X Ii i=1 und daher EXk = f (n, k)pk = Θ(n2 pk ), wobei wir an = Θ(bn ) schreiben, falls es Konstanten gibt, so dass für hinreichend großes n gilt: can ≤ bn ≤ Cbn 17 (also an = O(bn ) und bn = O(an )). Gilt also p ≪ n−2/k , so folgt E(Xk ) → 0 und nach der ersten Momentenmethode gilt P(Xk > 0) = o(1), d. h. Xk = 0 asymptotisch f.s. Ist andererseits p ≫ n−2/k , so gilt EXk → ∞, was natürlich alleine nicht genügt, um P(Xk > 0) → 1 zu zeigen. Hier benutzen wir die zweite Momentenmethode. Beachte, dass Ii und Ij unabhängig sind, falls die i-te und die j-te arithmetische Progression keine gemeinsamen Elemente besitzt; in diesem Fall ist Cov(Ii , Ij ) = 0. Ansonsten schätzen wir ab: Cov(Ii, Ij ) ≤ EIi Ij . Es gibt O(n3 ) Paare (Ii , Ij ), die ein Element gemeinsam haben und O(n2 ) Paare mit zwei Elementen oder mehr gemeinsam. Im ersten Fall ist Cov(Ii, Ij ) = p2k−1 , im zweiten Cov(Ii , Ij ) ≤ pk . Also gilt f (n,k) f (n,k) VXk = X X i=1 Cov(Ii , Ij ) = O(n3p2k−1 + n2 pk ). j=1 Also folgt mit der zweiten Momentenmethode 1 1 P(Xk = 0) = O = o(1). + np n2 pk Also ist die Schwellenfunktion für das Auftreten einer arithmetischen Progression der Länge k n−2/k . Wir wollen nun sehen, was die Schwelle für das Auftreten von Teilgraphen ist. Sei also Γ ein Graph und XΓ die Anzahl von Kopien von Γ, die in einer Realisation eines Graphen G gemäß G(n, p) enthalten ist. Seien v = vΓ und e = eΓ die Anzahl von Knoten bzw. Kanten von Γ. Betrachtet man den vollständigen Graphen auf n Knoten, Kn , dann gibt es in Kn genau n v!/aut(Γ) f (n, Γ) = v Kopien von Γ, wobei aut(Γ) die Größe der Automorphismengruppe von Γ ist. Für jede Kopie Γ′ von Γ in Kn sei IΓ′ = 1lΓ′ ⊆G(n,p) der Indikator dafür, dass Γ′ in G(n, p) auftritt. Dann ist ( 0, falls p ≪ n−v/e EXΓ = f (n, Γ)pe = Θ(nv pe ) → ∞, falls p ≫ n−v/e 18 und gemäß der Methode des ersten Moments folgt P[XΓ > 0] = o(1), falls p ≪ n−v/e . (3.2) Stimmt es auch, dass P[XΓ > 0] = 1 − o(1), falls p ≫ n−v/e . Wir betrachten ein Beispiel: Beispiel 3.7 Es sei H0 der Graph mit 4 Knoten und 5 Kanten: und G0 und der Graph, der aus H0 entsteht, wenn man einen weiteren Knoten mit einer einzigen Kante zu H0 hinzufügt (es gibt zwei nicht-isomorphe Arten dies zu tun, es ist hier aber unerheblich, welche wir wählen): An diesem Beispiel werden wir sehen, dass n−v/e nicht stets die Schwellenfunktion für das Auftreten eines Subgraphen sein kann. Sei p(n) = n−9/11 , wobei daran nur wichtig ist, dass n−5/6 ≪ p ≪ n−4/5 gilt. Dann gilt EXG0 = Θ(n5 p6 ) → ∞, aber wendet man (3.2) auf H0 an, so sieht man, dass asymptotisch fast sicher keine Kopien von H0 in G vorhanden sind, also können auch keine Kopien von H0 vorhanden sein. Also ist die Lage für Teilgraph-Zählungen etwas komplizierter als für arithmetische Progressionen. Warum hat die Methode im vergangenen Beispiel nicht geklappt? Wenn man etwas überlegt, ist die Antwort einfach. Der Graph H0 , der ein Teilgraph von G0 ist, hat eine höhere “Dichte” ve als G0 . Man muss zunächst sicherstellen, dass p so groß ist, dass H0 auftreten kann. Die “Extrakante” bekommt man dann gratis. Wenn wir dies formal machen wollen, sollten wir daher zunächst die maximale Dichte eines Teilgraphen definieren: Es sei Γ ein Graph. Wir setzen e(H) : H ⊆ Γ, v(H) > 0 . m(Γ) = max v(H) Hierbei sind e(H) und v(H) die Kanten bzw. Knoten des Graphen H ⊆ Γ. Satz 3.8 Sei Γ ein beliebiger Graph mit mindestens einer Kante. Dann gilt 1 0, falls p ≪ n− m(Γ) . lim P(Γ ⊆ G(n, p)) = 1 n→∞ 1, falls p ≫ n− m(Γ) 1 Beweis: Wir beweisen′ die beiden Konvergenzen einzeln. Sei also zunächst p ≪ n− m(Γ) . e(H ) Sei H ′ ⊆ Γ, so dass v(H ′ ) = m(Γ) gilt. Dann folgt aus (3.2), dass es asymptotisch f.s. keine ′ Kopien von H in G(n, p) gibt, also auch keine Kopie von Γ. 19 Um die umgekehrte Richtung zu beweisen, benutzen wir die Methode des zweiten Moments. Dazu brauchen wir eine obere Schranke für die Varianz von XΓ , die Anzahl der Kopien von Γ in G(n, p), finden. Diese Abschätzung gleidern wir als Lemma aus. Setze ΦΓ = ΦΓ (n, p) = min{EXΓ : H ⊆ Γ, eH > 0}. Bemerke, dass ΦΓ ≍ min H⊆Γ,eH >0 nv(H) pe(H) gilt. Lemma 3.9 Sei Γ ein Graph mit wenigstens einer Kante. Dann gilt X n2vΓ −vH p2eΓ −eH VXΓ ≍ (1 − p) H⊆Γ eH >0 (E(XΓ ))2 H⊆Γ,eH >0 EXH 2 (EXΓ ) . = (1 − p) ΦΓ ≍ (1 − p) max Hierbei hängen die Konstanten (wir schreiben an ≍ bn , falls es Konstanten c, C > 0 gibt mit can ≤ bn ≤ Can für schließlich alle n) von Γ ab, aber nicht von n und von p ab. Insbesondere gilt (EXΓ )2 VXΓ = O ΦΓ und, falls p von 1 weg beschränkt ist, VXΓ ≍ (EXΓ )2 . ΦΓ Beweis: Falls für Γ′ , Γ′′ gilt, dass ihre Kantenmengen disjunkt sind, also E(Γ′ ) ∩ E(Γ′′ ) = ∅, dann sind die Indikatoren IΓ′ und IΓ′′ stochastisch unabhängig. Darüber hinaus gibt es für jedes H ⊆ Γ Θ(nvH n2(vΓ −vH ) ) = Θ(n2vΓ −vH ) Paare (Γ′ , Γ′′ ), von denen jedes eine Kopie von Γ ist und die in H überlappen. Also folgt X V(XΓ ) = Cov(IΓ′ , IΓ′′ ) Γ′ ,Γ′′ ∼Γ = X E(Γ′ )∩E(Γ′′ )6=∅ ≈ ≈ X H⊆Γ,eH >0 X H⊆Γ,eH >0 E(IΓ′ IΓ′′ ) − E(IΓ′ E(IΓ′′ ) n2vΓ −vH (p2eΓ −eH − p2eΓ ) n2vΓ −vH p2eΓ −eH (1 − p) 20 das letztere, weil der wesentliche Beitrag von H mit eH = 1 kommt. 2 Die folgende Beobachtung ist oft sehr nützlich: Lemma 3.10 Sei Γ ein Graph mit eΓ > 0. Dann sind die folgenden Eigenschaften äquivalent: (i) npm(Γ) → ∞; (ii) nvH peH → ∞ für jedes H ⊆ Γ mit vH > 0; (iii) E(XH ) → ∞ für jedes H ⊆ Γ mit vH > 0; (iv) ΦΓ → ∞. Beweis: Gemäß der Definition von m(Γ) und da p ≤ 1 gilt, ist (i) äquivalent zu npeH /vH → ∞ für jedes H ⊆ Γ mit vH > 0. Da EXH ≈ nvH peH = (npeH /vH )vH , ist dies äquivalent zu (ii) und (iii). Schließlich ist nach Definition von ΦΓ (iv) äquivalent zu EXH → ∞ für jedes H ⊆ Γ mit eH > 0. Dies ist äquivalent zu (iii), denn der Fall vH > 0 und eH = 0 ist trivial. 2 1 Nun können wir den Beweis von Satz 3.8 fertigstellen: Beachte, dass, falls p ≫ n− m(Γ) gilt, nach Lemma 3.10 ΦΓ → ∞ gilt. Die Methode des zweiten Moments ergibt dann mithilfe von Lemma 3.9 P(Γ 6⊆ G(n, p)) = P(XΓ = 0) ≤ 1 V(XΓ ) ) = o(1). = O( (EXΓ )2 ΦΓ 2 Bemerkung 3.11 Aus dem obigen Beweis folgt auch, dass, falls ΦΓ (n, p) → ∞, dann gilt nicht nur P(Γ 6⊆ G(n, p)) → 1, sondern auch XΓ → 1 in Wahrscheinlichkeit. E(XΓ ) 21 Bemerkung 3.12 Der obige Satz wurde in der hier gezeigten Form von Bollobas 1981 gezeigt. Schon 1960 bewiesen Erdös und Rényi dasselbe Resultat für balancierte Graphen, das sind solche Graphen, für die m(Γ) = veΓΓ gilt. Man kann sich nun fragen, wie schnell die Wahrscheinlichkeit, dass Γ 6⊆ G(n, p) im 2. Fall von Satz 3.8 gegen 0 geht. Offenbar spielt die Größe ΦΓ dabei eine entscheidende Rolle. Wir bereiten ein entsprechendes Resultat vor. Wichtig ist dabei eine Ungleichung, die aus der mathematischen statistischen Mechanik stammt. Für einen Beweis verweisen wir auf Grimmett/Stirzaker (1992, Problem 3.11.18b). Diese Ungleichung ist nach den Mathematikern und Physikern Fortuin, Kosteleyn und Ginibre als FKG-Ungleichung bekannt geworden. Sei gehört zur Klasse der sogenannten Korrelationsungleichungen. Hierzu betrachten wir {1, . . . , n} mit seiner Potenzmenge. Wir sagen, dass eine Funktion f : P({1, . . . , n}) → R wachsend ist, falls für A ⊂ B stets folgt f (A) ≤ f (B). f heißt fallend, falls aus A ⊆ B folgt, dass f (A) ≥ f (B) gilt. Auf P({1, . . . , n}) konstruieren wir eine Wahrscheinlichkeit, indem wir i mit Wahrscheinlichkeit pi an einer Teilmenge von {1, . . . , n} teilnehmen lassen und mit Wahrscheinlichkeit 1 − pi nicht. Die so erhaltete zufällige Menge heißt Γp1 ,...,pn . Dann gilt Satz 3.13 (FKG-Ungleichung) Falls X1 und X2 beide wachsende oder beide fallende Zufallsvariablen von Γp1 ,...,pn sind, dann gilt EX1 X2 ≥ EX1 EX2 , also Cov(X1, X2 ) ≥ 0. Insbesondere gilt für zwei wachsende (oder fallende) Familien von Teilmengen von {1, . . . , n} Q1 und Q2 P(Γp1 ,...,pn ∈ Q1 ∩ Q2 ) ≥ P(Γp1 ,...,pn ∈ Q1 )P(Γp1,...,pn ∈ Q2 ). Bemerkung 3.14 Eine wachsende Familie von Teilmengen Q ist ein System von Teilmengen, so dass aus A ∈ Q und A ⊆ B auch B ∈ Q folgt, 1lQ ist also im obigen Sinne wachsend. Analog definiert man fallend. Den zweiten Teil der Aussage von Satz 3.13 erhält man aus dem ersten, wenn man für Xi = 1lQi betrachtet. Eine wichtige Anwendung der FKG-Ungleichung erhält man ganz ähnlich: Sei S eine Familie nicht-leerer Teilmengen von {1, . . . , n}. Für A ∈ S sei 1lA definiert als 1lA := 1l[A⊆Γp1 ,...,pn ] , wobei Γp1 ,...,pn wieder die zufällige Teilmenge von {1, . . . , n} ist, die man erhält, wenn man i unabhängig von den anderen mit Wahrscheinlichkeit pi wählt. Offenbar ist jedes 1lA wachsend. Schließlich sei X X= 1lA , A∈S d. h. X ist die Anzahl von A ∈ S, die in der zufälligen Menge Γp1 ,...,pn enthalten sind. 22 Korollar 3.15 Für X = P A∈S 1lA wie oben gilt P(X = 0) ≥ exp − EX 1 − maxi pi . Beweis: Man verwendet die FKG-Ungleichung folgendermaßen: Sei zu A ∈ S A = {B ⊆ {1, . . . , n}, B ⊇ A}. A ist wachsend. Für A, B ∈ S mit entsprechend definierten A und B gilt dann P(IA + IB = 0) = P(Γp1 ,...,pn ∈ Ac ∩ Bc ) ≥ P(Γp1 ,...,pn ∈ Ac )P(Γp1 ,...,pn ∈ Bc ) = (1 − E1lA )(1 − E1lB ). Induktiv ergibt sich P(X = 0) ≥ x Y A∈S (1 − EIA ). Wegen 1 − x ≥ e− 1−x und EIA ≤ max pi folgt EX P(X = 0) ≥ exp − 1 − maxA EIA ≥ exp − EX 1 − maxi pi . 2 Wir werden nun versuchen, eine ganz ähnliche obere Schranke herzuleiten. Dazu sei wieder S ⊆ P({1, . . . , n}) und X X= 1lA . (3.3) A∈S Es gilt dann Satz 3.16 Für X wie in (3.3) und λ = EX = X E1lA und A ¯ = ∆ X E1lA 1lB , A,B A∩B6=∅ sowie ϕ(x) = (1 + x) log(1 + x) − x gilt für 0 ≤ t ≤ EX ϕ(− λt )λ2 t2 ≤ exp(− P(X ≤ EX − t) ≤ exp − ¯ ¯ ). ∆ 2∆ 23 ¯ auch die Diagonale A = B Bemerkung 3.17 a) Beachte, dass die Definition von ∆ mit einschließt. Es ist manchmal zweckmäßig, diese separat zu betrachten; zu diesem Zweck definieren wir 1 X ∆= E1lA 1lB . 2 A6=B A∩B6=∅ Damit ist ∆ dann die Summe über alle verschiedenen geordneten Paare und es gilt ¯ = λ + 2∆. ∆ ¯ ≥ λ. Gleichheit kann dabei nur gleten, wenn ∆ = 0 b) Offenbar gilt ∆ ≥ 0 und daher ∆ ist, d. h. wenn die Mengen A ∈ S disjunkt und damit die Indikatoren unabhängig sind. c) Eine entsprechende exponentielle obere Schranke für die unteren Enden P(x ≥ Ex + t) gibt es i. a. nicht, wie das folgende Beispiel zeigt. Sei λ ∈ N und Γ = {0, 1, . . . , 2λ2}. Wir wählen nun Γp0 ,p1 ,...,p2λ2 aus Γ zufällig wie oben mit p0 = λ−4 , pi = 1 − λ−4 pi = λ−1 − λ−4 + λ−8 1 ≤ i ≤ λ2 für und λ2 + 1 ≤ i ≤ 2λ2 . für S bestehe aus den Mengen Ai = ( {0, i} für 1 ≤ i ≤ λ2 für λ2 + 1 ≤ i ≤ 2λ2 {i} . Dann gilt EX = X X EIA = A∈S i∈{A1 λ2 = X λ −4 +λ −8 ,...,2λ2 } + i=1 = λ2 · P(Γp0,...,p2λ2 ⊇ Ai 2 2λ X i=λ2 +1 1 = λ. λ λ−1 − λ−4 + λ−8 Außerdem gilt ∆ = 1 X E1lA 1lB 2 A6=B A∩B6=∅ 1 = 2 = < 1 2 X E1lAi 1lAj 1≤i<j≤λ2 X 1≤i<j 1 ≤λ2 X 1≤i,j≤λ2 λ−4 (1 − λ−4 )2 λ−4 ≤ λ4 · λ−4 = 1. 24 Trotzdem gilt für c < ∞ und ε > 0, falls λ groß genug ist, 1 2 P(X > cλ) ≥ λ−4 (1 − λ−4 )λ ≥ λ−4 > exp(−ελ ). 2 Beweis von Satz 3.16: Sei ψ(s) = Ee−sX , Zuerst zeigen wir, dass woraus wir s ≥ 0. ¯ −(log ψ(s))′ ≥ λe−s∆/λ , − log ψ(s) ≥ Z 0 s s > 0, λ2 ¯ ¯ λe−v∆/λ du = ¯ (1 − e−s∆/λ ) ∆ folgern. Um (3.4) zu zeigen schreiben wir ψ ′ (s) als X −ψ ′ (s) = E[Xe−sX ] = E[1lA e−sX ]. (3.4) (3.5) (3.6) A Für festes A ∈ S teilen wir X = YA + ZA auf, wobei X 1lB . YA = B∩A6=∅ Wir wenden die FKG-Ungleichungen auf Γp1 ,...,pn bedingt auf 1lA = 1 an. Bedenken wir, dass ZA und 1lA unabhängig sind und setzen pA := E1lA , so ergibt sich E[1lA e−sX ] = pA E[e−sYA −sZA |1lA = 1] ≥ pA E[e−sYA |1lA = 1]E[e−sZA ] (3.7) −sYA ≥ pA E[e |1lA = 1]ψ(s). P P Nun ist λ = A∈S E1lA = A∈S pA , (3.6) und (3.7) zusammen ergeben mit der JensenUngleichung (einmal angewandt auf die bedingte Erwartung, einmal auf die Summe): −ψ(s)′ X ≥ pA E[e−sYA |1lA = 1] ψ(s) A X1 pA exp{−E(sYA |1lA = 1)} ≥ λ λ A X1 ≥ λ exp(− pA E[sYA |1lA = 1]) λ A sX E(YA 1lA )) = λ exp(− λ A −(log ψ(s))′ = ¯ = λe−s∆/λ . Somit gilt (3.4), also auch (3.5). Mithilfe der exponentiellen Markov-Ungleichung folgt dann λ2 ¯ log P(X ≤ λ − t) ≤ log Ee−sX + s(λ − t) ≤ − ¯ (1 − e−s∆/λ ) + s(λ − t). ∆ 25 Die rechte Seite wird für d = − log(1 − λt · ∆λ¯ minimiert, dies ergibt die erste Schranke. Die zweite ergibt sich aus ϕ(x) ≥ x2 /2 für x ≤ 0 (Übung). Somit ist alles gezeigt. 2 Wenn wir in Satz 3.16 t = EX setzen, erhalten wir eine Abschätzung für die Wahrscheinlichkeit, dass überhaupt keine der Mengen aus S auftritt. Dies geben wir als eigenen Satz an. Satz 3.18 Sei wieder X = P A∈S 1lA , λ = EX und ∆ wie oben. Dann gilt: (i) P(X = 0) ≤ exp(−λ + ∆); 2 λ (ii) P(X = 0) ≤ exp(− 2(λ+2∆) ) = exp(− 2 P λ2 A,B A∩B6=∅ E1lA 1lB ). Bemerkung 3.19 Beide Abschätzungen gelten für jedes λ und ∆, aber (i) ist langweilig, wenn nicht ∆ < λ gilt. Tatsächlich ist (i) besser als (ii), wenn ∆ < λ2 , während (ii) für größere ∆ besser ist (Übung). Beweis von Satz 3.18: Wählt man in Satz 3.16 t = λ oder lässt in (3.5) direkt s → ∞ gehen und beachtet, dass lim ψ(s) = P(X = 0), s→∞ erhält man (ii). (i) leiten wir aus dem Beweis von Satz 3.16 ab. Wir setzen dort YA′ = YA − 1lA . Damit ergibt sich Z ∞ − log P(X = 0) = − (log(ψ(s)))′ ds Z ∞0 X ≥ pA E[e−sYA |1lA = 1]ds = 0 A X pA E[ A 1 |1lA = 1]. YA Ist 1lA = 1, so gilt da YA′ 1 1 1 ≥ 1 − Y A′ , = YA Y A′ + 1 2 eine ganze Zahl ist, und daher X 1 − log P(X = 0) ≥ pA (1 − YA′ |1lA = 1) 2 A X 1 = (pA − E(1lA YA′ )) 2 A = λ − ∆. 26 2 Diese Abschätzungen wollen wir nun einsetzen, um Abschätzungen für die Wahrscheinlichkeit, dass ein Graph aus G(n, p) einen festen Graphen Γ nicht als Teilgraph enthält, zu bekommen. Hierzu schauen wir uns den Beweis von Satz 3.8 noch einmal an. Hieraus kann man ableiten, dass 1 − ΦΓ ≤ P(Γ 6⊆ G(n, p)) ≤ O( 1 ). ΦΓ Das Schöne hieran ist, dass sich beide dieser Ungleichungen zu exponentiellen Ungleichungen verschärfen lassen. Satz 3.20 Sei Γ ein Graph mit wenigstens einer Kante. Dann gilt für jede Folge p = p(n) < 1 1 exp(− φΓ ) ≤ P(Γ 6⊆ G(n, p)) ≤ exp(−Θ(ΦΓ )). 1−p Beweis: Die linke der beiden Ungleichungen folgt aus Korollar 3.15. Hierbei setzen wir in Korollar 3.15 X als XH ′ , die Anzahl von Kopien von H ′ in G(n, p), wobei H ′ ⊆ Γ der Teilgraph mit der größten Dichte ist. Beachte, dass E[XH ′ ] = ΦΓ . Die andere Ungleichung folgt aus Satz 3.18 (ii). Hier setzen wir S = XΓ , die Anzahl der Kopien von Γ in G(n, p) und 1lA = 1lΓ . Dann wird der Nenner des Exponenten zu X XX p2eΓ −eH = Θ((EXΓ )2 /ΦΓ ). H⊆Γ eH >0 Γ′ Γ′′ Daraus folgt die rechte Seite der Behauptung. 2 Wir schließen noch eine kleine Bemerkung über das Verhalten der Anzahl induzierter Subgraphen an. Hierbei ist ein Graph Γ in G(n, p) induziert enthalten, wenn es vΓ Knoten in G(n, p) gibt, dergestalt, dass alle Kanten, die in Γ enthalten sind, auch auf diesen Kanten sind und alle Kanten, die nicht in Γ sind auch auf diesen Knoten nicht vorhanden sind. Für einen Graphen Γ sei YΓ die Anzahl der induzierten Kopien von Γ. Für festes p können sich XΓ , die Zahl der Kopien von Γ und YΓ unterscheiden. Wir wollen aber sehen, dass XΓ > 0 und YΓ > 0 dieselbe Schwellenfunktion haben. Der erste Teil von Satz 3.8 (die 1 Behauptung, dass für p ≪ n− m(Γ) YΓ = 0 ist) gilt sofort, denn es ist ja stets XΓ ≥ YΓ. Für die andere Richtung sei JΓ′ eine 0-1-wertige Zufallsvariable, die für eine Kopie Γ′ von Γ in Kn angibt, ob sie eine induzierte Kopie von Γ in G(n, p) ist (und dann 1 wird). Ist p = o(1), so ist vΓ E[JΓ′ ] = peΓ (1 − p)( 2 )−eΓ ∼ E[1lΓ′ ]. 27 Also gilt auch E[XΓ ] ≈ E[YΓ ]. Um auch die Varianz abzuschätzen, bemerke, dass für zwei Kopien Γ′ und Γ′′ von Γ die wenigstens eine gemeinsame Kante haben, gilt: Cov(JΓ′ , JΓ′′ ) < E[JΓ′ JΓ′′ ] ≤ E[1lΓ′ 1lΓ′′ ] ≈ Cov(1lΓ′ , 1lΓ′′ ), und wie für die 1lΓ′ gilt, dass für Γ′ , Γ′′ , die höchstens einen Knoten gemeinsam haben Cov(JΓ′ , JΓ′′ ) = 0. Schließlich gibt es (anders als für gewöhnliche Teilgraphen) noch einen dritten Fall: Γ′ und Γ′′ teilen sich t ≥ 2 Vertices, sind aber kantendisjunkt. Dann gilt Cov(JΓ′ , JΓ′′ ) < E[JΓ′ , JΓ′′ ] < p2eΓ und es gibt O(n2vΓ −t ) solcher Paare. Also gibt die Methode des zweiten Moments P(YΓ = 0) ≤ ≈ V(YΓ) (EY )2 P Γ Γ′ ,Γ′′ v(Γ′ )∩v(Γ′′ )6=∅ Cov(1lΓ , 1lΓ′ ) + P Γ′ ,Γ′′ v(Γ′ )∩v(Γ′′ )=∅ (EXΓ )2 Pv(Γ)−1 2v−t 2e n p Γ ≈ o(1) + t=2 2v 2e = o(1). n p Γ Cov(JΓ′ , JΓ′′ ) E(YΓ )2 Somit haben in der Tat die Ereignisse {XΓ > 0} und {YΓ > 0} die gleichen Schwellenfunktionen. Das ist deshalb bemerkenswert, weil {YΓ > 0} keine monotone Eigenschaft ist. In der Tat können ja sus Graphen mit mehr Kanten induzierte Subgraphen wieder verschwinden. Es gibt daher auch noch eine zweite Schwellenfunktion für {YΓ > 0} für p nahe bei 1, an der die induzierten Kopien von Γ wieder verschwinden. 28 4 Asymptotische Verteilungen Nachdem wir uns im letzten Kapitel den Schwellenfunktionen gewidment haben, also einer Art 0-1-Gestz für die Existenz von Teilgraphen, wollen wir nun ihre asymptotische Verteilung genauer studieren. Dies ist besonders interessant, wenn es überhaupt Teilgraphen einer gewissen Gestalt gibt. Sind wir also an der Verteilung von XΓ interessiert (richtig − 1 skaliert), so sollte zumindest p 6≪ b m(Γ) sein. Dabei sind zwei verschiedene Regime in1 , so sollte man zumindest für balancierte teressant. Ist p von der Größenordnung n1 m(Γ) Graphen Γ erwarten, dass es nicht zu viele Kopien von Γ in G(n, p) gibt, denn E(XΓ ) bleibt für wachsendes n endlich. Das Auftreten einer Kopie von Γ an einer festen Stelle ist ein seltenes Ereignis, dies legt eine Poisson-Approximation für die Verteilung von XΓ 1 nahe. Ist hingegen p ≫ n− m(Γ) , so enthält G(n, p) viele Kopien von Γ und man könnΓ te eventuell eine asymptotische Normalverteilung von X√Γ −EX vermuten. Wir behandeln VXΓ beide Fälle separat, da sie auch methodisch Interessantes zu bieten haben. Wir wollen für den Poisson-Ansatz etwas ausholen. Dieser wird mit der sogenannten Steinschen Methode bewiesen, die in der 70er Jahren des 20. Jahrhunderts eingeführt wurde, zunächst für die Approximation durch die Normalverteilung, später auch für die Poissonverteilung, in der neuesten Forschung spielen auch andere Verteilungen eine wichtige Rolle. Wir haben eine Diät-Version der Steinschen Methode schon in der Stochastik-Vorlesung gesehen. Nun stellen wir sie zunächst für die Poisson-Approximation der Binomial-Verteilung vor. Wesentlich ist dabei stets eine charakteristische Gleichung für eine Verteilung. Dies sieht bei der Poisson-Verteilung wie folgt aus: Sei g : N0 → R eine beschränkte Abbildung und es sei Z eine Zufallsgröße, die P oi(λ)-verteilt ist. Dann gilt X λj Eλg(Z + 1) = λg(j + 1) e−λ j! j≥0 und E(Zg(Z)) = X l≥1 lg(l) λl −λ X λj e = λg(j + 1) e−λ . l! j! j≥0 Zusammen ergibt dies E[λg(Z + 1) − Zg(Z)] = 0 für alle beschränkten Abbildungen g : N0 → R und Z ∼ P oi(λ). Dies ist die sogenannte Steinsche Gleichung (im Poisson-Fall auch Stein-Chen-Gleichung). Ist nun f : N0 → R beschränkt mit Ef (Z) = 0 (für Z ∼ P oi(λ)), so lässt sich f schreiben as f (j) = λgf,λ (j + 1) − jgf λ (j), 29 j ≥ 0. Dabei ist die beschränkte Abbildung gf,λ definiert durch j j! X gf,λ (j + 1) = j+1 πλ (k)eλ f (k) λ k=0 ∞ j! X πλ (k)eλ f (k) = − j+1 λ k=j+1 (4.1) gf,λ (0) : = 0 (letztere Gleichung gilt, da 0 = Ef (Z) = j X πλ (k)f (k) + k=0 ∞ X πλ (k)f (k) k=j+1 gilt und dies können wir natürlich mit jeder positiven Zahl, z. B. j! eλ λj+1 multiplizieren). Der Nachweis erfolgt induktiv: Für j = 0 ist gf,λ (1) = f (0) f (0) λ = e πλ (0) λ λ und gf,λ (j + 1) = (f (j) + jgf,λ (j)) 1 λ j−1 1 j (j − 1)! X 1 πλ (k)eλ f (k) f (j)πλ (j) + = λ πλ (j) λ λj k=0 j−1 j! j! X λ = πλ (j)eλ f (k). f (j)π (j)e + λ λj+1 λj+1 k=0 Die Beschränktkeit von gf,λ folgt mit den Bezeichnungen kgf,λ k := sup |gf,λ (j)| und j≥0 kf k := sup |f (j)| j aus der eben gezeigten Darstellung: ∞ X λk−(j+1) kgf,λ k ≤ kf k j! ≤ kf keλ . k! k=j+1 Wir haben also gezeigt Lemma 4.1 Sei f eine beschränkte Funktion von N0 nach R. Dann ex. eine beschränkte Lösung gf,λ : N0 → R von λgf,λ (j + 1) − jgf,λ (j) = f (j), j≥0 genau dann, wenn Ef (Z) = 0 mit Z ∼ P oi(λ). 30 Bemerkung 4.2 (i) Ist Z ∼ P oi(λ) und f : N → R mit Ef (Z) 6= 0, so folgt |gf,λ(j)| → ∞ für j→∞ (Übung). (ii) Es sei X eine Zufallsvariable mit Werten in N0 . Dann gilt sogar: X ist P oi(λ)verteilt genau dann, wenn für jede beschränkte Funktion g : N0 → R gilt E[λg(X + 1) − Xg(X)] = 0. Diese Gleichung charakterisiert also die Poisson-Verteilung zum Parameter λ. Dies ist schnell einzusehen. Betrachte −λ f (j) := h(j) − e ∞ X h(k) k=0 λk k! für jedes j ∈ N0 . Hierbei sei h : N0 → R eine beschränkte Funktion. f ist beschränkt, z. B. durch 2khk und erfüllt Ef (Z) = 0 für Z ∼ P oi(λ) (so ist f gerade gebaut). Nach Lemma 4.1 gibt es eine beschränkte Funktion gf,λ mit 0 = E[λgf,λ (X + 1) − Xgf,λ (X)] = E[h(X) − e−λ ∞ X h(k) k=0 λk ]. k! Wählen wir speziell hA (j) := 1l{j∈A} für A ⊆ N0 , so folgt aus der rechten Gleichung P(X ∈ A) − P oi(λ)(A) = 0 (mit P oi(λ)(A) = P j∈A ∀ A ⊆ N0 πλ (j)). Also ist X ∼ P oi(λ). Schreibe nun gf := gf,λ und es sei Z ∼ P oi(λ). Weiter sei A ⊆ N0 und fA (j) := 1l{j∈A} − P oi(λ)(A), j ≥ 0. Offenbar ist fA beschränkt und EfA (Z) = 0 ∀ A ≤ N0 . Nach Lemma 4.1 existiert also eine (beschränkte) Lösung der Gleichung λgA,λ(j + 1) − jgA,λ (j) = 1l{j∈A} − P oi(λ)(A) für j ≥ 0 und jedes A ⊆ N0 . Mit der Bezeichnung Um := {0, 1, . . . , m} 31 (4.2) folgt aus der allgemeinen Form der Lösung (4.1) für gf,λ : gA,λ(j + 1) = j! λ e (P oi(λ)(A ∩ Uj ) − P oi(λ)(A)P oi(λ)(Uj )). λj+1 (4.3) Dies ist die sogenannte Stein-Lösung. Wir setzen (ohne Einschränkung) gA,λ (0) = 0. Den Nutzen der Stein-Gleichungen (4.2) und ihrer Lösung (4.3) sieht man schnell ein: Ersetzen wir j ∈ N0 durch eine Zufallsvariable W mit Werten in N0 , so folgt aus (4.2) durch Bilden des Erwartungswertes E[λgA,λ (W + 1) − W gA,λ(W )] = P(W ∈ A) − P oi(λ)(A). (4.4) Da wir uns für Poisson-Approximationen interessieren, wollen wir die rechte Seite gleichmäßig in A abschätzen. Nach (4.4) können wir dies ebenso gut in der linken Seite von (4.4) tun. Wir werden in der Folge sehen, dass sich dies recht gut bewerkstelligen lässt und dass die Schranken, die wir erhalten, keine a priori-Kenntnis über die Verteilung von W erfordern. Allgemein besteht die Steinsche Methode aus den Schritten: (i) Stelle eine für die potenzielle Limesverteilung charakteristische Gleichung auf und löse diese. Untersuche die Lösungen. (ii) Setze die zu approximierende Zufallsvariable W in die Lösung ein und schätze ab. Wir führen dies nun am Beispiel der Poisson-Verteiung aus. Es seien I1 , . . . , In unabhängige Zufallsvariablen mit P(Ij = 1) = pj = 1 − P(Ij = 0) 0 < pj < 1 1 ≤ j ≤ n. Sei ferner W = n X Ij : λ := EW = j=1 und n X pj j=1 Wi = n X Ij . j=1 j6=i Schreibe wieder gA := gA,λ . Es folgt nun E(Ii gA (W )) = E[Ii gA (Wi + 1] = pi EgA (Wi + 1), denn definitionsgemäß ist Ii stochastisch unabhängig von Wi . Also ist E[λgA (W + 1) − W gA (W )] = n X i=1 pi (E(gA (W + 1) − E(gA (Wi + 1))). Nun ist W = Wi , es sei denn Ii = 1, was mit Wahrscheinlichkeit pi eintritt. Also folgt: |P(W ∈ A) − P oi(λ)(A)| ≤ 2 sup |gA (j)| j≥0 32 n X i=1 p2i bzw. |P(W ∈ A) − P oi(λ)(A)| ≤ sup |gA (j + 1) − gA (j)| j n X p2i . i=1 Dies führt zu einer Abschätzung der Güte der Poisson-Approximation im unabhängigen Fall, falls wir kgk := kgA,λk := sup |gA,λ(j)| oder j ∆g := ∆gA,λ := sup |gA,λ(j + 1) − gA,λ (j)| j gleichmäßig in A ⊆ N0 beschränken können. Wir entscheiden uns für ∆g: Sei Z ∼ P oi(λ). Dann ist X fA (j) = (1lj=k − P(Z = k)). k∈A Sei nun gk die Lösung der Stein-Gleichung zu fk (j) := 1l{j=k} − P(Z = k), j ≥ 0. Es sollte dann gA (j) = X gk (j) (4.5) k∈A gelten, denn bei endlich vielen Summanden folgt dies sofort aus der Linearität der SteinGleichung. Um (4.5) einzusehen, sei A ⊆ N0 beliebig. Wir führen eine Abschneidetechnik ein, um (4.5) auf den endlichen Fall zu reduzieren. Es ist für ein M > 0 X fA = fk + fA∩{k:k>M }. k∈A k≤M Sei {> M} := {k : k > M}. Da wir fA als endliche Summe dargestellt haben, gilt für die zugehörige Stein-Lösung: X gk + gA∩{>M } . gA = k∈A k≤M Nun ist definitionsgemäß fA∩{>M } (j) = −P(Z ∈ A ∩ {> M}) für alle j ≤ M. Es sei j < M, dann gilt für die Stein-Lösung gemäß (4.3) −P(Z ∈ A ∩ {> M}) j j(j − 1) j! gA∩{>M } (j + 1) = 1+ + + ...+ j , λ λ λ2 λ also |gA (j + 1) − X k∈A k≤M g(j + 1)| ≤ const(λj )P(Z ∈ A ∩ {> M}) ≤ const(λj )P(Z > M). 33 Die rechte Seite konvergiert für M → ∞ gegen 0, also folgt (4.5). Aus (4.1) erhalten wir nun 1 j j(j − 1) j! gk (j + 1) = (fk (j) + fk (j − 1) + fk (j − 2) + . . . + j fk (0)). 2 λ k λ λ Nach Definition ist: −P(Z = k) j < k fk (j) = 1 − P(Z = k) j = k . −P(Z = k) j > k Also folgt für j < k gk (j + 1) = − j j! P(Z = k) (1 + + . . . + j ) ≤ 0. λ λ λ Daher ist gk (j + 1) − gk (j) ≤ 0, also gk monoton fallend. Sei nun j > k. Mit der Stein-Lösung (4.3) ist gk (j + 1) = eλ j!λ−j−1(πλ (k)1lk≤j − πλ (k)P oi(λ)(Uj )) = eλ j!λ−j−1πλ (k)(1 − P oi(λ)(Uj )) ≥ 0. Verwenden wir diese Darstellung und k ≤ j − 1 (denn k < j), so folgt ∞ ∞ j X λl X λl − λ l=j+1 l! l! l=j ! ∞ ∞ X 1 λl X λl ≤ (j − 1)!πλ (k) − λ l! l! 1 (j − 1)!πλ (k) gk (j + 1) − gk (j) = λ l=j ! l=j = 0. Somit ist gk auch in diesem Bereich monoton fallend, womit nur der Zuwachs gk (k + 1) − gk (k) positiv ist. Hierfür gilt: ∞ k−1 j X X λj λ (k − 1)! k! P(Z = k)( )+ P(Z = k)( ) gk (k + 1) − gk (k) = k+1 k λ j! λ j! j=0 j=k+1 −λ = e ∞ k−1 1 X λj 1 X λj + ) ( λ j=k+1 j! k j=0 j! ≤ e−λ ( −λ ∞ k 1 X λj 1 X λj + ) λ j! λ j=1 j! j=k+1 e (eλ − 1) λ 1 (1 − e−λ ) = λ 1 ≤ min(1, ). λ = 34 Hierbei ist die Ungleichung in Zeile 3 für k = 1 eine Gleichheit. Aus dem soeben Gezeigten folgt mit (4.5) X (gk (j + 1) − gk (j)); gA (j + 1) − gA (j) = k∈A hier sind alle Summanden negativ, bis auf den Fall j = k. Also ist gA (j + 1) − gA (j) ≤ gj (j + 1) − gj (j), falls j ∈ A, sonst ist gA (j + 1) − gA (j) ≤ 0. Es gilt also gA (j + 1) − gA (j) ≤ 1 (1 − e−λ ) λ für alle A ⊆ N und alle j > 0. Wenn gA (j + 1) − gA (j) ≥ 0 ∀ j ≥ 0, so folgt ∆g ≤ 1 (1 − e−λ ). λ Im Fall gA (j + 1) − gA (j) < 0 ist 0 < −gA (j + 1) + gA (j) = gAc (j + 1) − gAc (j) ≤ 1 (1 − e−λ ), λ denn fA + fAc = fZ+ ≡ 0. Somit folgt für die zugehörigen Stein-Lösungen gA = −gAc . Wir haben somit gezeigt Satz 4.3 Für die Zuwächse der Stein-Lösungen gilt gleichmäßig in A ⊆ N0 : ∆g ≤ 1 1 (1 − e−λ ) ≤ min(1, ). λ λ Bemerkung 4.4 Ist A = {1}, so ist die erste Schranke exakt ∆g = 1 (1 − e−λ ). λ Wir bekommen so auch eine Schranke für die Poisson-Approximation für eine Summe von Ber(pi ) verteilten unabhängigen Zufallsvariablen. 35 Satz 4.5 (Barbour, Hell 1984) Pn Pn I . Es sei λ = Seien I Ber(p )-verteilt und unabhängig und es sei W = i i i i=1 EIi = i=1 Pn i=1 pi , dann gilt n X 1 −λ dT V (L(W ), P oi(λ)) ≤ (1 − e ) p2 . λ i=1 Hierbei bezeichnet L(W ) die Verteilung von W und dT V ist der Abstand der totalen Variation zweier Maße µ, ν auf demselben Raum (Ω, F ): dT V (µ, ν) = 1 sup |µ(A) − ν(A)|. 2 A∈F Wir wollen nun versuchen an der Schranke, bei der überhaupt Graphen einer gewissen Gestalt Γ auftreten, in G(n, p) eine Poisson-Approximation für diese Anzahl zu liefern. − 1 Wir haben im vorhergehenden Kapitel gesehen, dass diese Schwelle bei p m(Γ) liegt, weil oberhalb dieser Schwelle garantiert ist, dass auch der dichteste Teilgraph von Γ auftritt. 1 Allerdings kann es geschehen, dass wenn Γ nicht selbst dieser Teilgraph ist, bei p− m(Γ) “explosionsartig” viele Kopien von Γ auftreten, weil wir zu jeder Kopie von H ⊆ Γ, der dichtesten Teilmenge von Γ, “gratis” alle Anhängsel bekommen. Daher werden wir uns auf Graphen konzentrieren, die keine dichteren Teilgraphen besitzen. Definition 4.6 Ein Graph Γ heißt strikt balanciert, falls m(Γ) = und für alle H ⊆ G gilt eH vH eΓ vΓ < m(Γ). Anders als in der vorhergehenden Diskussion betrachten wir nun zwar wieder eine Zufallsvariable W der Gestalt X W = Iα , α∈Ξ wobei Iα Indikatoren sind, diese sind aber nicht mehr unabhängig. Wir stellen eine von mehreren Ansätzen vor, um dieses Problem zu behandeln. Sei also W wie oben. Zu jedem α ∈ Ξ (der Indexmenge) sei Ξα definiert als Ξα := {β ∈ Ξ : β 6= α, Iβ und Iα sind stochastisch abhängig}. Setze weiterhin Zα := X Iβ und Wα′ = X Iβ . β∈Ξc α β6=α β∈Ξα Also ist für jedes α W = Iα + Zα + Wα′ . Weiter sei πα := EIα und λ := EW = X α∈Ξ Dann gilt 36 πα . Satz 4.7 Mit obiger Notation gilt XX 1 X 2 X EIα Iβ ). dT V (L(W )), P oi(λ)) ≤ min(1, )( πα + πα EZα + λ α α α β∈Ξ α Bemerkung 4.8 Offenbar P P ist diese Schranke qualitativ “gut”, so lange die πα klein und die Abhängigkeiten α β∈Ξα EIα Iβ klein sind. Beweis: Nach dem eingangs gesagten gilt für alle A ⊆ N0 P(W ∈ A) − P oi(λ)(A) = E(λgA (W + 1) − W gA (W )), wobei gA = gA,λ die Stein-Lösung (4.3) ist. Wir bestimmen wieder für jedes A ⊆ N0 die rechte Seite der obigen Gleichung. Zunächst berechnen wir E[Iα gA (W )]. Es gilt offenbar Iα gA (W ) = Iα gA (Zα + Wα′ + 1), da Ia ∈ {0, 1}. Wir schreiben die rechte Seite als Iα gA (Wα′ + 1) + Iα (gA (Zα + Wα′ + 1) − gA (Wα′ + 1)). Somit folgt ähnlich wie eben für die Zuwächste von gA |Iα gA (W ) − Iα gA (Wα′ + 1)| ≤ Iα Zα ∆g bzw. nach Bildung des Erwartungswertes |E(Iα gA (W )) − E(Iα gA (Wα′ + 1))| ≤ E(Iα Zα )∆g. Nun ist nach Definition Wα′ unabhängig von Iα , also ist E(Iα gA (Wα′ + 1)) = πα E(gA (Wα′ + 1)). Summiert man über α ∈ Ξ, so folgt X XX EIα Iβ . |E(W gA (W )) − πα E(gA (Wα′ + 1))| ≤ ∆g α∈Ξ α∈Ξ β∈Ξα Weiter gilt E(λgA (W + 1) = X πα E(gA (W + 1)) α∈Ξ und mit W − Wα′ = Iα + Zα folgt |gA (W + 1) − gA (Wα′ + 1)| ≤ ∆g(Iα + Zα ). Also |E(λgA (W + 1)) − X α∈Ξ πα E(gA (Wα′ + 1))| ≤ ∆g = ∆g X α∈Ξ X α∈Ξ 37 πα E[Iα + Zα ] (πα2 + πα EZα ). Zusammen folgt somit unsere Behauptung durch Anwendung der Dreiecksungleichung: |P(W ∈ A) − P oi(λ)(A)| = |E(λgA (W + 1) − W gA (W )| X X XX EIα Iβ ). ≤ ∆g( πα2 + πα EZα + α∈Ξ α∈Ξ α∈Ξ β∈Ξα Die obige Abschätzung von ∆g vervollständigen den Beweis. 2 Bemerkung 4.9PFür unabhängige Zufallsvariable ist für jedes α ∈ Ξ die Menge Ξα leer, P also Zα = 0 und α∈Ξ β∈Ξα EIα Iβ = 0, also folgt |P(W ∈ A) − P oi(λ)(A)| ≤ ∆g X α 1 X 2 πα2 ≤ min(1, ) π , λ α α also die Schranke aus Satz 4.5. Beispiel 4.10 (k-Runs) Es seien X1 , . . . , Xn iid Zufallsvariablen mit P(Xi = 1) = p = 1 − P(Xi = 0) i = 1, . . . , n. Sei k ∈ N fix. Sei für α ∈ {1, . . . , n} α+k−1 mod(n) Iα = Y Xi i=α und W = X Iα . α Somit beschreibt W die Anzahl der 1-Runs der Länge k unter der Xi (wenn wir sie kreisförmig anordnen). Natürlich sind die Iα abhängig, wenn die zugehörigen Indexmengen überlappen. Es gilt EIα = pk =: π, also EW = npk . Zu α ∈ {1, . . . , n} sei Ξα = {α − (k − 1), . . . , α − 1, α + 1, . . . , α + (k − 1)}, wobei die Additionen und Subtraktionen wieder “modulo n” zu verstehen sind. Wir wollen nun mittels Satz 4.5 einsehen, dass für kleine p eine Poisson-Approximation für W gültig ist. Es ist X X (πα2 + πα EZα ) = π 2 + π 2 (2k − 2) = nπ 2 (2k − 1). α α Weiter rechnet man nach, dass XX α EIα Iβ = 2nπ k−1 X i=1 β∈Ξα 38 pi gilt. Beispielsweise ist für β = α + 1 EIα Iβ = P(Iα = Iβ = 1) = pk · p = πp oder für β = α + 2 EIα Iβ = P(Iα = Iβ = 1) = pk p2 = πp2 . Setzen wir λ := EW = nπ und wenden Satz 4.5 an, so ergibt sich k−1 X 1 dT V (L(W ), P oi(λ)) ≤ (1 − e−λ )((2k − 1)kπ 2 + 2πn pi ) nπ i=1 −λ = (1 − e k )((2k − 1)p + 2 = (1 − e−λ )((2k − 1)pk + = O(p). k−1 X pi ) i=1 2p(1 − pk−1 ) ) 1−p Wendet man eine Approximation durch eine zusammengesetzte Poisson-Approximation an, so lässt sich die Güte der Approximation noch verbessern; darauf soll hier aber nicht eingegangen werden. Wir wollen nun Satz 4.8 verwenden, um eine Poisson-Approximation für die Anzahl der Teilgraphen, die isomorph zu einem gegebenen, strikt balancierten Graphen sind, abzuleiten. Wir zeigen: Satz 4.11 (Barbour, 1982) Sei H strikt balanciert mit vH = k und eH = l ≥ 1. Ist p(n) so, dass lim p(n)nk/l = c > 0 gilt, n→∞ so folgt für λ= cl |aut(H)| (wobei |aut(H)| die Größe der Automorphismengruppe von H ist) und X W = IH = XH die Konvergenz lim dT V (L(W ), P oi(λ)) = 0. n→∞ Zunächst überlegen wir, dass λ die richtige Größe hat. Es gibt auf Kn n k!|aut(H)| k 39 (|aut H| sei die Größe der Automorphismengruppe von H) Kopien von H. Jede hat die Wahrscheinlichkeit pl aufzutauchen in G(n, p). Also ist l n k!/|aut(H)| ≈ nk pl /|aut(H)| EW = EXH = p k cl k/l l = (pn ) /|aut(H)| ≈ = λ. |aut(H)| Wir führen noch ein wenig Notation ein: Sei H wie oben strikt balanciert. Dann sei (i) mt (H) = max{ρ(F ) := e(F ) v(F ) : F ⊂ H : |v(F )| = t}; offenbar gilt mt (H) < ρ(H) für 6= 1 ≤ t ≤ v(H). (ii) it (H) = ρ(H) − mt (H) für 1 ≤ t ≤ k. Es gilt i1 (H) = ρ(H), da m1 (H) = 0 gilt. (iii) ε = ε(H) := min1≤t≤k it (H) heißt der Balance-Index. Es gilt ε ≤ i1 (H) = ρ(H) und ε > 0. Lemma 4.12 Sei H strikt balanciert, Γ beliebig mit H 6⊆ Γ und |V (Γ ∩ H)| ≥ 1. Dann gilt |E(H ∪ Γ)| ≥ |E(H)| + |E(Γ)| − ρ(H)|V (H ∩ Γ)| + ε. Bemerkung 4.13 Dieses Lemma ist für Γ mit Γ ⊇ H nicht wahr, denn dann ist |E(H)| + |E(Γ)| − ρ(H)|V (H ∩ Γ)| = |E(H)| + |E(Γ)| − |E(H)| = |E(H ∪ Γ)|. Beweis von Lemma 4.12: Es ist |E(H ∩ Γ)| = ≤ = ≤ ρ(H ∩ Γ)|V (H ∩ Γ)| m|V (H∩Γ)| |V (H ∩ Γ)| (ρ(H) − i|V (H∩Γ)| )|V (H ∩ Γ)| ρ(H)|V (H ∩ Γ)| − ε. Wegen folgt die Behauptung. |E(H ∪ Γ)| = |E(H)| + |E(Γ)| − |E(H ∩ Γ)| 2 Lemma 4.14 Sei H strikt balanciert und H1 6= H2 Kopien von H in Kn mit |V (H1 ∩ H2 )| > 0. Sei F := H1 ∪ H2 . Dann gilt |E(F )| ≥ ρ(H)|V (F )| + ε. 40 Beweis: Wir setzen in Lemma 4.12 H := H1 und Γ := Hi . Dann ist nach Voraussetzung H1 ⊆ H2 . Also folgt aus Lemma 4.12 |E(F )| = ≥ = = |E(H1 ∪ H2 | 2|E(H)| − ρ(H)|V (H1 ∩ H2 )| + ε 2|E(H)| − ρ(H)(2|V (H)| − V (H1 ∪ H2 )| + ε ρ(H)|V (H1 ∪ H2 )| + ε. 2 Beweis von Satz 4.11: Wähle Indizes α, β so, dass |V (α ∩ β)| = s gilt. Also α ∪ β genau 2k − s Knoten. Es gilt dann E(Iα Iβ ) ≤ pρ(H)(2k−s)+ε = p2|E(H)|−sρ(H)+ε (da 0 < p < 1) und somit XX α∈Ξ β∈Ξα k X sl n−k k k!p2l− k +ε E(Iα Iβ ) ≤ |Ξ| k−s s s=2 = O( = O( k X sl nk nk−s p2l− k +ε ) s=2 k X (npl/k )2k−s pε ) s=2 ε = O(p (npl/k )2k−2 ) = O(pε ). Satz 4.7 liefert daher dT V (L(W ), P oi(λ)) ≤ O(pl ) + O(n−2 ) + O(pε ), denn mit πα = EIα = pl und Zα := X Iβ = k X X Iβ s=2 |V (α∩β)|=s β∈Ξα folgt X α∈Ξ πα2 2 = |Ξ|p = n k k! 2l p = λpl = O(pl ) |aut(H)| 41 und EZα ≤ k X k n−k s=2 = O( k−s s k X pl k! pl nk−s ) s=2 = O(nk−2pl ) = O(n−2). 2 Wir wollen uns nun dem Fall zuwenden, in dem wir wieder die Graphen in G(n, p) zählen, die zu einem gegebenen blau?? Graphen Γ isomorph sind, aber in dem 1 p ≫ n− m(Γ) gilt. Wie schon eingangs dieses Kapitels erwähnt, sollte man hier eine asymptotische Normalverteilung von XΓ (richtig normiert) erwarten. Es gibt mehrere Techniken, dieses Resultat zu zeigen. Wir verwenden hier ebenfalls die Steinsche Methode, diesmal für die Normalverteilung. Wir stellen auch diese Methode zunächst für Folgen von i.i.d. Zufallsvariablen vor. Wir zeigen also Satz 4.15 Es sei (Xn ) eine Folge von i.i.d. Zufallsvariablen mit EXn = 0 und V(Xn ) > 0 für alle n. Sei n X 2 Xi . σ = V(Xn ) und Sn = i=1 Dann gilt L S √ n nσ 2 ⇒ N (0, 1). Im Vergleich zum (bekannten) Beweis über Fourier-Transformierte hat der Beweis über die Steinsche Methode den Vorteil, auch eine Konvergenzgeschwindigkeit zu liefern, etwa in dem Sinn von Satz 4.16 (Berry, Esséen 1945) In der Situation von Satz 4.15 sei zusätzlich ξ := E(X13 ) < +∞. Dann gilt kξ Sn ≤ t − Φ(t)| ≤ 3 √ , sup |P √ 2 σ n t∈R nσ wobei Φ die Verteilungsfunktion der N (0, 1)-Verteilung ist. Wie im Poisson-Fall beginnen wir mit einer Charakterisierung der Grenzverteilung. 42 Lemma 4.17 Es sei Z eine reellwertige Zufallsvariable. Z ist N (0, 1)-verteilt genau dann, wenn für jede stetige, stückweise differenzierbare Funktion f : R → R mit Z 2 |f ′ (x)|e−x /2 dx < +∞ (4.6) gilt E[f ′ (Z) − Zf (Z)] = 0. Beweis: Sei Z ∼ N (0, 1) und es gelte (4.6). Mittels partieller Integration folgt Z 1 2 ′ f ′ (w)e−w /2 dw Ef (Z) = √ 2π ZR 1 2 = √ f (z)ze−z /2 dz 2π R = E(Zf (Z)). Nun zeigen wir die umgekehrte Richtung: Es gelte für jede reelle, stetige, stückweise differenzierbare Funktion mit (4.6) E[f ′ (Z) − Zf (Z)] = 0. Dann können wir dies insbesondere für Z y 2 y 2 /2 fω0 (y) := e (hω0 (x) − N (hω0 ))e−x /2 dx −∞ mit hω0 (x) := und 1 N (hω0 ) := √ 2π anwenden. Es gilt fω′ 0 (y) y 2 /2 = e ( Z 1 für x ≤ ω0 0 für x > ω0 hω0 (x)e−x −y 2 /2 (hω0 (y) − N (hω0 ))e y 2 /2 + ye = hω0 (y) − N (hω0 ) + yfω0 (y). 2 /2 dx = Φ(ω0 ) Z y −∞ (hω0 (x) − N (hω0 ))e−x Also löst fω0 die Differentialgleichung f ′ − yf = hω0 − Φ(ω0 ). Somit folgt 0 = E[fω′ 0 (Z) − Zfω0 (Z)] = E[hω0 (Z) − N (hω0 )] = P(Z ≤ ω0 ) − Φ(ω0 ). 43 2 /2 dx Bleibt zu zeigen, dass fω0 stetig und stückweise differenzierbar ist und Z 2 |fω′ 0 (x)|e−x /2 dx < +∞ R gilt. Da fω′ 0 existiert, ist fω0 stetig. Da allgemein h − N (h) und mit Z y 2 y 2 /2 UN (h)(y) := e (h(x) − N (h))e−x /2 dx −∞ auch yUN (h)(y) stückweise stetige Funktionen sind, ist UN (h)(·) stückweise stetig differenzierbar, also insbesondere fω0 . Zeigen wir noch, dass Z 1 2 √ |UN′ (h)(x)|e−x /2 dx < +∞, 2π R ist das Lemma bewiesen. Nach Voraussetzung gilt Z 2 |h(x) − N (h)|e−x /2 dx < +∞. Nach Definition von N (h) gilt ferner Z 2 (h(x)) − N (h)e−2 /2 dx = 0 R und daher ω 2 /2 Z ω 2 (h(x) − N /h))e−x /2 dx −∞ Z ∞ 2 2 +ω /2 = −e (h(x) − N (h))e−x /2 dx. UN (h)(ω) = e ω Daraus leiten wir mittels partieller Integration ab: Z ∞ Z ∞ Z ∞ 2 −x2 /2 |xUN (h)(x)|e dx ≤ x( |h(y) − N (h)|e−y /2 dy)dx 0 x Z0 ∞ y2 2 = |h(y) − N (h)|e−y /2 dy. 2 0 Dieses Integral ist für h = hω0 endlich. Analog schätzt man das Integral über Rn ab. Dies ergibt die Behauptung. 2 Die Idee, die wir aus dem letzten Lemma gewinnen ist: Wenn wir E[f ′ (W ) − W f (W )] für eine große Klasse von Funktionen f durch eine kleine Zahl kontrollieren können, so ist L(W ) dicht bei N (0, 1). Die obigen Rechnungen zeigen zudem, dass für glatte h die Steingleichung f ′ (x) − xf (x) = h(x) − N (h) durch UN (h)(x) gelöst wird und dass außerdem gilt: E[UN+ (h)′ (W ) − W UN (h)(W )] = Eh(W ) − N (h). Wieder besteht die Idee darin, die rechte Seite dieser Gleichung zu kontrolieren, um die linke Seite unter Kontrolle zu halten. Hierzu zeigen wir 44 Lemma 4.18 Ist h : R → R beschränkt und differenzierbar und UN (h) wie oben Z y 2 y 2 /2 UN (h)(y) = e (h(x) − N (h))e−x /2 dx −∞ die Lösung der Stein-Gleichung. Dann gilt r π kUN (h)k ≤ kh − N (h)k 2 (4.7) kUN (h)′ k ≤ 2kh − N (h)k (4.8) kUN (h)′′ k ≤ 2kh′ k. (4.9) und Beweis: Wie schon oben bemerkt ist w Z w 2 /2 2 (h(x) − N (h))e−x /2 dx −∞ Z ∞ 2 2 +w /2 = −e (h(x) − N (h))e−x /2 dx. UN (h)(w) = e w Für (4.7) beachte, dass für w ≤ 0 |UN (h)(w)| ≤ sup |h(x) − N (h))( x≤0 und für w ≥ 0 Z w w 2 /2 |UN (h)(w)| ≤ sup |h(x) − N (h)|e d w2 /2 (e dw und Z w −x2 /2 e folgt w 2 /2 dx) = 1 + we −∞ 1 Φ(w) ≤ √ 2π 2 /2 dy)ew 2 /2 −∞ x≥0 Da e−y Z ∞ e−y 2 /2 dy. w Z w e−x 2 /2 dx −∞ Z 2 w e−w /2 x 2 √ − e−x /2 dx = |w| |w| 2π −∞ d w2 /2 (e dw Z w e−x 2 /2 dx) > 0. −∞ Somit wird das Maximum von |UN (h)(w)| bei w = 0 angenommen. Hier ergibt sich r π kUN (h)k ≤ kh − N (h)k. 2 Für (4.8) bemerken wir, dass die Steingleichung für UN (h) für w ≥ 0 impliziert: Z ∞ 2 ′ w 2 /2 e−x /2 dx). sup |(UN (h) (w)| ≤ kh − N (h)k(1 + sup we w≥0 w≥0 45 w Da 1 1 − Φ(w) ≤ √ 2π folgt Z ∞ w 2 e−w /2 x −x2 /2 e dx = √ w w 2π sup |(UN (h)′ (w)| ≤ 2kh − N (h)k. w≥0 ∗ Setzen wir h (w) = h(−w), so gilt UN (h∗ )(w) = UN (h)(−w), daraus folgt (4.8). Zum Beweis von (4.9) leiten wir die Steingleichung UN′ (h) − wUN (h) = h − N (h) ab: (UN (h))′′ (w) = UN (h)(w) + w(UN (h))′ (w) + h′ (w) = (1 + w 2 )UN (h)(w) + w(h(w) − N (h)) + h′ (w). Wir drücken (UN (h))′′ in Termen von h′ aus. Dazu berechnen wir mittels partieller Integration: Z 1 2 (h(x) − h(y))e−y /2 dy h(x) − N (h) = √ 2π Z Z ∞ Z y x Z x 1 2 ′ −y 2 /2 ( h (z)dz)e − ( h′ (z)dz)e−y /2 dy) = √ ( 2π −∞ y x Z x Z z Z ∞x Z ∞ 1 2 ′ −y 2 /2 ′ = √ ( h (z)( e dy) − h (z)( e−y /2 dy)dz) 2π −∞ −∞ x x Z x Z ∞ = h′ (z)Φ(z)dz − h′ (z)(1 − Φ(z))dz. −∞ x Somit folgt w 2 /2 Z w 2 (h(x) − N (h))e−x /2 dx Z−∞ Z ∞ w Z x 2 2 w /2 ′ = e ( h (z)Φ(z)dz − h′ (z)(1 − Φ(z))dz)e−x /2 dx −∞ x Z−∞ Z w w 2 2 = ew /2 ( h′ (z)Φ(z)( e−x /2 dx)dz z Z w −∞ Z z 2 ′ − h (z)(1 − Φ(z))( e−x /2 dx)dz Z−∞ Z −∞ ∞ w 2 − h′ (z)(1 − Φ(z))( e−x /2 dx)dz) w Z−∞ Z ∞ w √ 2 w /2 ′ ((1 − Φ(w)) h (z)Φ(z)dz + Φ(w) h′ (z)(1 − Φ(z))dz). = − 2πe (UN (h))(w) = e −∞ 46 w Damit erhalten wir ′′ ′ (UN (h)) (w) = h (w) + (w − √ 2 w 2 /2 2π(1 + w ))e Z √ 2 +(−w − 2π(1 + w )Φ(w) ∞ w (1 − Φ(w)) Z w h′ (z)Φ(z)dz −∞ h′ (z)(1 − Φ(z))dz. Offenbar ist für alle w > 0 w+ √ 2 2π(1 + w 2 )ew /2 Φ(w) > 0. (4.10) Für w < 0 ist aber (wieder mittels partieller Integration) √ 2 w + 2π(1 + w 2 )ew /2 Φ(w) Z w Z w −x2 /2 2 ew /2 e −x2 /2 2 w 2 /2 w 2 /2 e dx + w e (− = w+e − dx) w x2 −∞ −∞ Z w w2 2 w 2 /2 = e (1 − 2 )e−x /2 dx > 0. x −∞ Also stimmt (4.10) für alle w. Wendet man es auf −w an, so ergibt sich √ 2 −w + 2π(1 + w 2 )ew /2 (1 − Φ(w)) > 0 für alle w. Weiter ist Z und (4.11) 2 w e−w /2 >0 Φ(z)dz = wΦ(w) + √ 2π −∞ 2 ∞ e−w /2 > 0. (1 − Φ(z))dz = −w(1 + Φ(w)) + √ 2π w Mit der Positivität all dieser Ausdrücke erhalten wir Z √ 2 e−w /2 kUN (h) k ≤ (1 + sup([−w + 2π(1 + w )e ] (1 − Φ(w))][wΦ(w) + √ 2π w 2 √ e−w /2 2 w 2 /2 Φ(w)][−w(1 − Φ(w)) + √ ])kh′ k +[w + 2π(1 + w )e 2π ′ = 2kh k. ′′ 2 w 2 /2 Dies beweist (4.9). 2 Wir wollen nun sehen, dass sich unsere Arbeit gelohnt hat: Beweis von Satz 4.15: Die Klasse aller stetig differenzierbaren Abbildungen von R nach R ist konvergenzdeterminierend für die schwache Konvergenz (das findet man z. B. in “Weak Convergence of Probability Measures” von Billingsley und beweist es wie im Portmanteau-Theorem). Sei also σ = 1 und ξ = E|Xi |3 < ∞. Sei Wn := √Snn und h : R → R stetig differenzierbar mit kh′ k < ∞. Sei wieder Z y 2 y 2 /2 UN (h) =: f := e (h(x) − N (h))e−x /2 dx. −∞ 47 Weiter sei Xi Wni := Wn − √ . n Wir entwickeln f mit Hilfe der Taylor-Formel f (Wn ) − (f (Wni ) + (Wn − Wni )f ′ (Wni )) = Z wn Wni (Wn − t)f ′′ (t)dt. Also: Z Xi Xi2 ′ i Xi W n Xi ′′ i (Wn − t)f (t)dt . f (Wn ) = E √ E √ f (Wn ) − √ f (Wn ) − n n n n Wni Die rechte Seite können wir kontrollieren: Z Xi W n ′′ (Wn − t)f (t)dt | |E √ n Wni Z Xi W n ≤ E| √ |Wn − Wni |kf ′′ kdt| n Wni ≤ kf ′′ kE |Xi |3 . n3/2 Die Zufallsvariablen Xi und Wni sind stochastisch unabhängig, also ist E(Xi f (Wni )) = EXi Ef (Wni ) = 0 und E(Xi2 f ′ (Wni )) = EXi2 Ef ′ (Wni ) = Ef ′ (Wni ). Somit erhalten wir 1 ξ Xi |E √ f (Wn ) − Ef ′ (Wni )| ≤ kf ′′ k 3/2 . n n n Dies ergibt: |Eh(Wn ) − N (h)| = |E[f ′ (Wn ) − Wn f (Wn )]| n n n X Xi 1X ′ i 1X ′ i ′ √ f (Wn )]| f (Wn ))| + |E[ f (Wn ) − ≤ |E(f (Wn ) − n i=1 n i=1 n i=1 n n X 1 1X Xi ≤ E|f ′ (Wn ) − f ′ (Wni )| + | Ef ′ (Wni ) − E( √ f (Wn )|. n i=1 n n i=1 Den ersten Summanden können wir mithilfe des Mittelwertsatzes durch n n 1 X ′′ E|Xi | 1X E|f ′ (Wn ) − f ′ (Wni )| ≤ kf k √ n i=1 n i=1 n abschätzen. Aufgrund der Jensen-Ungleichung ist E|Xi | ≤ ξ 1/3 , 48 also insgesamt mit den Vorüberlegungen und kf ′′ k ≤ 2kh′ k Eh(Wn ) − N (h)| ≤ 2kh′ kξ 1/3 2kh′ kξ √ + √ . n n 2 Bemerkung 4.19 Wir haben hier zusätzlich zu den Voraussetzungen von Satz 4.15 noch angenommen, dass E|Xi |3 < ∞ ist. Einen Beweis ohne diese Annahme findet man im Skript “Wahrscheinlichkeitstheorie I”. Dort bekommt man natürlich auch keine Schranke an die Konvergenzgeschwindigkeit. Der Beweis liefert nicht ganz Satz 4.16, denn dort müsste man Indikatoren h(x) = 1l(−∞,w] (x) betrachten, diese sind im entscheidenden Punkt schlecht differenzierbar. Approximiert man h durch stetig differenzierbare Funktionen, so muss man eine Balance halten: Je genauer die Approximation wird, desto größer wird die Schranke an die Ableitung. Ohne weitere 1 Ideen lässt sich so eine Ordnung von C · n1/4 erzielen. Ein induktiver Beweis von Bolthausen (1984) zeigt allerdings, dass sich Satz 4.16 mit einer Schranke der Form c/n1/2 mithilfe der Steinschen Methode beweisen lässt. Wir wollen hier davon absehen. Wir wenden uns nun der Situation mit abhängigen Zufallsvariablen zu: Hier gilt die folgende Verallgemeinerung von Satz 4.15, die 1989 von Barbour, Karoński und Ruciński gezeigt wurde (wir verzichten darauf, einen Beweis zu geben): Satz 4.20 Sei W eine Zufallsvaria¡ble, die folgendermaßen zerlegen werdenkann: Für eine endliche Indexmenge Ξ und Ξα ⊆ Ξ für α ∈ Ξ und quadratisch integrierbare Zufallsvariablen Xα , Wα , Zα , Zαβ , Wαβ und Vαβ , α ∈ Ξ, β ∈ Ξα gilt: X W = Wα α∈Ξ W = Wα + Zα fürjedes α ∈ Ξ X Zαβ für jedes α ∈ Ξ Zα = β∈Ξα Wα = Wαβ + Vαβ α ∈ Ξ, β ∈ Ξα , für wobei weiterhin gelte: EXα = 0 ∀α, Wα ist unabhängig von Xα und Wαβ ist unabhängig von dem Paar (Xα , Zαβ ). Dann gibt es eine universelle Konstante C, so dass für σ 2 = V W und 1 W̃ = W σ gilt d1 (L(W̃ ), N (0, 1)) ≤ XX C X 2 (E|Xα Zαβ Vαβ | + E|Xα Zαβ |E|Zα + Vαβ |). ( E(|X |Z ) + α α σ 3 α∈Ξ α∈Ξ β∈Ξ α 49 Bemerkung 4.21 Die Abstandsfunktion d1 zwischen zwei Zufallsvariablen X und Y ist gegeben durch d1 (X, Y ) = sup(|Eh(X) − Eh(Y )| : sup |h(x)| + sup |h′ (x)| ≤ 1. x x Wir schreiben in Missbrauch von Notationen N (0, 1) für eine Gaußsche Zufallsvariable ebenso wie für ihre Verteilung. Konvergenz in d1 impliziert Verteilungskonvergenz. Natürlich besteht die wesentliche Herausforderung in Anwendungen in der Konstruktion einer geeigneten Zerlegung der Indexmenge. Haben die (Xα )α∈Ξ genügend viel Unabhängigkeit, so geht das recht gut. Um dies in ein quantifizierbares Resultat umzuwandeln führen wir den Abhängigkeitsgraphen der (Xα ) ein. Dieser hat Ξ als Knotenmenge und eine Kante zwischen α und β, wenn Xα und Xβ abhängig sind. Sind also A, B ⊆ Ξ so, dass A und B in diesem Graphen keine verbindenden Kanten haben, so sind die Familie (Xα )α∈A und (Xβ )β∈B unabhängig. Man definiert in diesem Abhängigkeitsgraphen L auf natürliche Weise die Umgebung NL (α1 , . . . , αr ) einer Knotenmenge {α1 , . . . , αr } ⊆ V (L). NL (α1 , . . . , αr ) = r [ {β ∈ V (L)∃i, so dass β = αi oder {αi , β} ∈ E(L)}. (4.12) i=1 Dann gilt das folgende Resultat Satz 4.22 Sei W = X Xα , α∈Ξ wo (Xα )α∈Ξ eine Familie von Zufallsvariablen mit Abhängigkeitsgraph L ist und für die EXα = 0 ∀ α ∈ Ξ gilt. Sei σ 2 = VW mit 0 < σ 2 < ∞. Dann gilt für die Umgebung NL (α) wie in (4.12) und eine universelle Konstante C: C X X d1 (L(W̃ ), N (0, 1)) ≤ 3 (E|Xα Xβ Xγ | + E|Xα Xβ |E|Xγ ). σ α β,γ∈NL (α) Beweis: Wir verwenden Satz 4.20 mit Ξα = NL (α) X Wα = Xβ β ∈N / L (α) X Zα = Xβ β∈NL (α) Zαβ = Xβ X Wαβ = Xγ γ ∈N / L (α)∪NL (β) X und Vαβ = γ∈NL (β)\NL (γ) 50 Xγ . Dann sieht man, dass X XX (E|Xα Zαβ Vαβ | + E|Xα Zαβ |E|Zα + Vαβ |) E(|Xα |Zα2 ) + α α∈Ξ ≤ 2 X X α β,γ∈NL (α) β∈Bα (E|Xα Xβ Xγ | + E|Xα Xβ |E|Xγ |), was das Resultat impliziert (hierbei dürfen wir annehmen, dass EXα2 < +∞ gilt, denn sonst ist die rechte Seite unserer Behauptung sowieso unendlich). 2 Als Konsequenz hieraus erhalten wir Satz 4.23 Sei (Sn )n∈N eine Folge von Zufallsvariablen mit X Xnα , Sn = α∈Ξn wobei für jedes n (Xnα )α eine Familie von zentrierten Zufallsvariablen mit Abhängigkeitsgraph Ln ist. Angenommen, es gibt Zahlen Mn und Qn , so dass X E|Xnα | ≤ Mn (4.13) α∈Ξn und für alle α1 , α2 ∈ Ξn X α∈NLn (α1 ,α2 ) Sei σn2 = VSn . Dann gilt für S̃n = E(|Xnα | |Xnα1 , Xnα2 ) ≤ Qn . (4.14) Sn σn d1 (L(S̃n ), N (0, 1)) = O Mn Q2n σn3 . Insbesondere gilt d S̃n −→ N (0, 1), falls Mn Q2n → 0. σn3 Beweis: OBdA EXnα = 0 (sonst ersetzen wir Xnα durch Xnα − EXnα ). Bemerke, dass dies nichts an den Bedingungen (4.13) und (4.14) ändert, wenn wir Qn und Mn durch 2Qn und 2Mn ersetzen. Das folgende Lemma (dessen Beweis wir allerdings schuldig bleiben) zeigt, dass X X (E|Xα Xβ Xγ | + E|Xα Xβ |E|Xγ |) ≤ 2Mn Q2n . (4.15) α β,γ∈NL (α) Damit folgt die Behauptung aus Satz 4.22. 2 51 Lemma 4.24 Unter den Voraussetzungen von Satz 4.23 gilt (4.15). Beweis: Übung, siehe Janson, Luczak, Rucziński, Lemma 6.17. 2 Als eine Anwendung betrachten wir wieder die Statistik, die die Anzahl von Teilgraphen in G(n, p) zählt. Sei Γ dazu wieder ein fester Graph mit eΓ > 0. Es sei p(n) diesmal so, dass mit n → ∞ npm(Γ) → ∞ und desweiteren n2 (1 − p) → ∞ gilt. Sei (Γα )α∈Ξn die Familie von Teilgraphen in Kn , die zu Γ isomorph sind, sei Iα = 1lΓα ⊆G(n,p) und Xα = Iα − EIα . Sei XΓ = X Iα . α∈Ξn Dann ist XΓ − EXΓ = X Xα . α∈Ξn Wir überprüfen zunächst (4.13) und (4.14). Sei dazu Ln der Abhängigkeitsgraph der Iα , d. h. α, β ∈ Ξn sind in Ln verbunden, falls die zu α und β gehörigen Graphen Gα und Gβ in Kn eine gemeinsame Kante haben. Nun beachte, dass E|Xα | = 2EIα (1 − EIα ) ≤ const(Γ)(1 − p)EIα und daher X α also gilt (4.13) mit E|Xα | ≤ const(Γ)(1 − p)EXΓ , Mn = const(Γ)(1 − p)EXΓ = O((1 − p)EXΓ ). Nun seien α1 , α2 ∈ Ξn gegeben. Setze F = Γα1 ∪ Γα2 und für jedes α ∈ Ξn Fα = Γα ∩ F. Bemerke, dass 6 0. α ∈ NLn (α1 , α2 ) ⇔ |e(Fα )| = 52 Es gibt weniger als 2vF ≤ 22vΓ solcher Teilgraphen F und für jedes H ⊆ F gibt es O(nvΓ −vH ) Wahlen von α, so dass Fα = H gilt, wobei E(|Xα | |Xα1 , Xα2 ) ≤ E(|Iα | |Xα1 , Xα2 ) + EIα ≤ 2peΓ −eH . Da weiterhin jedes Fα isomorph zu einem Subgraphen von Γ ist, folgt, dass X α∈NL (α1 ,α2 ) E(|Xα | |Xα1 , Xα2 ) ≤ B sup H⊂Γ eH ≥1 EXΓ EXΓ =B EXH ΦΓ für ein geeignetes B, das von Γ abhängt und ΦΓ wie in Abschnitt 3. Also gilt auch (4.14) mit EXΓ EXΓ Qn = B =O . ΦΓ ΦΓ Also gilt: Mn Q2n const(Γ)(1 − p)(EXΓ )3 Φ−2 Γ = =O σn3 σn3 denn aus Lemma 3.9 folgt σn2 ≈ V(XΓ ) ≈ (1 − p) 1 −1/2 √ , Φ 1−p Γ (EXΓ )2 . ΦΓ Da nun ΦΓ = min{EXH : H ⊆ Γ : eH > 0} 1 − m(Γ) gegen ∞ geht, wenn p ≫ n , folgt Satz 4.25 Sei Γ fest mit eΓ > 0. Falls nun mit n → ∞ npm(Γ) → ∞ n2 (1 − p) → ∞, und dann gilt X̃Γ → N (0, 1). Bemerkung: Es gilt sogar: d1 (L(X̃Γ ), N (0, 1)) = O 53 1 1 √ 1 − p Φ1/2 Γ ! → 0. 5 Verzweigungsprozesse Da wir in der Folge einen kritischen Zufallsgraphen häufig mit einem Verzweigungsprozess vergleichen wollen, stellen wir ein kurzes Kapitel üver Verzweigungsprozesse voran. Ein Verzweigungsprozess ist das einfachste Modell einer sich zeitlich entwickelnden Population. Wir stellen uns vor, dass jeder Organismus in einer Population zu diskreten Zeitpunkten eine Anzahl von Kindern zeugt und dann stirbt. Wir nehmen an, dass die Verteilung der Nachkommenzahl über alle Organismen die gleiche ist und wir bezeichnen diese mit (pi )i , wobei pi die Wahrscheinlichkeit sei, dass ein Organismus i Kinder zeugt. Es sei Zn die Größe der Population zur Zeit n, mit Z0 = 1 und Zn−1 Zn = X Xn,i . i=1 Es ist dabei Xn,i ein Dreiecksschema von unabhängigen Zufallsvariablen, die gemäß (pi )i verteilt sind, oftmals nennen wir eine wolche Zufallsvariable auch X. Der erste zentrale Satz der Theorie der Verzweigungsprozesse besagt nun, dass der Prozess ausstirbt, wenn E[X] ≤ 1 (mit der Ausnahme, dass für X ≡ 1 der Prozess natürlich überlebt), während es mit positiver Wahrscheinlichkeit überlebt, wenn EX ≥ 1. Sei η = P[∃n : Zn = 0] die Aussterbewahrscheinlichkeit des Prozesses. Dann gilt: Satz 5.1 Sei der Verzweigungsprozess Zn wie oben definiert. Dann gilt: • EX < 1 ⇒ η = 1; • EX = 1, P(X = 1) < 1 ⇒ η = 1; • EX > 1 ⇒ η < 1. Ist weiter GX die erzeugende Funktion von X EsX =: GX (s), dann ist η die kleinste Lösung von η = GX (η). Beweis: Sei ηn = P(Zn = 0). Da {Zn = 0} ⊆ {Zn+1 = 0} gilt, dass ηn steigend ist, da ηn ≤ 1 ∀ n, gilt ηn → η für n → ∞. Sei Gn (s) = EsZn 54 die erzeugende Funktion der n-ten Generation. Wenn X nur Werte in N0 annimmt, ist P(X = 0) = GX (0). Also folgt ηn = Gn (0). Zerlegt man nach der Größe der ersten Generation, folgt Gn (s) = Es Zn = ∞ X i=0 Zn pi E[s |Z1 = i] = ∞ X pi Gin−1 (s). i=0 Schreiben wir also GX für GX1,1 , so gilt Gn (s) = GX (Gn−1 (s)). Setzen wir s = 0 ein, bekommen wir für ηn die Gleichung ηn = GX (ηn−1 ). Für n → ∞ konvergiert ηn gegen η, also folgt wegen der Stetigkeit von G: η = GX (η). Ist P(X = 1) = 1, so gibt es stets ein Individuum, und mehr ist nicht zu sagen. Ist P(X1 ≤ 1) = 1 und p0 > 0, so folgt P(Zn = 0) = 1 − (1 − p0 )n → 1. Sei also P(X ≤ 1) < 1. Angenommen, ψ ∈ [0, 1] erfüllt GX (ψ) = ψ. Dann ist η ≤ ψ, denn η0 = 0 ≤ ψ und da GX monoton wachsend ist, folgt dann induktiv ηn = GX (ηn−1 ) ≤ GX (ψ) = ψ. Lassen wir n → ∞ gehen, so folgt η ≤ ψ. Also ist η der kleinste Fixpunkt von GX . Bemerke, dass GX (wachsend, wie schon bemerkt und) konvex ist, denn |n| GX (s) = E[X(X − 1)sX−2 ] ≥ 0. Ist, wie angenommen, P(X ≤ 1) < 1, so ist |n| GX (s) > 0, also GX strikt konvex. Also kann die Gleichung s = GX (s) (5.1) höchstens 2 Lösungen in [0, 1] haben. Eine Lösung ist stets s = 1. Da GX (0) > 0, gibt es genau eine Lösung von (5.1), wenn G′X (1) ≤ 1 gilt, während es für G′X (1) > 1 zwei Lösungen gibt. Also ist 55 • η = 1, wenn G′X (1) < 1, • η < 1, wenn G′X (1) > 1. Ist G′X (1) = 1, so gibt es wieder genau eine Lösung, es sei denn GX (s) = s, was zu P(X = 1) äquivalent ist. Da G′X (1) = EX, folgt die Behauptung. 2 Oftmals werden wir statt η die Überlegenswahrscheinlichkeit ζ verwenden, die durch ζ = 1 − η, d. h. ζ = P(Zn > 0, ∀ n ∈ N) definiert ist. Wir studieren nun die Größe der gesamten Nachkommenschaft T des Verzweigungsprozesses, definiert durch T = ∞ X Zn . n=0 Sei GT die erzeugende Funktion von T : GT (s) = EsT . Das zentrale Resultat ist hier Satz 5.2 Für einen Verzweigungsprozess mit i.i.d. Nachkommenverteilung (sei X die zugehörige Zufallsvariable) gilt GT (s) = s GX (GT (s)). Beweis: Wir bedingen wieder auf die Größe der ersten Generation und benutzen, dass, wenn Z1 = i die totale Nachkommenschaft Tj des j-ten Kindes der ersten Generation für j = 1, . . . , i aus i.i.d. Zufallsvariablen besteht, die so verteilt sind wie T . Benutzt man also i X T =1+ Tj j=1 (wobei P0 j=1 Tj ≡ 0), erhält man GT (s) = ∞ X pi E[sT |Z1 = i] i=0 ∞ X = s pi E[sT1 +...+Ti ] i=0 = s ∞ X pi GT (s)i i=0 = sGX (GT (s)). 56 2 Wir wollen uns nun der mittleren Generationsgröße eines Verzweigungsprozesses zuwenden und daraus Folgerungen ableiten. Satz 5.3 Für alle n > 0 gilt E[Zn ] = µn , wobei µ := EZ1 = EX. Beweis: Da Zn−1 Zn = X Xα,i , i=1 folgt durch Bedingen auf Zn−1 EZn = µE[Zn−1 ]. 2 Übung 5.4 Zn µn ist ein Martingal. Satz 5.5 Für einen Verzweigungsprozess mit i.i.d. verteilter Nachkommenschaft, die so verteilt ist wie die Zufallsvariable X, für die EX = µ < 1 gelte, gilt ET = 1 . 1−µ Beweis: Übung. 2 Vergleicht man einen Verzweigungsprozess mit einem Zufallsgraphen, so ist es oftmals praktischer, einen Markov-Kette-Standpunkt einzunehmen. Seien also X1 , X2 , . . . i.i.d. mit PX1 = PX1,1 . Sie S0 , S1 , . . . rekursiv definiert durch S0 = 1 (5.2) Si = Si−1 + Xi − 1 = i X j=1 Xj − (i − 1). Sei T der kleinste Index, für den St = 0 gilt, d. h. T = min{t : St = 0} = min{t : X1 + . . . + Xt = t − 1}. Gibt es so ein t nicht, setzen wir T = +∞. Diese Beschreibung ist äquivalent zu der Beschreibung eines Verzweigungsprozesses, aber beschreibt den Verzweigungsprozess anders, 57 so ist es beispielsweise aus dieser Beschreibung die Generationsgröße abzulesen. Um zu sehen, dass die beiden Beschreibungen übereinstimmen, zeigen wir, dass die Verteilung der Zufallsvariable T im Markovkettenbild mit der Zufallsvariable T im normalen Bild des Verzweigungsprozesses, der totalen Nachkommenschaft übereinstimmt. Um dies zu sehen, beachte, dass sich der zum Verzweigungsprozess gehörige Baum folgendermaßen erkunden lässt: Sei X1 die Anzahl der Kinder des ursprünglichen Individuums und sei S1 = X1 − 1. Starten wir in der Wurzel, so gibt es S1 Individuen, deren Nachkommenschaft wir noch nicht untersucht haben. Wir behaupten, dass sich für alle Si eine solche Interpretation geben lässt. ′ Lemma 5.6 Der Prozess (Si )i hat dieselbe Verteilung wie der Prozess (Si′ )∞ i=1 , wobei Si die Anzahl der nocht nicht untersuchten Nachkommen in dem Explorationsprozess der Population eines Verzweigungsprozesses, nachdem man sukzessiv i Nachkommen untersucht hat. Beweis: Wir beweisen dies induktiv nach i. Für i = 0 ist nichts zu zeigen. Sei die Behauptung für Si−1 gezeigt. Ist Si−1 = 0, so gilt die Behauptung, denn dann ist der gesamte Stammbaum untersucht, und die Anzahl der untersuchten Individuen ist so groß wie der Stammbaum, also T . Sei also Si−1 > 0. Dann wählen wir ein beliebiges noch nicht untersuchtes Individuum und bezeichnen mit der Zufallsvariable Xi die Anzahl seiner Nachkommen. Da die NachD kommenzahla verschiedener Individuen unabhängig ist, ist Xi = Z1 . Somit haben wir, nachdem wir die Kinderzahl des i-ten Individuums festgestellt und somit das i-te Individuum erkundet haben, Xi Individuen hinzugewonne, die wir erkunden müssen, während wir eines (das i-te) erkundet haben. Die Anzahl der noch nicht erkundeten Individuen ist also Si−1 + Xi − 1 = Si . 2 Es folgt also auch, dass T als Stoppzeit definiert in Verteilung gleich der gesamten Nachkommenschaft ist. Der zu der Rekursion gehörige Verzweigungsprozess ist der folgende: Wir beginnen mit einem aktiven Individuum. Zur Zeit i, wählen eines der aktiven Individuen aus, geben ihm Xi Kinder und setzen es selbst auf inaktiv, während die Kinder (falls Xi > 0) auf “aktiv” gesetzt werden. Das wird fortgesetzt, bis es keine aktiven Mitglieder der Population mehr gibt. Dann ist Si die Anzahl der aktiven Knoten, nachdem i Individuen untersucht wurden. Der Prozess stoppt für St ≡ 0, kann aber für alle t definiert werden, weil der Wert von T dabei unberührt bleibt. Tatsächlich macht der Explorationsprozess nur für i ≤ T Sinn, da nur dann Si ≥ 0 ∀ i ≤ T gilt. Er kann aber für alle i ≥ 0 definiert werden, was wir bei Gelegenheit benutzen werden. Sei weiter H = (X1 , . . . , XT ) die Geschichte des Prozesses bis zur Zeit T . Wir lassen auch T = ∞ zu, in welchem Fall H unendliche Länge hat. Eine Folge (x1 , . . . , xt ) ist eine mögliche Geschichte genau dann, wenn si > 0 für alle i < t und st = 0 gilt, dabei ist si = i X j=1 xj − (i − 1). 58 Dann gilt für jedes endliche t < ∞ P(H = (x1 , . . . , xt )) = t Y px i . (5.3) i=1 (5.3) legt die Verteilung des Verzweigungsprozesses fest, bedingt darauf, dass er ausstirbt. Wir können diese Perspektive also einnehmen, um die Verteilung des Verzweigungsprozesses bedingt darauf, dass er ausstirbt, zu beschreiben. Wir nennen dafür zwei Verteilungen p und p′ ein konjugiertes Paar, falls p′x = η x−1 px für alle x gilt. Hierbei ist η die Aussterbewahrscheinlichkeit, die zur Nachkommenverteilung (px ) gehört, also η = GX (η). Übung 5.7 Zeigen Sie, dass p′ = (p′x ), x ∈ N, eine Wahrscheinlichkeitsverteilung ist. Der Grund, p′ einzuführen ist der folgende: Satz 5.8 Seien p und p′ konjugierte Wahrscheinlichkeiten. Dann hat der Verzweigungsprozess mit Nachkommenverteilung p bedingt darauf, dass er ausstirbt, die gleiche Verteilung wie ein Verzweigungsprozess mit Nachkommenverteilung p′ . Beweis: Es genügt zu zeigen, dass für jede endliche Geschichte (x1 , . . . , xn ) die Wahrscheinlichkeit (5.3) die gleiche ist für einen Verzweigungsprozess mit Nachkommenverteilung p, bedingt darauf, dass er ausstirbt und für einen Verzweigungsprozess mit Nachkommenverteilung p′ . Sei also t < ∞ fest. Beachte zunächst, dass P(H = (x1 , . . . , xt )|Aussterben) = P({H = (x1 , . . . , xt )} ∩ {Aussterben}) P(Aussterben) (5.4) = P({H = (x1 , . . . , xt )})/η, da jede endliche Geschichte impliziert, dass der Prozess ausstirbt. Benutzen wir nun (5.3) zusammen mit t Y i=1 px i = t Y p′xi i=1 Pt = η t− = η Y 1 η xi −1 i=1 xi t Y i=1 i=1 59 p′xi , p′xi da x1 + . . . + xt = t − 1. Setzt man in (5.4) ein, erhält man P(H = (x1 , . . . , xr )|Aussterben) = P′ (H(x1 , . . . , xr )), wobei P′ die zu p′ Verteilung von H ist. 2 Übung 5.9 a) Zeigen Sie, dass für die erzeugende Funktion des dualen Prozesses Gd (s) = E′ sX1 gilt 1 Gd (s) = GX (ηs). η b) Zeigen Sie, dass, falls für den Originalprozess η > 1 gilt, E′ [X] < 1 gilt, der zu p′ gehörige Verzweigungsprozess ist also subkritisch. Ein weiterer Aspekt der Markov-Ketten-Perspektive ist, dass man handlich die Aussterbewahrscheinlichkeit berechnen kann, wenn der Baum eine gewisse Größe hat: Satz 5.10 Habe ein Verzweigungsprozess wieder i.i.d. Nachkommen, die verteilt sind wie X mit µ = EX > 1. Dann gilt P[k ≤ T < ∞] ≤ e−Ik , 1 − e−I wobei I gegeben ist durch I = sup(t − log EetX ). t≤0 Bemerkung 5.11 Eine Kernaussage von Satz 5.10 ist, dass die Überlebenswahrscheinlichkeit hoch ist, wenn wir erst einmal eine gewisse Populationsgröße erreicht haben. Bemerke, dass für µ > 1 und EetX < ∞ für alle t ∈ R gilt I = sup(t − log EetX ). t Allerdings wird EetX ∀ t ∈ R nicht in Satz 5.10 vorausgesetzt. Da X ≥ 0 ist, ist allerdings EetX für t ≤ 0 immer endlich. Da auch die Ableitung von t 7→ t − log EetX in t = 0 1 − EX < 0 ist, wird das Supremum in t < 0 angenommen. Daher folgt auch I > 0 ohne weitere Annahmen. 60 Beweis von Satz 5.10: Wenn T = s ist, so folgt Ss = 0, also X1 + . . . + Xs = s − 1 ≤ s. Daher folgt P(k ≤ T < ∞) ≤ ∞ X s=k P(Ss = 0) ≤ ∞ X s=k P(X1 + . . . + Xs ≤ s). Benutzt man die obere Schranke aus dem Satz von Cramér, dann ist P( n X s=1 Xi ≤ n) = e−nJ(1) mit J(a) = sup[ta − log EetX1 ] t≤0 (da 1 < EX1 ), so ergibt sich P(k ≤ T < ∞) ≤ ∞ X e−sI = s=k e−Ik . 1 − e−I 2 Wir wollen uns nun der Konvergenz der Populationen der n-ten Generation zuwenden. Da diese im kritischen und subkritischen Fall ausstirbt, konvergiert Zn gegen 0 und mehr ist nicht zu sagen. Für µ > 1 gilt lim P(Zn = k) = 0, n→∞ es sei denn, k = 0 und P( lim Zn = 0) = 1 − P(lim Zn = ∞) = η, n→∞ wobei η eben wieder die Aussterbewahrscheinlichkeit des Prozesses ist. Sei η < 1, d. h. die Population überlebt mit positiver Wahrscheinlichkeit, und in diesem Fall ist lim Zn = +∞. Satz 5.12 Für einen Verzweigungsprozess mit i.i.d. Nachkommenverteilung (wie X) mit µ = EX > 1, gilt Zn → W∞ P-f.s. µn für eine P-f.s. endliche Zufallsvariable W∞ . 61 Beweis: Da Zn µn ein Martingal mit E 1 Zn = n EZn = 1 n µ µ ist, folgt die Behauptung aus dem Martingalkonvergenzsatz. 2 Allerdings lässt sich über W∞ wenig sagen. Ein wichtiger Satz über die Konvergenz im superkritischen Fall ist der folgende Satz 5.13 (Kesten-Stigun) Für einen Verzweigungsprozess mit i.i.d. Nachkommenvertielung (wie X) mit EX = µ > 1 gilt P(W∞ = 0) = η ⇔ E[X log X] < ∞. In diesem Fall gilt auch E[W∞ ] = 1, während für E[X log X] = ∞ gilt P[W∞ = 0] = 1. Der Beweis soll hier nicht gegeben werden. Er befindet sich z. B. im Buch von Arthreya und Ney, Branching Processes. Satz 5.11 impliziert, dass P[W∞ > 0] = 1 − η, so dass W∞ > 0 bedingt darauf, dass der Prozess überlebt. Es bleibt die Frage, was passiert, wenn EX log X = +∞. In diesem Fall hat Seneta gezeigt, dass es eine geeignete Normalisierung (cn )∞ n=1 gibt, so dass lim c1/n =µ n n→∞ und Zn konvergiert gegen einen nicht-entarteten Grenzwert cn gilt. Allerdings ist cn = 0(µn ), so dass P(W∞ = 0) = 1 gilt. Wir wollen uns nun mit den Individuen beschäftigen, die für immer überleben. Diese formen wieder einen Verzweigungsprozess, wie wir gleich sehen werden. Dazu seien Zn∞ diejenigen Individuen der n-ten Generation, deren Nachkommen nie aussterben. Dann gilt Satz 5.14 Der Prozess (Zn∞ )∞ n=1 ist wieder ein Verzweigungsprozess mit Nachkommen(∞) (∞) ∞ ∞ verteilung (p ) = (pk )k=0 , die durch p0 = 0 und ∞ 1 X j j−k (∞) pk = η (1 − η)k pj (5.5) ζ k j=k für k ≥ 1 gegeben ist. Da (∞) µ(∞) = EZ1 = µ = EZ1 , (5.6) ist dieser Verzweigungsprozess superkritisch mit der gleichen durchschnittlichen Anzahl der Nachkommen wie der ursprüngliche Prozess. 62 Bemerkung 5.15 Es ist interessant, dieses Resultat mit Satz 5.8 zu vergleichen. Im superkritischen Regime ist der Verzweigungsprozess bedingt darauf, dass er ausstirbt, wieder ein Verzweigungsprozess mit der dualen Verzweigungsrate, während die Individuen, bedingt auf Überleben, wieder einen superkritischen Verzweigungsprozess formen. Beweis: Sei A∞ := {Zn → ∞}. Wir zeigen induktiv, dass für jedes n ≥ 0 die Verteilung (∞) von (Zk )nk=0 bedingt auf A∞ gleich ist zu der von (Ẑk )nk=0 , wobei (Ẑk ) ein Verzweigungsprozess mit Nachkommenverteilung p(∞) wie in (5.5) ist. Für n = 0 gilt natürlich (∞) Z0 = 1 = Ẑ0 . Angenommen, die Annahme gelte für n. Die Behauptung für n + 1 folgt dann, falls wir (∞) (∞) zeigen können, dass die bedingte Verteilung von Zn+1 gegeben (Zk )nk=0 gleich der von Ẑn+1 gegeben (Ẑk )nk=0 ist. Letztere ist natürlich gleich der einer unabhängigen Summe (∞) (∞) von Ẑn unabhängigen Zufallsvariablen. Die Verteilung von Zn+1 gegeben (Zk )nk=0 ist (∞) (∞) gleich PZn+1 |Zn und jedes Individuum mit unendlich vielen Nachkommen, das wir in der n-ten Generation betrachten, erzeugt eine zufällige i.i.d. Zahl von Nachkommen in der (∞) n + 1-sten Generation mit der gleichen Verteilung wie Z1 bedingt auf A∞ . Also bleibt zu zeigen (∞) (∞) P(Z1 = k|A∞ ) = pk . Für k = 0 sind offenbar beide Seiten 0. Für k ≥ 1 bedingen wir auf Z1 . Für k ≥ 1 (∞) impliziert Z1 = k, dass Z1 ≥ k und dass A∞ auftritt, also (∞) P(Z1 1 (∞) P(Z1 = k) ζ 1X (∞) P[Z1 = k|Z1 = j]P(Z1 = j) = ζ j≥k 1 X j j−k η (1 − η)k · pj , = ζ j≥k k = k|A∞ ) = da jedes der j Partikel mit Wahrscheinlichkeit ζ = 1 − η unendlich viele Nachkommen hat, so dass (∞) P(Z1 = k|Z1 = j) = B(k; j, 1 − η). Nun zeigen wir noch (5.6). Wir beginnen mit dem Fall µ < ∞. Dann ist µ (∞) = ∞ X (∞) kpk k=0 ∞ X ∞ k X j j−k = η (1 − η)k pj k ζ k=0 j=k j ∞ 1 X X j j−k η (1 − η)k k pj = k ζ j=0 k=0 ∞ ∞ X 1X = pj ζj = jpj = µ. ζ j=0 j=0 63 Der Fall µ = +∞ wird ähnlich bewiesen, indem man geeignet abschneidet. (Übung) 2 Die Sätze 5.12 und 5.14 ergeben folgendes Bild: Es gilt Zn f.s. −→ W∞ , µn wobei P(W∞ > 0) = ζ, falls EX log X < +∞. Andererseits folgt aus Satz 5.14, dass (∞) bedingt auf A∞ (Zn )∞ n=0 auch ein Verzweigungsprozess mit durchschnittlicher Nachkommenzahl µ ist, der mit Wahrscheinlichkeit 1 überlebt. Also (∞) Zn µn wobei – bedingt auf A∞ – gilt: (∞) (∞) −→ W∞ , P−f.s. (∞) P(W∞ > 0) = 1, während aber andererseits Zn ≤ Zn ∀ n gilt. Dies wirft automatisch die Frage auf, (∞) was die bedingten Größen von Zn und Zn auf A∞ sind. Die Antwort hierauf gibt Satz 5.16 Bedingt darauf, dass der Prozess überlebt, gilt (∞) Zn f.s. −→ ζ. Zn Beweis: Sei zunächst µ < ∞. Wendet man die Sätze 5.14 und 5.12 an und dass, bedingt (∞) aufs Überleben, E[Z1 ] = µ gilt, erhalten wir, dass es W (∞) gibt mit (∞) Zn → W (∞) µn fast sicher. Außerdem folgt aus Satz 5.13 und der Tatsache, dass die Aussterbewahrscheinlichkeit von (∞) Zn 0 ist, dass P(W (∞) > 0) = 1. Weiter folgt abermals aus Satz 5.12 angewandt auf (Zn ) bedingt auf das Überleben, dass (∞) Zn gegen W∞ bedingt auf {W∞ > 0} konvergiert. Also konvergiert ZZnn fast sicher gegen µn einen endlichen und positiven Grenzwert R. (∞) Um zu sehen, dass dieser gleich ζ ist, benutzen wir, dass die Verteilung von Zn Zn = k, B(k, ζ) ist. Also gilt für n → ∞, dass bedingt auf das Überleben konvergiert. gegeben → ζ (∞) Zn Zn Für µ = +∞ bleiben wir den Beweis hier schuldig. 2 64 6 Der Poisson-Verzweigungsprozess Wir betrachten in diesem Abschnitt einen besonderen Verzweigungsprozess, den Poissonschen Verzweigungsprozess, bei dem die Nachkommenzahl P oi(λ)-verteilt ist. Wir schreiben zur Abkürzung Xλ für die P oi(λ)-verteilte Zufallsvariable und Tλ für die gesamte Nachkommenschaft. Wir berechnen als erstes GXλ (s) = ∞ X si e−λ i=0 λi = eλ(s−1) . i! Daher gilt für die Aussterbewahrscheinlichkeit ηλ ηλ = eλ(ηλ −1) . (6.1) Für λ ≤ 1 hat (6.1) nur eine Lösung ηλ = 1, also stirbt der Prozess sicher aus (was auch klar ist, weil λ = E[Xλ ]). Für λ > 1 gibt es zwei Lösungen von (6.1), die kleinere der beiden erfüllt ηλ ∈ (0, 1). Da in diesem Fall für die Gesamtpopulationsgröße Tλ gilt Pλ (Tλ < ∞) < 1 gilt, wissen wir Pλ (Tλ < ∞) = ηλ . Wir erinnern, dass H = (Xλ,1 , . . . , Xλ,Tλ ) die Geschichte des Verzweigungsprozesses ist. Dann gilt, bedingt auf Aussterben, dass der Poissonsche Verzweigungsprozess eine Verzweigungsrate p′λ gegeben durch p′λ,i = ηλi−1 pλ,i = e−ληλ (ληλ )i i! gilt. Dies ist wieder eine Poisson-Verteilung, diesmal mit Rate µλ = ληλ . Es gilt mit µ := µλ µe−µ = ληλ e−ληλ = λe−λ . Daher nennen wir (µ, λ), 0 < µ < 1 < λ ein konjugiertes Paar, falls µe−µ = λe−λ gilt. Da x → xe−x erst wachsend und dann fallend mit einem Maximum von 1e bei x = 1 ist, hat diese Gleichung genau zwei Lösungen, eine kleiner als 1(µ) und eine größer as 1(λ). Satz 5.8 liest sich somit für Poisson-verteilte Nachkommen so: Satz 6.1 Sei µ < 1 < λ konjugiert. Der Poissonsche Verzweigungsprozess mit Rate λ hat, bedingt auf das Aussterben, dieselbe Verteilung wie ein Poissonscher Verzweigungsprozess mit Rate µ. Für die gesamte Nachkommenschaft Tλ gilt 65 Satz 6.2 Für einen Verzweigungsprozess mit i.i.d. P oi(λ)-verteilten Nachkommenzahlen gilt (λn)n−1 −λ Pλ (Tλ = n) = e . n! Übung 6.3 Für alle λ und alle genügend großen k gilt Pλ (k ≤ Tλ < ∞) ≤ e−kIλ , wobei Iλ = λ − 1 − log λ. Für den Beweis von Satz 6.2 benötigen wir ein paar Begriffe. Wir nennen einen Baum auf n Knoten einen markierten Baum auf {1, . . . , n}, wenn alle Knoten eine Marke aus {1, . . . , n} tragen und jede dieser Marken genau einmal vorkommt. Damit können wir auch die Kanten in einem solchen Graphen markieren (durch die Knoten). Zwei markierte Bäume auf {1, . . . , n} sind gleich, wenn sie die gleichen n−1 Kanten besitzen. Jeder solche Baum ist natürlich äquivalent zu einem aufspannenden Baum des Kn . Der folgende Satz ist auch als Satz von Cayley bekannt: Satz 6.4 (Satz von Cayley) Es gibt genau nn−2 markierte Bäume der Größe n oder äquivalent nn−2 aufspannende Bäume des Kn . Beweis: Wir beweisen den zweiten Teil der Aussage. Dazu zeigen wir zuerst, dass jeder aufspannende Baum eines endlichen Graphen einen Vertex vom Grad 1 hat. Nimmt man nämlich das Gegenteil an, so hat jeder Vertex einen Grad von mindestens 2. Dann können wir von irgendeinem Vertex eine Tour beginnen, indem wir eine seiner Kanten durchlaufen, von da an laufen wir weiter, indem wir nur unbenutzte Kanten verwenden. Da der Graph endlich ist, kommen wir irgendwann mit diesem Prozess am ein Ende. Da aber jeder Vertex einen Grad mindestens zwei hatte, sind wir an einem Punkt angekommen, den wir schon einmal besucht haben. Also ist der Graph kein Baum. Nun sei t(n, d1 , . . . , dn ) die Anzahl der aufspannenden Bäume des Kn mit Graden d1 , . . . , dn , d. h. deg(vi) = di . Daher ist X t(n, d1 , . . . , dn ) d1 ,...,dn die Gesamtzahl der aufspannenden Bäume des Kn . Ist eines der di gleich 0, so ist t(n, d1 , . . . , dn ) = 0. Aus Symmetriegründen hängt t(n, d1 , . . . , dn ) nur von {d1, . . . , dn } ab, aber nicht von deren Reihenfolge. Daher können wir d1 ≥ . . . ≥ dn = 1 annehmen. Für n = 2 ist nichts zu zeigen. Für n ≥ 3 ist vn (der Vertex mit Grad dn = 1) mit einem der vi verbunden und es gilt di ≥ 2. Da dafür jeder andere Vertex in Frage kommt, gilt n−1 X t(n, d1 , . . . , dn ) = t(n − 1, d1, . . . , di − 1, . . . , dn−1 ). (6.2) i=1 66 Für n = 3 gilt offenbar t(3, d1, d2 , d3 ) = 1 d1 − 1, d2 − 1, d3 − 1 = n−2 d1 − 1, . . . , dn−1 − 1 (6.3) (nachrechnen). Nun gilt für die linke Seite von (6.3) die Rekursion (6.2). Die rechte Seite erfüllt offenbar die Rekursion für Multinomialkoeffizieten X n n−1 n . = d1 , . . . , di − 1, . . . , dn d1 , . . . , dn i=1 Daraus leitet man induktiv ab, dass t(n, d1 , . . . , dn ) = = = n−1 X t(n − 1, d1 , . . . , di − 1, . . . , dn ) i=1 n−1 X i=1 n−3 d1 − 1, . . . , di − 2, . . . , dn−1 − 1 n−2 d1 − 1, . . . , di − 1, . . . , dn−1 − 1, dn − 1 (wobei der letzte Eintrag dn − 1 nichts ändert, da dn = 1 ist). Nun lassen sich die Multinomialkoeffizienten aus der Gleichung X n n xr1 . . . xrkk (x1 + . . . + xk ) = r1 , . . . , rk 1 gewinnen. Ersetzen wir hier k durch n, n durch n − 2 und ri durch di − 1 und xi durch 1, so ergibt sich X t(n, d1 , . . . , dn ). nn−2 = d1 ,...,dn 2 Der Satz von Cayley ergibt nun Lemma 6.5 Für n ≥ 2 gilt: n−1 X 1 i! n i=1 X 1 +...+ni =n−1 n −1 i Y nj j j=1 nj ! = nn−1 . n! Beweis: Man benutzt, dass ein Baum mit n Knoten eindeutig bestimmt ist durch den Grad des ersten Vertex (sagen wir i) und den markierten Unterbäumen, die von den i direkten Nachbarn des Knoten 1 ausgehen. Sind diese Teilbäume n1 , . . . , ni groß, so gilt n1 + . . . + ni = n − 1. Es gibt (n − 1)! n1 ! . . . ni ! 67 Möglichkeiten, die (n − 1) verbleibenden Marken {2, . . . , n} in i Gruppen einzuteilen. Es n −2 n −2 n −1 gibt ferner nj j Bäume der Größe nj , so dass es nj nj j = nj j Bäume der Größe nj mit einem ausgezeichneten Vertex gibt. Nun ändert sich der Baum der Größe n nicht, wenn wir die i Bäume, die an 1 angehängt sind, permutieren, und es gibt i! solcher Permutationen. Also gibt es insgesamt i 1 (n − 1)! Y nj −1 n i! n1 ! . . . ni ! j=1 j Arten, die i Bäume, die direkt an 1 hängen, zusammen mit den direkten Nachbarn von 1 auszuwählen. Summiert man dies über i, erhält man, dass die Gesamtzahl von Bäumen der Größe n gleich ist zu n−1 X 1 i! n i=1 X (n − 1)! 1 +...+ni =n−1 n −1 i Y nj j nj ! j=1 . Aufgrund von Cayleys Satz folgt daher nn−2 = n−1 X 1 i! n i=1 X (n − 1)! 1 +...+ni =n−1 n −1 i Y nj j j=1 nj ! . Dividiert man dies durch (n − 1)! und benutzt, dass nn−1 nn−2 = , (n − 1)! n! so erhält man die Behauptung. 2 Wir können uns nun an den Beweis von Satz 6.2 machen: Beweis von Satz 6.2: Wir gehen induktiv vor. Für n = 1 ist Tλ = 1 genau dann, wenn das erste Individiuum ohne Nachkommen stirbt. Das hat Wahrscheinlichkeit e−λ . Aber auch die rechte Seite von Satz 6.2 ist für n = 1 gleich e−λ . Dies ist der Induktionsanfang. Für den Induktionsschritt bedingen wir auf die Anzahl i der Kinder des Ursprungs. Sei die Anzahl der gesamten Nachkommen der i Kinder n1 , . . . , ni , also ist Tλ = n äquivalent zu n1 + . . . + ni = n − 1. Somit gilt Pλ (Tλ = n) = n−1 X e−λ i=1 λi i! X i Y Pλ (Tλ = nj ). n1 +...+ni =n−1 j=1 Nach Induktionsvoraussetzung ergibt sich (beachte, dass nj ≤ n − 1 für alle j): (λnj )nj −1 −λnj Pλ (Tλ = nj ) = e . nj ! Setzen wir das ein und beachten, dass i X j=1 (nj − 1) = n − i − 1, 68 so erhalten wir Pλ (Tλ = n) = i−1 X e−λ i=1 λi i! −λn n−1 = e λ i Y (λnj )nj −1 X n1 +...+ni =n−1 j=1 n−1 X i=1 1 i! n X nj ! e−λnj i−1 nj −1 Y nj 1 +...+ni =n−1 j=1 nj ! . Nach Lemma 6.5 ist dies gleich: Pλ (Tλ = n) = e−λn λn−1 nn−1 /n! wie behauptet. 2 Für den kritischen Poisson-Prozess leitet man mit der Stirlingschen Formel ab, dass 1 1 Pλ (Tλ = n) = √ n−3/2 (1 + O( )) n 2π gilt; das ist ein Beispiel für das “Powerlaw”-Verhalten im kritischen Punkt. n−3/2 ist dabei sogar allgemeiner das Verhalten der kritischen Verteilung der Gesamtpopulationsgröße für jede Nachkommenverteilung mit endlicher Varianz. Im nächsten Kapitel wollen wir den Erdös-Rényi-Graphen G(n, p) mithilfe von Verzweigungsprozessen untersuchen. Hierfür brauchen wir noch, dass für λ > 1 die Aussterbewahrscheinlichkeit hinreichend glatt ist. Korollar 6.6 Sei ηλ die Aussterbewahrscheinlichkeit des Poissonschen Verzweigungsprozesses mit Rate λ. Dann gilt für alle λ > 0: d ηλ (λ − µλ ) ηλ = < ∞, dλ λ(1 − µλ ) wobei (µλ , λ) ein duales Paar bilden. Beweis: Es gilt ηλ = Pλ (Tλ < ∞) = Daher folgt ∞ X n=1 e−λn (λn)n−1 . n! X ∞ ∞ n−2 n−1 X d −nλ (λn) −nλ (λn) − e . e 0 ≤ − ηλ = dλ (n − 1)! (n − 2)! n=2 n=1 Andererseits gilt: Eλ [Tλ |Tλ < +∞] = ∞ ∞ X (λn)n−1 1 X −λn (λn)n−1 1 ne−λn e = , Pλ [Tλ < ∞] n=1 n! ηλ n=1 (n − 1)! 69 so dass d ηλ ηλ ηλ = ηλ Eλ [Tλ |Tλ < ∞] − Eλ [Tλ |Tλ < ∞] + . dλ λ λ Hierbei haben wir benutzt, dass − ∞ X n=2 e−λn ∞ X (λn)n−2 (λn)n−2 = e−λn (n − 1) (n − 2)! (n − 1)! n=1 = ∞ X n=1 ∞ (λn)n−1 X −λn (λn)n−2 − e λ (n − 1)! n=1 (n − 1)! −λn 1 e ∞ n−1 X ηλ −λn 1 (λn) = Eλ [Tλ |Tλ < ∞] − e λ λ n! n=1 ηλ 1 Eλ [Tλ |Tλ < ∞] − Pλ [Tλ < ∞]. λ λ Wegen des Dualitätsprinzips und Satz 5.5 folgt = Eλ [Tλ |Tλ < ∞] = 1 , 1 − µλ wobei µλ = ληλ gilt. Daher erhalten wir schließlich 0≤− d ηλ 1 ηλ ηλ (λ − µλ ) ηλ = (1 − ) + = . dλ 1 − µλ λ λ λ(1 − µλ ) 2 Um tatsächlich einen Poissonschen Verzweigungsprozess bei der Analyse eines Zufallsgraphen verwenden zu können, benötigen wir noch eine Vorübung, deren Resultat plausibel erscheint. Wir werden im nächsten Kapitel G(n, p)-Graphen mit p ∼ nλ anschauen. Daher hat jeder Knoten ein B(ki n − 1, nλ )-verteilte Nachbarschaft, die zumindest lokal wie ein Baum aussieht. Es liegt nahe, nicht nur eine B(ki n − 1, nλ )-Verteilung sondern alle durch unabhängige P oi(λ)-Verteilungen zu ersetzen. Dass man dies auch darf, besagt der folgende Satz. Satz 6.7 Für einen Verzweigungsprozess mit B(n, p) verteilter Nachkommenschaft und gesamter Nachkommenzahl T und einen zweiten Verzweigungsprozess mit P oi(λ)-verteilter Nachkommenschaft und totaler Populationsgröße λ gilt, wenn λ = np: P(T ≥ k) = P(Tλ ≥ k) + ek (n), wobei also insbesondere k−1 2λ2 X |ek (n)| ≤ P(Tλ ≥ s), n s=1 |ek (n)| ≤ gilt. 70 2kλ2 n Beweis: Der Beweis benutzt - ähnlich wie der Beweis des Poissonschen Grenzwertsatzes in der Stochastik - ein Kopplungsargument. Die entsprechenden Verzweigungsprozesse sind durch ihre B(n, p)- bzw. P oi(λ)-verteilte i.i.d. Nachkommenschaft Xi bzw. Xiλ eindeutig bestimmt. In der Stochastik haben wir gesehen, dass sich Xi an Xiλ so koppeln lässt, dass P(Xi 6= Xiλ ) ≤ λ2 . n Wir zerlegen: P(T ≥ k) = P(T ≥ k, Tλ ≥ k) + P(T ≥ k, Tλ < k) und P(Tλ ≥ k) = P(T ≥ k, Tλ ≥ k) + P(Tλ ≥ k, T < k). Nach Substraktion dieser beiden Gleichungen voneinander ergibt sich |P(T ≥ k) − P(Tλ ≥ k)| ≤ P(T ≥ k, Tλ < k) + P(Tλ ≥ k, T < k). Wir bemerken, dass {T ≥ k} messbar ist bezüglich der X1 , . . . , Xk−1 : Tatsächlich gilt ja {T < k} = {T ≥ k}c genau dann, wenn es ein t < k gibt, so dass X1 + . . . + Xt = t − 1 gilt. Somit können wir folgern, dass für {T ≥ k, Tλ < k} ∪ {T < k, Tλ ≥ k} ein s < k existieren muss mit Xs 6= Xsλ . Also P(T ≥ k, Tλ < k) ≤ k−1 X s=1 P(Xi = Xiλ , ∀ i ≤ s − 1, Xs 6= Xsλ , T ≥ k) (wobei wieder die (Xiλ ) i.i.d. P oi(λ)- und die (Xi ) davon unabhängige i.i.d. B(n, p)Variablen sind). Nun bemerke, dass, wenn Xi = Xiλ für alle i ≤ s − 1 und T ≥ k insbesondere auch gilt X1λ + . . . + Xiλ ≥ i ∀ i ≤ s − 1, λ also {Tλ ≥ s}. Darüber hinaus hängt {Tλ ≥ s} nur von X1λ , . . . , Xs−1 ab und ist daher λ unabhängig von dem Ereignis {Xs 6= Xs }. Daher erhalten wir P(T ≥ k, Tλ < k) ≤ k−1 X s=1 P(Tλ ≥ s, Xs 6= Xsλ ) = k−1 X s=1 P(Tλ ≥ s)P(Xs 6= Xsλ ). Durch die Kopplungsschranke P(Xs 6= Xsλ ) ≤ λ2 , n so dass k−1 k+1 λ2 X λ2 X λ P(Tλ ≥ s)P(Xs 6= Xs ) ≤ P(Tλ ≥ s) P(T ≥ k, Tλ < k) ≤ n s=1 n s=1 und ebenso k−1 P(T λ ≥ k, T < k) ≤ 71 λ2 X P(Tλ ≥ s). n s=1 Also insgesamt: k−1 2λ2 X |P(T ≥ k) − Pλ (Tλ ≥ k)| ≤ P(Tλ ≥ s). n s=1 2 Wir werden nun noch einmal ein Resultat über Irrfahrt verwenden, um die Verteilung der Gesamtpopulationsgröße herzuleiten. Unser Ziel dabei ist D Satz 6.8 Für einen Verzweigungsprozess mit i.i.d. Nachkommenverteilung Z1 = X gilt P(T = n) = 1 P(X1 + . . . + Xn = n − 1), n wobei die (Xi ) i.i.d. Kopien von X sind. Bemerkung 6.9 Wir beweisen später sogar eine etwas allgemeinere Aussage, nämlich P(T1 + . . . + Tk = n) = k P(X1 + . . . + Xn = n − k), n (6.4) wobei T1 , . . . , Tk k unabhängige Zufallsvariablen mit der Verteilung von T sind (oder wir stellen uns einen Verzeigungsprozess mit k Ursprungsindividuen vor). Der Beweis benutzt wieder die Markov-Ketten-Darstellung des Verzweigungsprozesses zusammen mit dem Treffzeiten-Satz für Irrfahrten. Um diesen zu beschreiben sei (Yi)i eine Folge von i.i.d. Zufallsvariablen mit Werten in Z und Sn = k + n X Yi i=1 die Irrfahrt mit Start in k und Zuwachsverteilung PY1 . Sei T0 = inf{n ≥ 0 : Sn = 0} die erste Treffzeit der 0 der Irrfahrt. Dann gilt Satz 6.10 Falls die (Yi )i von oben P(Yi ≥ −1) = 1 erfüllen, so gilt für die Verteilung von T0 : Pk (T0 = n) = k P(Sn = 0). n 72 (6.5) Bemerkung 6.11 Noch erstaunlicher wird das Resultat, wenn man unter {Sn = 0} bedingt. Das Resultat heißt dann Pk (T0 = n|Sn = 0) = k n (die Wahrscheinlichkeit, dass man zur Zeit n zum ersten Mal in 0 ist, gegeben, man ist in 0 ist nk ), unabhängig von der Verteilung der Yi . Unter der Voraussetzung von Satz 6.10 können wir nun (6.4) und damit auch Satz 6.8 beweisen. Beweis von Satz 6.8: Beachte, dass L(T1 + . . . + Tk ) gleich der Verteilung einer Treffzeit einer Irrfahrt ist, die in k startet und deren Zuwachs Yi = Xi − 1 ist, wobei (Xi )i die Nachkommenzahlen der Knoten sind. Da Xi ≥ 0 ist, gilt Yi ≥ −1, daraus folgt (6.4), also Satz 6.8. (Die Details sind eine Übung.) 2 Es bleibt der Beweis von Satz 6.10: Beweis von Satz 6.10: Wir zeigen (6.5) für alle k ≥ 0 durch Induktion über n ≥ 1. Für n = 1 gleichen beide Seiten 0 für k > 1 und k = 0, und sie gleichen P(Yi = −1) für k = 1. Dies ist der Induktionsanfang. Für n ≥ 2 sind beide Seiten gleich 0 für k = 0. Also sei k ≥ 1. Wir bedingen auf den ersten Schritt und erhalten: ∞ X Pk (T0 = n) = Pk (T0 = n|Y1 = s)P(Y1 = s). s=−1 Aus der Markoveigenschaft folgt: Pk (T0 = n|Y1 = s) = Pk+s (T0 = n − 1) = k+s Pk+s (Sn−1 = 0), n−1 wobei die letzte Gleichheit aus der Induktionsvoraussetzung folgt (was wegen k ≥ 1 und s ≥ −1, also k + s ≥ 0 erlaubt ist). Dies führt zu Pk (T0 = n) = ∞ X k+s Pk+s (Sn−1 = 0)P(Y1 = s). n − 1 s=−1 Mit dem Satz von der totalen Wahrscheinlichkeit folgt unter Ausnutzung von Pk+s (Sn−1 = 0) = Pk (Sn = 0|Y1 = s), dass ∞ 1 X (k + s)Pk (Sn = 0|Y1 = s)P(Y1 = s) Pk (T0 = n) = n − 1 s=−1 = P(Sn = 0)(k + Ek [Y1 |Sn = 0]) 73 1 . n−1 Offenbar ist E[Yi |Sn = 0] unabhängig von i, so dass n 1X Ek [Y1 |Sn = 0] = Ek [Yi |Sn = 0] n i=1 n X k 1 Yi |Sn = 0] = − , Ek [ = n n i=1 da ja Pn i=1 Yi = Sn − k = −k sein muss, wenn Sn = 0 ist. Also erhalten wir schließlich Pk [T0 = n] = 1 k k (k − )Pk (Sn = 0) = Pk (Sn = 0). n−1 n n 2 Bemerkung 6.12 Der Treffzeiten-Satz ist eng verwandt mit dem Ballot-Theorem, das eine lange Geschichte hat und auf Bertrand zurückgeht: ∞ Satz 6.13 Sei (Sn ) eine Irrfahrt Pn aus i.i.d. Zuwächsen (Xi )i=1 , wobei die Xi ≥ 0 und ganzzahlig sind. Ist also Sn = i=1 Xi , so gilt P0 (Sm < m für alle 1 ≤ m ≤ n|Sn = n − k) = 74 k . n 7 Der Phasenübergang im Erdös-Rényi-Graph Wie schon mehrfach angekündigt, wollen wir in diesem Abschnitt den Phasenübergang im Modell G(n, p) studieren. Dieser ist vergleichbar zum Phasenübergang in den Verzweigungsprozessen: Dort überlebte ein Verzweigungsprozess mit µ = EX > 1 mit positiver Wahrscheinlichkeit, während er für µ < 1 ausstirbt. Etwas Ähnliches beobachtet man im Erdös-Rényi-Graph. Für p = nλ und λ < 1 besteht der Graph aus vielen “kleinen” Komponenten, für λ > 1 besteht der Graph aus beinahe allen Knoten. Der Vergleich zwischen G(n, p) und Verzweigungsprozess wird auch bei den Beweisen eine wichtige Rolle spielen. Wir beginnen mit ein wenig Notation. Sei [n] := {1, . . . , n}. Für s, t ∈ [n] schreibe s ↔ t, wenn es einen Pfad in G von s nach t gibt. Für v ∈ [n] sei C(v) die Zusammenhangskomponente von v, also C(v) = {x ∈ [n] : x ↔ v}. Die Größe von C(v) sei |C(v)|. Die größte Zusammenhangskomponente ist einfach eines der Cluster C(v), die am größten sind. Also |Cmax | = max{|C(v)| : v ∈ [n]}. Natürlich ist |Cmax | eindeutig Cmax , allerdings ist es nicht notwendig. Wir geben zunächst einen Mechanismus an, mit dem man für v ∈ [n] C(v) finden kann. Dies ist eng verwandt mit der Markov-Ketten-Perspektive eines Verzweigungsprozesses. Dazu geben wir einen Explorationsprozess an, in dessen Verlauf Knoten drei Stadien durchlaufen: Knoten können aktiv, neutral oder inaktiv sein. Sie wechseln ihren Zustand dabei wie folgt: Zur Zeit t = 0 ist nur v aktiv, alle anderen Knoten sind neutral. Wer setzen S0 = 1. Zur Zeit t wählen wir einen beliebigen aktiven Vertex w und erkunden alle Kanten {w, w ′}, w ′ durchläuft dabei alle neutralen Knoten. Dabei werden die w ′ auf “aktiv” gesetzt; danach setzen wir w auf inaktiv und St als die neue Anzahl aktiver Knoten. Wenn es keine weiteren Vertizes mehr gibt, d. h. wenn erstmals St = 0 gilt, hält der Prozess an und die Zusammenhangskomponente C(v) ist die Menge aller inaktiven Knoten. Hieraus folgt auch |C(v)| = t. Während des gesamten Prozesses ist |C(v)| nach unten beschränkt durch die Anzahl aktiver und inaktiver Vertices. Sei wt der t-te aktive Vertex, von dem schon alle Kanten, die zu neutralen Knoten gehen, untersucht sein mögen. Sei Xt die Anzahl der neutralen Vertices mit {wt , w} ∈ G. Sei St die Anzahl aktiver Knoten zur Zeit t. Ähnlich wie beim Verzweigungsprozess kann man S0 = 1 und St = St−1 + Xt − 1 (7.1) schreiben. Dabei ist Xt die Anzahl der Knoten, die durch die Untersuchung des t-ten Knoten aktiv werden und nach dieser Untersuchung wird der t-te untersuchte Knoten inaktiv. Dies zeigt (7.1). Dies stimmt natürlich für jeden Graphen. Nun spezialisieren wir uns auf G(n, p). Dann hängt die Verteilung von Xt von der Anzahl der aktiven Knoten zur Zeit t = 1, d. h. 75 St−1 , ab. Dies ist allerdings die einzige Abhängigkeit von der Konfiguration der aktiven, neutralen und inaktiven Knoten. Genauer hat jeder neutrale Knoten w ′ eine Wahrscheinlichkeit p, aktiv zu werden. Da zu jedem Zeitpunkt die Kanten zu inaktiven und aktiven Vertices nicht mehr untersucht werden und zur Zeit t, t − 1 Knoten inaktiv sind und St−1 aktiv, ist Xt ∼ B(n − (t − 1) − St−1 , p) (7.2) verteilt. Wir bemerken, dass (7.1) die gleiche Rekursion ist wie (5.1) bei Verzweigungsprozessen. Der einzige Unterschied zwischen den zwei Prozessen besteht in der Verteilung der Xt , die in (7.2) vom gegenwärtigen Prozess abhängt, während sie für Verzweigungsprozesse i.i.d. ist. Allerdings ist die Folge (7.2) “fast” i.i.d., so lange t und St nicht zu groß sind. Sei T wieder definiert durch T = inf{t : St = 0}, wobei |C(v)| = T . Ähnliches hatten wir auch für Verzweigungsprozesse gesehen. Ähnlich wie dort ergibt die Rekursion (7.1) und (7.2) nur für St−1 ≥ 1 Sinn, trotzdem können wir den Prozess auch für St−1 = 0 definieren, dann bleibt er 0. Im folgenden wollen wir den Graphen G(n, p) untersuchen, wobei p in der Größenordnung von n1 , genauer λ p= n ist. Wir werden nun die oft zitierte Verwandschaft zwischen einem G(n, nλ )-Zufallsgraphen und einem P oi(λ)-Verzweigungsprozess informell beschreiben. Tatsächlich sind dies die grundlegenden Beweisideen, allerdings werden wir die heuristisch vorgetragenen Argumente nicht direkt benutzen. Sei also λ > 0. S1λ , . . . , X1λ , X2λ , H λ beziehen sich auf einen Verzweigungsprozess mit P oi(λ)-verteilten i.i.d. Zuwächsen. Ebenso seine S0 , S1 , . . . , X1 , X2 , . . . , H die entsprechenden Größen für G(n, nλ ). Die Si sind oben definiert, ebenso die Xi . Für die Definition der λ-Variablen erinnern wir an Kapitel 6. Insbesondere haben wir dort gesehen, dass für jegliche mögliche Vergangenheit (x1 , . . . , xt ) gilt λ Pλ (H = (x1 , . . . , xt )) = t Y Pλ (Xiλ = xi ), i=1 wobei die X(λi ) i.i.d. P oi(λ)-verteilt sind. Andererseits gilt in G(n, nλ ) P(H = (x1 , . . . , xn )) = n Y i=1 P(Xi = xi |X1 = x1 , . . . , Xi−1 = xi−1 ), wobei, bedingt auf X1 = x1 , . . . , Xi−1 = xi−1 die Zufallsvariable Xi B(n−(i−1)−si−1 , nλ )verteilt ist. Sind λ und i fest, so gilt (leichte Übung) λi λ lim P(B(m(n), ) = i) = e−λ n→∞ n i! 76 für eine Folge m(n) = n(1 + o(1)). Also gilt für jedes feste t lim P(H = (x1 , . . . , xt )) = P(H λ = (x1 , . . . , xt )). n→∞ Somit ist die Verteilung der endlichen Zusammenhangskomponenten in G(n, nλ ) eng verwandt mit der Geschichte eines Verzweigungsprozesses mit i.i.d. P oi(λ)-Nachkommenverteilung. Auf dieser Verwandschaft bauen die folgenden Beweisideen auf. Wir beginnen mit zwei stochastischen Ordnungsresultaten. Wir schreiben dabei für zwei Zufallsvariablen X, Y X Y, wenn P(X ≥ k) ≤ P(Y ≥ k) ∀ k (dabei können wir uns natürlich X und Y auf einem gemeinsamen Wahrscheinlichkeitsraum vorstellen oder nicht, das ist belanglos). Satz 7.1 Für jedes k ≥ 1 gilt PG(n,p) (|C(1)| ≥ k)) ≤ Pn,p (T ≥ k), d. h. |C(1)| T. Dabei ist C(1) die Zusammenhangskomponente der 1 in G ∈ G(n, p), p = nλ und Pn,p das Maß eines Binomialen Verzweigungsprozesses mit Parameter n und p und T die Größe seiner Gesamtpopulation. Beweis: Dies folgt aus der Explorationsbeschreibung der Zusammenhangskomponente und derselben Beschreibung für T . Wir bemerken, dass in der Beschreibung für T gilt St = St−1 + Xt − 1, (7.3) wobei die Xt ∼ B(n, p)-verteilt sind, während (7.3) auf die Beschreibung von C(1) auch zutrifft, diesmal aber mit Xt , in denen der Parameter der Binomialverteilung fällt. Somit ist XtC (das Xt für die Zusammenhangskomponente) stochastisch dominiert durch XtT (das Xt ∼ B(n, p) für den Verzweigungsprozess). Hieraus folgt die Behauptung (Details sind eine Übung). 2 Wir können die Größe von C(1) aber auch stochastisch von unten beschränken. Allerdings nicht durch eine feste Zufallsvariable. Dies ist der Inhalt des folgenden Satzes: Satz 7.2 Für alle k ∈ [n] gilt PG(n, λ ) (|C(1)| ≥ k) ≥ Pn−k,p (T ≥ k). n Dabei ist die linke Seite wie in Satz 7.1, die rechte Seite beschreibt die Tails der Verteilung der Gesamtpopulation eines Verzweigungsprozesses mit i.i.d. B(n − k, nλ )-verteilten Zuwächsen. 77 Da die rechte Seite von k abhängt, haben wir keine stochastische Dominanz im oben definierten Sinn. Beweis: Wir wählen wieder einen Kopplungsansatz. Bei dem üblichen Explorationsprozess für C(1) definieren wir zunächst die Knoten n − k + 2, . . . , n als “verboten”, was bedeutet, dass wir Kanten, die in diesen Knoten enden, nicht untersuchen. Also gibt es nun vier mögliche Zustände für die Knoten. Während des Explorationsprozesses werden wir den Pool an verbotenen Knoten so verwalten, dass die Gesamtzahl an aktiven, inaktiven und verbotenen Knoten gleich k ist. Mit unserer Initialisierung haben wir dies bereits richtig gemacht, denn zu Beginn gibt es genau einen aktiven, keinen inaktiven und k − 1 verbotene Vertices. Natürlich geht das nur so lange gut wie die Summe aus aktiven und inaktiven Vertices höchstens k ist. Dies stellt aber kein Problem dar, denn sobald die Summe aus aktiven und inaktiven Vertices größer oder gleich k ist, sehen wir, dass das Ereignis {|C(1)| ≥ k} eintritt. Wieder untersuchen wir nur Kanten zu neutralen Knoten. Wenn wir eine Kante zu einem solchen Knoten finden, dann setzen wir diesen Knoten auf “aktiv” und den verbotenen Knoten mit dem größten Index auf “neutral”. Somit ist die Anzahl der neutralen Vertices auf n − k festgelegt. Formal sei (Iij ) eine i.i.d. Ber(p)-Folge. Setze Xi = X Ivi,j und Xi≤ = j∈Ai−1 X Ivi,j . j∈Ai−1,k Dabei ist Ai−1 die Menge der aktiven und Ai−1,k die Menge der aktiven, nicht-verbotenen Vertices zur Zeit i − 1, also |Ai−1,k | = n − k. Dann ist (Xi≤ ) eine i.i.d. Folge von B(n − k, p) Zufallsvariablen. Solange die Anzahl der aktiven und inaktiven Vertizes höchstens k ist, folgt, dass die Anzahl der verbotenen, aktiven und inaktiven Vertizes genau k ist. Wir haben also einen Verzweigungsprozess mit Binomial-verteilter Nachkommenschaft mit den Parametern n − k und p. Da die Parameter damit unterhalb des entsprechenden Prozesses für die Exploration von C(1) liegen, folgt die Behauptung. 2 Die allgemeine Strategie für die Untersuchung der größten Komponente |Cmax | ist nun die folgende: Wir benutzen die stochastische Schranke aus Satz 7.1 und 7.2, um die |Cmax | durch Binomiale Verzweigungsprozesse abzuschätzen. Diese können wir gemäß den Resultaten aus Abschnitt 6 mit einem P oi(λ)-Verzweigungsprozess, wenn p ≈ nλ . Die Resultate, die wir über diesen Prozess erhalten haben, werden uns hilfreich sein, unsere Resultate zu erreichen. Da das Verhalten eines P oi(λ)-Verzweigungsprozesses sehr unterschiedlich ist, je nachdem, ob λ < 1, λ = 1 oder λ > 1 gilt, können wir auch für das Verhalten von |Cmax | unterschiedliche Resultate erwarten, je nachdem ob np < 1 oder np > 1 gilt. 78 Wir beginnen mit dem subkritischen Fall. Sei also zunächst λ = np < 1. Sei Iλ die Ratenfunktion Iλ = λ − 1 − log λ. Beachte, dass Iλ ≥ 0 und Iλ = 0 ⇔ λ = 1. Das nächste Resultat ist das wesentliche für den subkritischen Fall; es zeigt, dass mit großer Wahrscheinlichkeit |Cmax | ≤ a log n für jedes a > I1λ gilt. Das andere wichtige Resultat, Satz 7.4, zeigt, dass diese Grenze auch scharf ist, genauer, dass |Cmax | ≥ a log n gilt, für alle a < 1 . Iλ Genauer lesen sich diese Resultate wie folgt: Satz 7.3 Sei λ < 1. Dann gibt es für jedes a > 1 Iλ ein δ = δ(a, λ) > 0, so dass PG(n, λ ) (|Cmax | ≥ a log n) = O(n−δ ). n Satz 7.4 Sei λ < 1. Dann gibt es für jedes a < 1 Iλ ein δ = δ(a, λ) > 0, so dass PG(n, λ ) (|Cmax | ≥ a log n) = O(n−δ ). n Bemerkung 7.5 Insgesamt erhält man aus den beiden Sätzen |Cmax | P 1 −→ . log n Iλ (Der Beweis ist eine Übung.) Die Beweisstrategie für Satz 7.3 und Satz 7.4 ist die folgende: Sei Z≥k = n X v=1 1l{|C(v)|≥k} die Anzahl an Knoten, die in einer Zusammenhangskomponente der Größe mindestens k enthalten sind. Offenbar ist |Cmax | = max{k : Z≥k ≥ k}. (7.4) Somit können wir Schranken an |Cmax | beweisen, indem wir ein geeignetes Z≥k betrachten. Insbesondere gilt {|Cmax | ≥ k} = {Z≥k ≥ k}. (7.5) 79 Übung 7.6 Beweisen Sie (7.4) und (7.5). Satz 7.3 werden wir mithilfe der Methode des ersten Moments beweisen. Wir berechnen Eλ (Z≥k ) := EG(n, λ ) [Z≥k ] = nPλ (|C(1)| ≥ k) n und wir benutzen Satz 7.1, um Pλ (|C(1)| ≥ kn ) für kn = a log n und a > schränken. Daher gilt mit großer Wahrscheinlichkeit Z≥kn = 0, 1 Iλ zu be- d. h. |Cmax | ≤ kn . Der Beweis von Satz 7.4 folgt aus einer Zweiten Momenten-Ungleichung. Dazu beschränken wir zunächst die Varianz von Z≥k (siehe unten). Danach benutzen wir Satz 7.2, um Eλ [Z≥kn ] für kn = a log n für a < I1λ zu beschränken. Wir werden sehen, dass diese Schranken ausreichen, um einzusehen, dass Zkn > 0 mit Wahrscheinlichkeit, die gegen 1 konvergiert, also: |Cmax | ≥ kn . Beweis von Satz 7.3: Wegen Satz 7.1 gilt Pλ (|C(v)| > t) ≤ Pn,p (T > t), wobei T die Gesamtnachkommenschaft eines B(n, nλ )-Verzweigungsprozesses ist. Um die λ rechte Seite zu studieren, seien (X̂i )∞ i=1 i.i.d. B(n, p) = B(n, n )-Variablen und Ŝt = X̂1 + . . . + X̂t − t − 1. Dann gilt nach den Eingangsüberlegungen: Pn,p (T > t) ≤ Pn,p (Ŝt > 0) = Pn,p (X̂1 + . . . + X̂t ≥ t). Man berechnet, dass Pn,p (X̂1 + . . . + X̂t ≥ t) ≤ e−tIλ (Übung). Somit erhalten wir zusammen mit der einleitenden Übung für kn = a log n Pλ (|Cmax | ≥ a log n) ≤ ≤ = ≤ = für a > 1 , Iλ hier ist δ = aIλ − 1. Pλ (Z≥kn ≥ 1) Eλ (Z≥kn ) nPλ (|C(1)| ≥ a log n) n1−aIλ O(n−δ ) 2 Wir geben noch einen zweiten Beweis, der auf einer Verteilungsgleichheit von St beruht, die auch für λ > 1 sehr nützlich ist. Das Resultat besagt, dass St auch Binomialverteilt ist, jedoch mit einer anderen Erfolgswahrscheinlichkeit. 80 Proposition 7.7 Für alle t ∈ {1, . . . , n} gilt St + (t − 1) ∼ B(n − 1, 1 − (1 − p)t ). Beweis: Sei Nt die Anzahl der zur Zeit t noch nicht untersuchten Knoten, d. h. Nt = n − t − St . Offenbar gilt für jede Zufallsvariable X, dass X ∼ B(m, p) ist, genau dann, wenn Y := m − X ∼ B(m, 1 − p). Wir zeigen daher Nt ∼ B(n − 1, (1 − p)t ). Das ist heuristisch klar, wenn man bedenkt, dass jeder Vertes {1, . . . , n} unabhängig von allen anderen eine Wahrscheinlichkeit von (1−p)t hat, während der ersten t Explorationen neutral zu bleiben. Formaler: Bedingt auf St−1 gilt Xt ∼ B(n − (t − 1) − St−1 , p). Setzen wir also N0 = n − 1 und Nt = = = = = n − t − St n − t − St−1 − Xt + 1 n − (t − 1) − St−1 − B(n − (t − 1) − St−1 , p) Nt−1 − B(Nt−1 , p) B(Nt−1 , 1 − p) und wir erhalten den gewünschten Beweis induktiv über t. 2. Beweis von Satz 7.3: Mithilfe der vorhergehenden Proposition erhalten wir Pλ (|C(v)| > t) ≤ Pλ (St > 0) ≤ Pλ (Bin(n − 1, 1 − (1 − p)t ) ≥ t). Benutzen wir die Bernoulli-Ungleichung 1 − (1 − p)t ≤ tp, erhalten wir tλ ≥ t) n tλ ≤ min e−st Eλ [esB(n, n ) ] Pλ (|C(v)| > t) ≤ Pλ (B(n, s≥0 tλ s (e − 1)]n n −st tλ(es −1) ≤ min e (e ), = min e−st [1 + s≥0 s≥0 81 2 wobei wir in der letzten Ungleichung 1 + x ≤ ex benutzt haben. Daher erhalten wir Pλ (|C(v)| > t) ≤ e−Iλ t und der Rest des Beweises folgt wie im ersten Beweis. 2 Nun wenden wir uns dem Beweis von Satz 7.4 zu. Wir definieren χ≥k (λ) = Eλ [|C(v)|1l{|C(v)|≥k} ], was aus Symmetriegründen nicht von v abhängt. Proposition 7.8 Für alle n und k ∈ [n] gilt: Vλ [Z≥k ] ≤ nχ≥k (λ). Beweis: Wir benutzen: X Vλ (Z≥k ) = [Pλ (|C(i)| ≥ k, |C(j)| ≥ k) − Pλ (|C(i)| ≥ k)Pλ (|C(j)| ≥ k]. i,j Den ersten Summanden spalten wir auf, je nachdem, ob i ⇔ j oder nicht: Pλ (|C(i)| ≥ k, |C(j)| ≥ k) = Pλ (|C(i)| ≥ k, i ↔ j) + P(|C(i)| ≥ k, |C(j)| ≥ k, i 6↔ j), da im ersten Fall C(i) = C(j) gilt. Ist |C(i)| = l und i 6↔ j, dann bilden die Knoten und Kanten außerhalb von C(i) einen Zufallsgraphen mit n − l Knoten. Da die Wahrscheinlichkeit des Eriegnisses {|C(j)| ≥ k} im G(n, p) wachsend in n ist, folgt Pλ (|C(j)| ≥ k|C(i) = li 6↔ j) ≤ Pλ (|C(j)| ≥ k). Also können wir folgern: Pλ (|C(i)| = l, |C(j)| ≥ k, ı 6↔ j) − Pλ (|C(i)(= l)Pλ (|C(j)| ≥ k) ≤ 0. Daraus erhalten wir: Nλ (Z≥k ) ≤ n X i,j=1 Pλ (|C(i)| ≥ k, i ↔ j). Daher erhalten wir wieder aus der Austauschbarkeit (Symmetrie) aller Knoten: X Vλ (Z≥k ) ≤ Pλ (|C(i)| ≥ k, i ↔ j) = i,j n X n X i=1 j=1 Eλ [1l{|C(i)|≥k} 1l{j∈C(i)} ]. 82 Da Pn j=1 1l{j∈C(i)} = |C(i)| gilt, gelangen wir zu: Vλ (Z≥k ) ≤ X i Eλ [|C(i)|1l{C(i)≥k} ] = n · Eλ [|C(1)|1l{|C(1)|≥k} ] = nχ≥k (λ). 2 Beweis von Satz 7.4: Es genügt zu zeigen, dass Pλ [Z≥kn = 0] = O(n−δ ) mit kn = a log n und a < I1λ gilt. Hierfür verwenden wir die Chebyshev-Ungleichung. Hierfür leiten wir eine untere Schranke für Eλ [Z≥k ] und eine obere Schranke für Nλ [Z≥k ] her. Für die erste dieser Schranken benutzen wir Eλ [Z≥k ] = nP≥k (λ), wobei P≥k (λ) := Pλ (|C(v)| ≥ k) ist. Sei k = kN− = a log n. Nach dem, was wir eingangs dieses Kapitels gesehen haten, ist für T aus einem B(n − kn , nλ )-Verzweigungsprozess: P≥k (λ) ≥ Pn−kn ,p (T ≥ a log n) mit p = nλ . Nach Satz 6.2 und Übung 6.3 gilt für einen P oi(λn )-Verzweigungsprozess mit n ) und dessen vollständiger Nachkommenzahl T ∗ : λn = λ( n−k n 2 aλ log n ∗ ∗ Pn−kn ,p (T ≥ a log n) = Pλn (T ≥ a log n) + O . n Ebenso folgt aus Satz 6.2 P∗λn (T ∗ ≥ a log n) = ∞ X P∗λn (T ∗ k=a log n ∞ X (λn k)k−1 −λn k = k) = e . k! k=a log n Mithilfe der Stirlingformel, der Definition von Iλ und Iλn = Iλ + o(1) ergibt sich ∞ 1 X 1 √ e−Iλn k (1 + o(1)) = e−Iλ a log n(1+o(1)) . P(T ≥ a log n) = 3 λ 2πk k=a log n ∗ Daher folgt mit kn = a log n für jedes 0 < α < 1 − aIλ Eλ [Z≥kn ] = nP≥kn (λ) ≥ n(1−Iλ a)(1+o(1)) ≥ nα . 83 Als nächstes beschränken wir die Varianz von Z≥kn unter Ausnutzung von Proposition 7.8. Es gilt n X χ≥kn (λ) = t=kn P≥t (λ) ≤ −(kn −1)Iλ e 1 − e−Iλ = O(n−αIλ ). ≤ n X e−Iλ (t−1) t=kn Somit folgt aus Proposition 7.8 Vλ (Z≥kn ) ≤ nχ≥kn (λ) ≤ O(n1−αIλ ), während Eλ [Z≥kn ] ≥ nα . Also folgt Pλ (Z≥kn = 0) ≤ Vλ (Z≥kn ) Eλ [Z≥kn ]2 ≤ O(n1−αI−2α) = O(n−δ ), wenn wir δ = 2α − (1 − Iλ α) und 0 < α < 1 − Iλ α wählen, so dass δ = 2α − (1 − Iλ α) > 0 ist. Schließlich verwenden wir noch Pλ (|Cmax | < kn ) = Pλ (Z≥kn = 0), was Satz 7.4 beweist. 2 Nun wenden wir uns dem superkritischen Bereich zu, d. h. wir fählen ein festes λ > 1. Wir schreiben ζλ = 1 − η − λ für die Überlebenswahrscheinlichkeit des Poisson(λ)-Verzweigungsprozesses. Dann gilt Satz 7.9 (Gesetz der großen Zahlen für die riesige Komponente) Sei λ > 1. Dann gibt es für jedes ν ∈ ( 21 , 1) ein δ = δ(ν, λ) > 0, so dass Pλ (|Cmax | − ξλ n| ≥ nν ) = O(n−δ ). 84 Satz 7.9 kann folgendermaßen interpretiert werden: Ein Knoten hat eine große Zusammenhangskomponente mit Wahrscheinlichkeit ζλ . Daher gibt es Θ(ζλn) ?? Knoten mit einer großen Zusammenhangskomponenten. Satz 7.9 sagt, dass all diese großen Komponenten tatsächlich dieselbe sind. Wir skizzieren zunächst die Beweisstrategie für Satz 7.9. Diese basiert auf einer Analyse der Anzahl der Knoten, die in einer Zusammenhangskomponente der Größe mindestens k liegen. n X 1l{|C(v)|≥k} . Z≥k = v=1 Wir wählen zunächst k = kn = K log n für ein k > 0 hinreichend großes K. Bemerke, dass E[Z≥ kn ] = nPλ [|C(v)| ≥ kn ]. Wir berechnen Pλ [|C(v)| ≥ kn ] mithilfe von Satz 7.2. Genauer berechnen wir die Verteilung der Clustergröße in Proposition 7.10 (weiter unten), die besagt, dass für kn = K log n und K hinreichend groß Pλ [|C(v)| ≥ kn ] = ζλ(1 + o(1)). Dann zeigen wir, dass es für k = kn = K log n für k > 0 (hinreichend groß) keine Zusammenhangskomponente der Größe zwischen kn und αn für jedes α < ζ. Dies machen wir mit der ersten Momentenmethode: Die erwartete Anzahl an Knoten in solchen Zusammenhangskomponenten ist gleich Eλ [Z≥kn − Z≥αn ] und wir benutzen die oben beschriebene Schranke aus Proposition 7.10 und ebenso Proposition 7.11 (ebenfalls unten), die besagt, dass für jedes α < ζλ ein J > 0 existiert, so dass Pλ [kn ≤ |C(v)| ≤ αn] ≤ e−kn J . Daher gibt es für hinreichend großes k > 0 kein Cluster der Größe zwischen kn und αn. Anschließend benutzen wir eine Varianzabschätzung für Z≥k in Proposition 7.12, die impliziert, dass mit großer Wahrscheinlichkeit und für alle ν ∈ ( 21 , 1) gilt |Z≥kn − Eλ [Z≥kn ]| ≤ nν . (7.6) Schließlich benutzen wir, dass für 2α > ζλ , bedingt auf dem Ereignis, dass es keine Cluster der Größe zwischen kn und αn gibt und auf dem Ereignis (7.6) gilt: Z≥kn = |Cmax |. Der Beweis von Satz 7.9 folgt dann aus einer Kombination dieser Fakten. 85 Proposition 7.10 Sei λ > 1. Dann gilt im Limes n → ∞ und für kn = a log n, wobei a > I1λ mit Iλ definiert wie oben Pλ [|C(v)| ≥ kn ] = ζλ + O( kn ). n Beweis: Wir benutzen die Abschätzung aus Satz 7.1 und die Abschätzung für die Größe des Clusters eines Verzweigungsprozesses: Pλ (|C(v)| ≥ kn ) ≤ Pn, λ (T ≥ kn ) ≤ P∗λ (T ≥ kn ) + O( n kn ), n wobei T und T ∗ die Gesamtbevölkerung eines Binomial- bzw. Poisson-Verzweigungsprozesses sind. Um den Beweis zu vervollständigen benutzen wir Satz 6.2 und Übung 6.3, um P∗λ (T ∗ ≥ kn ) = P∗λ (T ∗ = ∞) + P∗λ (kn ≤ T < ∞) = ζλ + O(e−kn Iλ ) kn = ζλ + O( ) n zu erhalten. Für die untere Schranke benutzen wir Satz 7.2, so dass wir mit λn = λ(1 − kn ) n erhalten: Pλ (|C(v)| ≥ kn ) ≥ Pn−kn , λ (T ≥ kn ) ≥ P∗λn (T ∗ ≥ kn ) + O( n kn ), n wobei nun T und T ∗ die gesamte Nachkommenschaft eines B(n − kn , nλ )- bzw. P oi(λn )Verzweigungsprozesses sind. Nach Übung 6.3 gilt für kn ≥ a log n und a > I1λ P∗λn (T ∗ ≥ kn ) = ζλn + O(e−kn Iλn ) = ζλn + O( kn ). n Nach dem Mittelwertsatz folgt ηλn = ηλ + (λn − λ) d kn ηλ |λ=λ∗n = ηλ + O( ) dλ n für ein λ∗n ∈ (λn , λ), wobei wir Korollar 6.6 mit λ > 1 und λn − λ = knn benutzen. Also gilt auch kn ζλn = ζλ + O( ). n Wenn wir diese Abschätzungen zusammenfassen, bekommen wir die untere Abschätzung. Zusammen mit der vorher gezeigten oberen Abschätzung ist dies der Beweis von Proposition 7.10. 2 86 Proposition 7.11 Sei λ > 1 und kn so, dass kn → ∞. Dann gibt es für jedes α < ζλ ein J = J(α, λ) > 0, so dass Pλ (kn ≤ |C(v)| ≤ αn) ≤ Ce−kn J . Beweis: Wir beginnen mit der Schranke Pλ (kn ≤ |C(v)| ≤ αn) = αn X t=kn Pλ (|C(v)| = t) ≤ αn X Pλ (St = 0). t=kn Nach Proposition 7.7 ist St ∼ B(n − 1, 1 − (1 − p)t ) + 1 − t. Daher gilt nun p = Pλ (St = 0) = Pλ (B(n − 1, 1 − (1 − p)t ) = t − 1). λ n (7.7) Um den exponentiellen Abfall der Wahrscheinlichkeiten zu erklären, beachte man, dass für p = nλ und t = αn gilt 1 − (1 − p)t = 1 − (1 − λ αn ) = (1 − e−λα )(1 + o(1)). n Die Gleichung 1 − e−λα = α wird nun eindeutig durch α = ζλ gelöst (dies ist eine Übung). Für α < ζλ ist daher auch α < 1 − e−λα und die Wahrscheinlichkeit in (7.7) fällt exponentiell. Im Detail: Wir starten mit (7.7) und benutzen, dass 1 − p ≤ e−p , also 1 − (1 − p)t ≥ 1 − e−pt gilt, um zu erhalten: Pλ (St = 0) = ≤ ≤ ≤ Pλ (B(n − 1, 1 − (1 − p)t ) = t − 1) Pλ (B(n − 1, 1 − (1 − p)t ) ≤ t − 1) Pλ (B(n, (1 − (1 − p)t )) ≤ t) Pλ (B(n, (1 − e−pt )) ≤ t). Da die eindeutige Lösung in α für 1 − e−λα = α durch α = ζλ gegeben ist, prüft man schnell nach (Übung), dass für α < ζλ und λ > 1 ein δ = δ(α, λ) > 0 existiert, so dass für alle β ≤ α gilt: 1 − λβ ≤ e−λβ ≤ 1 − (1 + δ)β. Sei nun X ∼ B(n, 1 − e−pt ) und t = βn, wobei wir β so wählen, dass Dann folgt aus der vorhergehenden Ungleichungskette: β(1 + δ)n ≤ Eλ [X] ≤ λβn. Also: Pλ (St ≤ 0) ≤ Pλ (X ≤ t) ≤ Pλ (X ≤ Eλ X − βδn). 87 kn n ≤ β ≤ α gilt. Für Binomial-verteilte Zufallsvariablen aber können wir exponentielle Schranken für die Wahrscheinlichkeit der Abweichung vom Erwartungswert angeben (siehe Proposition 7.12 unten). Hiermit folgt Pλ (St ≤ 0) ≤ e−βδ Setzen wir J = J(α, λ) = δ2 , 2λ 2 n/2λ tδ 2 = e− 2λ . so folgt Pλ (kn ≤ |C(v)| ≤ αn) = ≤ ≤ αn X t=kn αn X Pλ (St = 0) e−Jt t=kn −Jkn e . 1 − e−J 2 Proposition 7.12 Es seien X1 , . . . , Xn unabhängige Ber(pi )-verteilte Zufallsvariablen. Dann gelten mit n n X X X= Xi und λ = EX = pi i=1 i=1 die folgenden Schranken: −t2 P[X ≥ EX + t] ≤ exp 2(λ + t ) 2 3 −t P[X ≤ EX − t] ≤ exp . 2λ Beweis: Sei Y ∼ B(n, nλ ). Da “log” eine konkave Funktion ist, gilt für alle x1 , . . . , xn ∈ R n X 1 log(xi ) ≤ log n i=1 n 1X xi n i=1 ! (z. B. nach Jensen). Somit folgt für alle u ∈ R EeuX = n Y (1 + (eu − 1)pi ) i=1 P n n i=1 1 u log(1+(e −1)pi ) n = e (eu −1)λ ≤ en log(1+ n ) (eu − 1)λ n ) = (1 + n = EeuY . 88 Mithilfe der exponentiellen Markov-Ungleichung folgt für n ≥ 0 P(X ≥ EX + t) ≤ e−u(EX+t) EeuX ≤ e−u(EX+t) EeuY = e−u(λ+t) (1 − p + peu )n , (7.8) wobei wir wieder p = nλ und λ = EX gesetzt haben. Für t > n − λ ist die linke Seite von (7.8) gleich 0 und die Behauptung ist trivialerweise wahr. Für λ + t < n nimmt die rechte Seite ihr Minimum für das u an, das der Bedingung eu = (λ + t)(1 − p) (n − λ − t) · p genügt. Daraus erhält man für 0 ≤ t ≤ n − λ λ+t n−λ−t λ n−λ P(X ≥ λ + t) ≤ . λ+t n−λ−t Dies ist die sogenannte Chernoff-Schranke. Für 0 ≤ t ≤ n−λ kann man sie folgendermaßen umschreiben: −t t )), P(X ≥ λ + t) ≤ exp(−λϕ( ) − (n − λ)ϕ( λ n−λ wobei ϕ(x) = (1 + x) log(1 + x) − x (x ≥ −1) ist. Ersetzt man X durch n − X, erhalten wir auch für 0 ≤ t ≤ n − λ t t )). P(X ≤ λ − t) ≤ exp(−λϕ( ) − (n − λ)ϕ( λ n−λ Da ϕ(x) ≥ 0 für alle x gilt, können wir den zweiten Term des Exponenten vernachlässigen. Weiter ist ϕ(0) = 0 und ϕ′ (x) = log(1 + x) ≤ x, so dass ϕ(x) ≥ x2 /2, was die zweite Schranke beweist. Ähnlich rechnet man ϕ(0) = ϕ′ (0) = 0 und für x ∈ [0, 1] 1 1 ≥ ϕ (x) = = 1+x (1 − x3 )3 ′′ so dass ϕ(x) ≥ x2 2(1 + xs ) ′′ , x2 2(1 + x3 ) gilt, was die erste Ungleichung beweist. 2 Korollar 7.13 (Zu Proposition 7.11): Sei kn = K log n und α < ζλ . Dann gibt es für hinreichend großes K mit Wahrscheinlichkeit wenigstens 1 − n−δ keine Zusammenhangskomponente der Größe zwischen kn und αn. 89 Beweis: Die erwartete Anzahl von Komponenten mit einer Größe zwischen kn und αn für α < ζλ ist Eλ [Z≥kn − Z≥αn+1 ] = nPλ (kn ≤ |C(v)| ≤ αn) ≤ Cne−kn J , wobei wir Proposition 7.11 verwendet haben. Wenn kn = K log n ist und K hinreichend groß, ist dies höchstens O(n−δ ). Mithilfe der Markov-Ungleichung folgt Pλ (∃v : kn ≤ |C(v)| ≤ αn) = Pλ (Z≥kn − Z≥αn+1 ≥ 1) ≤ Eλ [Z≥kn − Z≥αn+1 ] = O(n−δ ). 2 Um Satz 7.9 zu beweisen, fehlt uns noch eine Varianzabschätzung. Dazu sei χ<k (λ) = Eλ (|C(v)|1l{|C(v)|<k} ). Dann gilt Proposition 7.14 Für alle n und jedes k ∈ {1, . . . , n} gilt Vλ (Z≥k ) ≤ (λk + 1)nχ<k (λ). Dies ist im superkritischen Fall viel besser als Proposition 7.8. Die Abschätzung aus Proposition 7.8 ergäbe Vλ (Z≥k ) ≤ nχ≥k (λ). Wenn aber der Satz 7.9, den wir gerade beweisen sollen, stimmt, dann ist |C(1)| = Θ(n) mit positiver Wahrscheinlichkeit. Daher ist n · χ≥k (λ) = Θ(n2 ), was eine triviale Schranke für VZ≥k ist. Die Schranke aus Proposition 7.14 ist dagegen höchstens Θ(k 2 n), was für kleine k viel kleiner ist als Θ(n2 ). Wir werden wieder k = kn = Θ(log n) wählen. Beweis: Sei Z<k = n X v=1 Da Z<k = n − Z≥k gilt, folgt 1l{|C(v)|<k} . Vλ (Z≥k ) = Vλ (Z<k ). Also genügt es zu zeigen, dass V(Z<k ) ≤ (λk + 1)nχ<k (λ). 90 Hierzu berechnen wir n X Vλ (Z<k ) = [Pλ (|C(i)| < k, |C(j)| < k) − Pλ (|C(i)| < k)Pλ (|C(j)| < k)]. i,j=1 Wir unterteilen auf, je nachdem, ob i ↔ j oder nicht: Vλ (Z<k ) ≤ n X [Pλ (|C(i)| < k, |C(j)| < k, i 6↔ j) i,j=1 −Pλ (|C(i)| < k)P(|C(j)| < k)] n X Pλ (|C(i)| < k, |C(j)| < k, i ↔ j). + i,j=1 Wenn i ↔ j gilt, dann ist C(i) = C(j), also auch |C(i)| = |C(j)|, also n X = i,j=1 n X i,j=1 = n X i=1 = n X i=1 Pλ (|C(i)| = |C(j)| < k, i ↔ j) Eλ [1l{|C(i)|<k} 1l{i↔j} ] Eλ [1l{|C(i)|<k} n X j=1 1l{i↔j} ] Eλ [|C(i)|1l{|C(i)|<k} ] = nχ<k (λ). Für die andere Summe schreiben wir für l < k Pλ (|C(i)| = l, |C(j)| < k, i 6↔ j) = Pλ (|C(i)| = l)Pλ (i 6↔ j |C(i)| = l) ×Pλ (|C(j)| < k |C(i)| = l, i 6↔ j). Wir beschränken Pλ (i 6↔ j |C(i)| = l) ≤ 1 und erhalten: Pλ (|C(i)| = l, |C(j)| < k, i 6↔ j) ≤ Pλ (|C(i)| = l) · P(|C(j)| < k |C(i)| = l, i 6↔ j). Ist nun |C(i)| = l und i 6↔ j, so ist |C(j)| verteilt wie |C(1)| in einem G(n − l, p)-Graphen mit p = nλ . Also Pn,λ (|C(j)| < k |C(i)| = l, i 6↔ j) = Pn−l,λ(|C(1)| < k). Daher gilt: Pλ (|C(j)| < k |C(i)| = l, i ↔ j) = Pn−k,λ(|C(1)| < k) = Pn,λ(|C(1)| < k) + Pn−l,k (|C(1)| < k) − Pn,l (|C(1)| < k). 91 Wir konstruieren eine Kopplung zwischen G(n−l, p) und G(n, p), indem wir zu G(n−l, p) die Knoten {n − l + 1, . . . , n} hinzufügen und indem wir die zusätzlichen Kanten mit Wahrscheinlichkeit p unabhängig belegen. Mit dieser Kopplung sieht man, dass Pn−l,λ(|C(1)| < k) − Pn,λ (|C(1)| ≤ k) gleich der Wahrscheinlichkeit ist, dass |C(1)| < k in G(n − l, p) aber |C(1)| ≥ k in G(n, p) ist. Wenn |C(1)| < k in G(n − l, p), aber |C(1) ≥ k in G(n, p) ist, muss wenigstens einer der Knoten in {n − l + 1, . . . , n} mit einem der höchstens k Knoten in C(1) in G(n − l, p) verbunden sein. Die Wahrscheinlichkeit hierfür ist höchstens lkp, so dass Pλ (|C(j)| < k, i 6↔ j||C(i)| = l) − Pλ (|C(j)| < k) ≤ lkλ . n Daher folgt n X [Pλ (|C(i)| < k, |C(j)| < k, i 6↔ j) − Pλ (|C(i)| < k)Pλ (|C(j)| < k) i,j=1 = k−1 XX Pλ (|C(i)| = l, |C(j)| < k, i 6↔ j) − Pλ (|C(i)| = l)Pλ (|C(j)| < l) l=1 i,j P(|C(i)| = l)(P(|(j)| ≤ k |C(i)| = l 6↔ j) − P(|C(j)| < k)) i,j ≤ ≤ = l=1 k−1 X X k−1 X X λkl l=1 i,j n Pλ (|C(i)| = l) λk X Eλ [|C(i)|1l{|C(i)|<k} ] n i,j = nkλχ<k (λ), was mit der obigen Abschätzung die Proposition beweist. 2 Wir sind nun in der Lage, Satz 7.9 zu beweisen. Beweis von Satz 7.9: Sei ν ∈ ( 21 , 1) und α ∈ ( ζ2λ , ζλ ). Sei ferner kn = K log n für ein hinreichend großes K. Sei En := En(1) ∩ En(2) mit En(1) := {|Z≥kn − nζλ | ≤ nν } und En(2) := {∃v ∈ {1, . . . , n} : kn ≤ |C(v)| ≤ αn}. Wir benötigen nun noch das folgende Lemma: 92 Lemma 7.15 En tritt mit großer Wahrscheinlichkeit auf, d. h. Pλ (Enc ) ≤ cn−δ für eine Konstante c < ∞ und ein δ > 0. Weiter gilt auf En |Cmax | = Z≥kn . (1)c Beweis: Offenbar ist Enc = En (2)c ∪ En . Nun ist nach Proposition 7.10 Eλ [Z≥kn ] = nPλ (|C(v)| ≥ kn ) = nζλ + O(kn ). Somit folgt für hinreichend großes n, und da kn = O(log n) = o(nν ) gilt: {|Z≥kn − Eλ [Z≥kn ]| ≤ nν /2} ⊆ {|Z≥kn − nζλ | ≤ nν }. Mithilfe der Chebyshev-Ungleichung und Proposition 7.14 zusammen mit χ≤kn (λ) ≤ kn erhalten wir für großes n: Pλ (|Z≥kn − E[Z≥kn ]| ≤ nν /2) 1 − 4n−2ν V(Z≥kn ) 1 − 4n1−2ν (λkn2 + kn ) 1 − n−δ Pλ (|Z≥kn − nζλ | ≤ nν ) ≥ ≥ ≥ ≥ (1)c für δ < 2ν − 1, da kn = K log n gilt. Dies beschreibt die Wahrscheilichkeit von En . Weiter ist nach Korollar 7.13 Pλ (∃v ∈ {1, . . . , n} : kn ≤ |C(v)| ≤ αn) ≤ n−δ . (2)c Also ist auch die Wahrscheinlichkeit von En klein, zusammen also Pλ (Enc ) = O(n−δ ). Um die zweite Aussage herzuleiten, bemerken wir, dass {|Z≥kn − ζλ n| ≤ nν } ⊆ {Z≥kn ≥ 1}. Also ist auf En |Cmax | ≤ Z≥kn , denn da es Cluster der Größe mindestens kn gibt, liegt jeder Punkt in Cmax in einem Cluster der Größe ≥ kn . Ist diese Ungleichung strikt, d. h. gilt |Cmax | < Z≥kn , dann gibt es mindestens zwei Zusammenhangskomponenten der Größe mindestens kn . Auf En gibt es aber keine Zusammenhangskomponenten mit einer Größe zwischen kn und αn. Also muss es zwei solche Cluster mit einer Größe von mindestens αn geben, also muss Z≥kn ≥ αn 93 gelten. Ist nun 2α > ζλ und n hinreichend groß, so widerspricht dies Z≥kn ≤ ζλ n + nν . Also gilt die Behauptung. 2 Wir beenden nun den Beweis von Satz 7.9. Nach Lemma 7.15 gilt Pλ (|Cmax | − ζλ n| ≤ nν ) ≥ Pλ (|Cmax| − ζλ n| ≤ nν ∩ En ) = Pλ (En ) ≥ 1 − O(n−δ ), da nach Lemma 4.15 auf En |Cmax | = Z≥kn und |Z≥an − nζλ | ≤ nν gilt. Dies beweist Satz 7.9. 2 Eine interessante Frage, die beinahe auf der Hand liegt, ist die folgende: Wir betrachten eine Zufallsgröße G(n, p) mit p = nλ und λ > 1. Dann wissen wir aus dem Inhalt dieses Kapitels, dass G(n, p) mit großer Wahrscheinlichkeit eine riesige Komponente der Größe ζλ n enthält. Wie sieht nun der Graph aus, wenn wir diese entfernen? Die Antwort ist, dass wir dann in einen subkritischen Bereich geraten. Genauer: Satz 7.16 (Diskretes Dualitätsprinzip) Es sei λ > 1 und µ = µλ < 1 zu λ dual in dem Sinn, dass µe−µ = λ e−λ gilt. Die bedingte Verteilung des Graphen G(n, nλ ), bei dem man die riesige Komponente µ entfernt, ist nahe an der Verteilung eines G(m, m )-Modells, wobei m := n − ⌈nζλ ⌉ die asymptotische Anzahl an Knoten ist, die außerhalb der riesigen Komponente liegen. Bemerkung 7.17 Mit der Formulierung “die Verteilung . . . liegt dicht bei der Verteilung . . .” meinen wir das folgende: Wir schreiben P′λ für die Verteilung des G(n, nλ ), bei dem wir die riesige Komponente entfernt haben. Sei E ein Ereignis, das über die Kantenvariablen definiert ist. Dann gilt, falls limm→∞ Pm,µ (E) existiert: lim P′n,λ (E) = lim Pm,µ (E). n→∞ m→∞ Beweisskizze für Satz 7.16: Bemerke, dass alle Kanten im Komplement der riesigen Komponente unabhängig sind. Wir berechnen nun die Wahrscheinlichkeit, dass so eine Kante auftritt. Diese ist natürlich nach wie vor nλ . Dies schreiben wir für |Cmax | = n − m als λ m λ = · . n m n Nun ist m mit großer Wahrscheinlichkeit ungefähr ζλ n, also λ ληλ µ ≈ = n m m (erinnere, dass ηλ = 1−ζλ ist). Andererseits auch n−m ≈ ηλ ·n, d. h. wir haben tatsächlich µ )-Graph. 2 einen G(m, m 94 8 Der kritische Erdös-Rényi-Graph Wir haben in Kapitel 7 gesehen, das es einen Phasenübergang im Erdös-Rényi-Graphen gibt: Während für p = nλ , λ < 1, die Größe der größten Zusammenhangskomponente bei etwa 1 |Cmax | ∼ log n = Iλ mit Iλ = λ − 1 − log λ liegt, ist sie für λ > 1 dicht bei |Cmax | ∼ = ζλ n, wobei ζλ die Überlebenswahrscheinlichkeit eines Poisson(λ)-Verzweigungsprozesses ist. Die Frage, was bei p = n1 geschieht, liegt nahe. Die Antwort darauf gibt Satz 8.1 Für p = n1 gilt: Es gibt eine Konstante b > 0, so dass für hinreichend großes n und alle w > 1 gilt 1 b P( n2/3 ≤ |Cmax | ≤ wn2/3 ) ≥ 1 − . w w Der Beweis dieses Satzes wird uns in diesem Abschnitt beschäftigen. Der Beweis benutzt Abschätzungen über die erwartete Clustergröße und die Tails der Verteilung der Clustergröße. Diese werden wir zunächst formulieren und dann später beweisen. Sei P≥k (λ) := Pλ (|C(v)| ≥ k). Proposition 8.2 Sei λ = 1. Für k ≤ rn2/3 gibt es Konstanten 0 < c1 = c1 (v) < c2 < ∞ mit min{c1 (r) : r ≤ κ} > 0 für ein κ > 0 und ein von r unabhängiges c2 , so dass für alle hinreichend großen n gilt c2 c1 √ ≤ P≥k (λ) ≤ √ . k k Proposition 8.2 bedeutet, dass sich die Tails der kritischen Clustergrößen-Verteilung ähnlich verhalten wie die Tails der Gesamtgröße eines P oi(λ)-Galton-Watson-Baumes. Für diesen hatten wir r 1 2 1 ∗ √ (1 + O( )) P1 (T ≥ k) = π k k hergeleitet. Natürlich kann Proposition 8.2 nicht wahr sein, wenn k beliebig von n abhängen darf. Für k > n gilt ja z. B. P≥k (1) = 0. 95 Tatsächlich ist die obere Schranke aber für alle k wahr. Für die untere Schranke hingegen gibt es eine Schwelle, wo diese zusammenbricht. Diese liegt bei rn2/3 . Als nächstes betrachten wir Eλ [|C(1)|] = χ(λ). Proposition 8.3 Es gibt ein K > 0, so dass für alle λ ≤ 1 und alle n ∈ N gilt χ(λ) ≤ Kn1/3 . Dies ist auf intuitiver Ebene konsistent mit Satz 8.1. Tatsächlich sollte ja ein wesentlicher Beitrag zu χ(1) vom größten Cluster kommen. Also χ(1) ∼ E1 [|C(v)|1l{v∈Cmax } ] = E1 [|Cmax |1l{v∈Cmax } ]. Wenn tatsächlich Satz 8.1 stimmt, dann ist |Cmax | = Θ(n2/3 ), dann ist P1 (v ∈ Cmax ) ∼ n2/3 = n−1/3 . n Daher sollte man intuitiv erwarten, dass χ(1) ∼ n1/3 . Wir beweisen zunächt Satz 8.1 unter Voraussetzung von Proposition 8.2 und 8.3. Beweis von Satz 8.1: Wir beginnen mit der oberen Schranke für |Cmax |. Wir erinnern, dass {|Cmax | ≥ k} = {Z≥k ≥ k} Pn gilt, wobei wieder Z≥k = v=1 1l{|C(v)|≥1} ist. Mithilfe der Markov-Ungleichung erhalten wir 1 1 P1 [|Cmax | ≥ wn2/3 ] = P[Z≥wn2/3 ≥ wn2/3 ] ≤ E1 [Z≥wn2/3 ]. w n2/3 Nach Proposition 8.2 lässt sich dies nun abschätzen als c2 E1 [Z≥wn2/3 ] = nP≥wn2/3 (1) ≤ n2/3 √ . w Also P1 [|Cmax | ≥ wn2/3 ] ≤ c2 , w 3/2 was für große w ≥ 1 sogar stärker ist als behauptet. Für die untere Schranke bemerken wir zunächst, dass für w < b nichts zu zeigen ist. b > 0 werden wir groß wählen, so dass wir für w > b w > κ1 , für das κ > 0 aus Proposition 8.2, annehmen können. 96 Die Chebyshev-Ungleichung, zusammen mit {|Cmax | < k} = {Z≥k = 0} ergibt P1 (|Cmax | < Nun ist V(Z≥w−1n2/3 ) 1 2/3 n ) = P1 (Z≥w−1n2/3 = 0) ≤ . w E[Z≥w−1 n2/3 ]2 )] √ E1 [Z≥w−1 n2/3 ] = nPgew−1 n2/3 (1) ≥ c1 wn2/3 , wobei wir Proposition 8.2, w ≥ κ1 und c1 = minr≤κ c1 (r) > 0 benutzt haben. Nun haben wir V(Z≥k ) schon (zweimal) in Kapitel 7 abgeschätzt. Wir benutzen Proposition 7.7 um zu erhalten: V(Z≥w−1n2/3 ) ≤ nχ≥w−1 n2/3 (1) = nE[|C(1)|1l{|C(1)|≥ 1 n2/3 } ]. w Mithilfe von Proposition 8.3 erhalten wir also weiter: V(Z≥w−1n2/3 ) ≤ nχ≥w−1 n2/3 (1) ≤ nχ(1) ≤ Kn4/3 . Wenn wir diese Abschätzungen zusammenfügen, ergibt sich: P1 (|Cmax | < 1 2/3 Kn4/3 K n ) ≤ 2 4/3 = 2 . w c1 wn c1 w Also ergibt sich 1 P1 ( n2/3 ≤ |Cmax | ≤ wn2/3 ) w = 1 − P1 (|Cmax | < w −1 n2/3 ) − P1 (|Cmax | > wn2/3 ) c2 b K ≥ 1 − 2 − 3/2 ≥ 1 − , c1 w w w wenn wir b = Kc21 + c2 setzen. 2 Bleibt Proposition 8.2 und 8.3 zu beweisen. Beweis von Proposition 8.2: Sei λ ≤ 1. Der Vergleich zwischen G(n, p) und einem Binomialbaum ergibt wieder P≥k (λ) ≤ Pn,p (T ≥ k), wobei sich die rechte Seite wieder auf einen B(n, p)-Galton-Watson-Baum mit p = nλ bezieht. Vergleichen wir diesen wieder mit einem P oi(λ)-Galton-Watson-Baum, so sehen wir P≥k (λ) ≤ P∗λ (T ∗ ≥ k) + ek (n) mit k 2X ∗ ∗ P (T ≥ s). |ek (n)| ≤ n j=1 λ 97 Nun haben wir die Tails eines kritischen P oi(1)-GW-Baumes abgeschätzt: C P∗λ (T ∗ ≥ s) ≤ P∗1 (T ∗ ≥ s) ≤ √ s für C > 0. Dies ergibt eine Schranke für |ek (n)|: Da auch P∗λ (T ∗ ≥ s) ≤ √ k k 4C 2X C √ ≤ 4C ≤√ . |ek (n)| ≤ n s=1 s n k C √ , k erhalten wir 5C P≥k (λ) ≤ √ . k Für λ = 1 zeigt dies die obere Schranke in Proposition 8.2. Für die untere Schranke benutzen wir P1 (|C(1)| ≥ k) ≥ Pn−p,k (T ≥ k), wobei sich die rechte Seite wieder auf ein entsprechendes Binomial-Baum-Modell bezieht. Wir wählen k ≤ rn2/3 und p = n1 . Vergleichen wir die rechte Seite wieder mit einem Poisson-Galton-Watson-Prozess, so ergibt sich mit λn = 1 − rn−1/3 ≥ 1 − nk und obiger Fehlerschranke √ √ 4C k 4C r ∗ ∗ ∗ ∗ P1 (|C(1)| ≥ k) ≥ Pλn (T ≥ k) − ≥ Pλn (T ≥ k) − 2/3 . n n Verwenden wir nun Satz 6.2, so erhalten wir √ ∞ X 4C r ∗ ∗ Pλn (T = t) − 2/3 P(|C(1)| ≥ k) ≥ n t=k √ X (λn t)t−1 4c r −λn t e − 2/3 = t! n √ X 4C r ∗ ∗ −Iλn t − 2/3 , ≥ P1 (T = k)e n t≥k wobei 1 Iλn = λn − 1 − log λn = (λn − 1)2 + O(|λn − 1|)3 . 2 Übung 8.4 Man zeige die letzte Ungleichung, genauer: (λt)t−1 −λt 1 e = e−Iλ t P∗1 (T ∗ = t). t! λ Also gilt für hinreichend großes n Pλ (|C(1)| ≥ k) ≥ ≥ ∞ X t=k ∞ X t=k P∗1 (T ∗ − 21 (λn −1)2 t(1+o(1)) = t)e √ C − 1 (λn −1)t(1+o(1)) 4C r e 2 − 2/3 t3 n C1 (r) ≥ √ , k 98 √ 4C r − 2/3 n da λn − 1 = −rn−1/3 , und wobei wir √ 3 c1 (r) = C(2−3/2 e−r − e r) > 0 für hinreichend kleines r gesetzt haben. 2 Der Beweis von Proposition 8.3 ist zu lang, um hier gezeigt zu werden. 99 9 Der Zentrale Grenzwertsatz für die riesige Komponente In diesem kurzen Abschnitt wollen wir eine sehr natürliche Frage beantworten, die sich | aus Satz 7.9 ergibtr. Dort haben wir festgestellt, dass |Cmax gegen ζλ konvergiert im Sinne n des Gesetzes der großen Zahlen. Aus wahrscheinlichkeitstheoretischer Sicht ist die nächstliegende Frage nun die nach einem Zentralen Grenzwertsatz. Dieser wird nun bewiesen. Satz 9.1 (CLT für die Größe des riesigen Komponente) Sei λ > 1. Dann gilt |Cmax | − ζλ n D √ −→ Z, n wobei Z ∼ N (0, σλ2 )-verteilt ist und σλ2 = ζλ (1 − ζλ ) . (1 − λ + λζλ )2 Der Beweis wird Satz 7.9 und eine Art Explorationsprozess für die Zusammenhangskomponenten verwenden. Wir wählen zunächst k = kn , der wir später spezifizieren werden. Wir untersuchen mit einem Explorationsprozess die Vereinigung der Zusammenhangskomponenten der Vertizes {1, . . . , k}. Wenn k → ∞ geht, wird dies die größte Zusammenhangskomponente enthalten und sie kann nicht größer sein als |Cmax | + kbn , wobei wir mit bn ≤ K log n die Größe der zweitgrößten Zusammenhangskomponente beschränken. Wenn also √ k = o(nν ) für ein ν < 21 ist, dann hat diese Vereinigung eine Größe von |Cmax | + o( n). Können wir also einen Zentralen Grenzwertsatz für die Größe dieser Vereinigung ableiten, dann haben wir auch einen für |Cmax |. Wir leiten nun eine Formel für die Größe der Vereinigung der Zusammenhangskomponenten von {1, . . . , k} her. Sei S1 die Anzahl an Knoten, die aus {k+1, . . . , n} stammen und mit {1, . . . , k} verbunden sind. Man überzeugt sich, dass S1 ∼ B(n − k, 1 − (1 − p)k ) gilt. Für m ≥ 1 sei Sm = Sm−1 + Xm−1 , wobei Xm ∼ B(n − Sm−1 − (m + k − 1), p). Einen ähnlichen Explorationsprozess haben wir schon kennengelernt. Dann gilt 100 (9.1) Proposition 9.2 Für alle t ∈ {1, . . . , n} gilt St + (t − 1) ∼ B(n − k, 1 − (1 − p)t+k−1 ). Weiter gilt für alle l, m ∈ {1, . . . , n} mit l ≥ m bedingt auf Sm Sl + (l − m) − Sm ∼ B(n − (m + k − 1) − Sm , (1 − (1 − p)l−m )). Für k = 1 haben wir dies schon in einer früheren Proposition kennengelernt. Beweis: Für t = 1 folgt alles aus der Formel für S1 . Für t ≥ 1 sei Nt die Anzahl der noch nicht untersuchten Knoten, also Nt = n − (t + k − 1) − St . Es ist bequemer, die äquivalente Behauptung Nt ∼ B(n − k, (1 − p)t+k−1 ) ∀ t zu zeigen. Um dies einzusehen, bemerke, dass jeder der Knoten {k + 1, . . . , n} unabhängig von allen anderen Knoten Wahrscheinlichkeit (1 − p)t+k−1 hat, in den ersten t Explorationen neutral zu bleiben. Formal: Bedingt unter St−1 gilt Xt ∼ B(n − St−1 − (t + k − 2), p) = B(Nt−1,p ) nach (9.1). Behält man im Hinterkopf, dass N1 ∼ B(Nm , (1 − p)l−m ), so ergibt sich: Nt = = = = = n − (t + k − 1) − St n − (t + k − 1) − St−1 − Xt + 1 n − (t + k − 2) − St−1 − B(Nt−1 , p) Nt − 1 − B(Nt−1 , p) B(Nt−1 , 1 − p) und die Behaputung folgt induktiv mithilfe der folgenden Übung. Für l ≥ m impliziert diese Rechnung auch: Nl ∼ B(Nm , (1 − p)l−m ). Setzt man Nm = n − (m + k − 1) − Sm ein, so folgt hieraus n − (l + k − 1) − Sl ∼ B(n − (n + k − 1) − Sm , (1 − p)l−m ) = n − (m + k − 1) − Sm − B(n − (m + k − 1) − Sm , 1 − (1 − p)l−m ), was wiederum äquivalent zu der Behauptung ist, dass für alle l ≥ m und bedingt unter Sm Sl + (l − m) − Sm ∼ B(n − (m + k − 1) − Sm , 1 − (1 − p)l−m ) gilt. 2 101 Übung 9.3 Ist N ∼ B(n, p)-verteilt und M bedingt auf N, M ∼ B(N, q)-verteilt, dann ist M ∼ B(n, pq)-verteilt. Eine Folge aus Proposition 9.2 ist, dass S⌊nt⌋ einem CLT genügt. Wir setzen S0 = k und machen bei der Formulierung Gebrauch von der asymptotischen Approximation für Mittelwert und Varianz von S⌊nt⌋ µt = 1 − t − eλt und vt = e−λt (1 − e−λt ). √ Korollar 9.4 Sei k = kn = o( n). Dann konvergiert für jedes t ∈ [0, 1] S⌊nt⌋ − nµt D −→ N (0, 1). √ nvt Beweis: Die Behauptung folgt sofort aus einem CLT für die Binomialverteilung (X ∼ B(an , pn ) mit an pn (1 − pk ) → ∞), wenn wir zeigen können, dass √ und (9.2) ES⌊nt⌋ = nµt + o n VS⌊nt⌋ = nvt + o(n) gilt, denn S⌊nt⌋ − nµt = √ nvt s V(S⌊nt⌋ ) S⌊nt⌋ − E[S⌊nt⌋ ] E[S⌊nt⌋ ] − nµt p + p . nvt V(S⌊nt⌋ ) V(S⌊nt⌋ ) Nach (9.2) konvergiert der zweite Summand gegen 0 und der Varfaktor gegen 1. Nach dem gewöhnlichen CLT konvergiert S⌊nt⌋ − ES⌊nt⌋ p V[S⌊nt⌋ ] gegen die Standardnormalverteilung. Um (9.2) einzusehen, bemerken wir für den Erwartungswert, dass √ λ E[S⌊nt⌋ ] = (n − k)(1 − (1 − )⌊nt⌋+k−1 ) − (⌊nt⌋ − 1) = nµt + o( n) n und für die Varianz, dass V[S⌊nt⌋ ] = (n − k)(1 − λ λ ⌊nt⌋+k−1 ) (1 − (1 − )⌊nt⌋+k−1 ) = nvt 0o(n) n n √ gilt, so lange k = o( n) bzw. k = o(n) gilt. Nun beweisen wir Satz 9.1. 102 2 Beweis von Satz 9.1: Sei |C≤k | die Größe der Vereinigung der Zusammenhangskomponenten der Knoten 1, . . . , k. Dann gilt |C≤k | ∼ min{m : Sm = 0}. (9.3) Sei k = kn = log n. Dann folgt aus Satz 7.9, dass die Wahrscheinlichkeit, dass keiner der ersten kn Knoten in der größten Zusammenhangskomponenten liegt, von oben abgeschätzt werden kann durch " k # n − |Cmax | n Eλ = o(1). n Somit gilt mit großer Wahrscheinlichkeit |C≤k | ≥ |Cmax |. Andererseits folgt aus Korollar 7.13 und Satz 7.9, das mit großer Wahrscheinlichkeit das zweitgrößte Cluster eine Größe von höchstens k log n (für ein großes k > 0) hat, falls 2α > ζλ ist. Also gilt mit großer Wahrscheinlichkeit |C≤k | ≤ |Cmax | + (k − 1)K log n. Also folgt ein CLT für |Cmax | aus einer solchen für |C≤k | mit k = log n. Diesen CLT für |C≤k | beweisen wir durch obere und untere Schranken an Pλ |C≤k | − ζλ n √ ≤x . n Für die obere Schranke verwenden wir, dass (9.3) impliziert, dass für jedes l Pλ (|C≤k | > l) = Pλ (∀ m ≤ l : Sm > 0) gilt. Wendet man (9.4) auf (9.4) √ l = mx = ⌊nζλ + x n⌋ an, erhält man |C≤k | − ζλ n √ > x = Pλ (∀ m ≤ mX : Sm > 0) ≤ Pλ (Smx > 0). Pλ n Nun verwenden wir (9.2) und µζλ = 0 und sehen (für die Ableitung µ′t von µt nach t): √ √ E[Smx ] = nµζλ + nxµ′ζλ + o( n) √ √ = nx(λe−λζλ − 1) + o( n) (bemerke, dass λe−λζλ − 1) < 0 für λ > 1 gilt. Übung 9.5 Man zeige, dass für λ > 1 µ′ζλ = λe−λζλ − 1 < 0 und µζλ = 0 gilt. 103 Man berechnet mithilfe von (9.2) die Varianz von Smx als V(Smx ) = nvζλ + o(n). Somit ergibt sich Pλ (Smx > 0) = Pλ x(1 − λe−λζλ ) Smx − E(Smx ) p > √ vζλ V(Smx ! + o(1). (9.5) Nach Korollar 9.4 konvergiert die rechte Seite gegen x(1 − λe−λζλ ) P Z> = P(Z ′ > x), √ vζλ v λ verteilt sind. Schließlich ist wobei Z ∼ N (0, 1) und Z ′ ∼ N (0, (1−λeζ−λζ λ )2 ζλ = λ − ηλ , also 1 − ζλ = e−λζλ , so dass vζλ = e−λζλ (1 − e−λζλ ) = ζλ (1 − ζλ ) gilt. Also lässt sich die Varianz von Z ′ umschreiben zu ζλ(1 − ζλ ) vζλ = . 2 −λζ λ ) (1 − λe (1 − λ + λζλ )2 Dies ergibt die obere Schranke wegen (9.5). Für die untere Schranke benutzen wir wieder, dass Pλ (|C≤k | − ζλ > x) = Pλ (∀ m ≤ mx : Sm > 0) √ gilt, wobei wir wieder mx = ⌊nζλ + x n⌋ gesetzt haben. Dann gilt für alle ε > 0 √ Pλ (∀ m ≤ mx : Sm > 0) ≥ Pλ (∀ m < mx : Sm > 0Smx > ε n) √ √ = Pλ (Smx > ε n) − Px (Smx > ε n, ∃m < mx : Sm = 0). Der erste Term kann ähnlich wie bei der oberen Schranke behandelt werden. Tatsächlich erhält man exakt so wie dort für jedes ε > 0 √ x(1 − λe−λζλ ) + ε Pλ (Smx > ε n) = P(Z > + o(1). √ vζλ Wieder gilt für ε → 0, dass die rechte Seite gegen P(Z ′ > x), für Z ′ ∼ N (0, σλ2 ). Somit genügt es zu zeigen, dass √ Pλ (Smx > ε n, ∃ m < mx : Sm = 0) = o(1). Mithilfe der Bollschen Ungleichung folgt: √ Pλ (Smx > ε n, ∃ m < mx : Sm = 0) ≤ m x −1 X √ Pλ (Sm = 0, Smx > ε n). m=1 Für m ≤ αn mit α < ζλ kann man zeigen, dass, wenn k = K log n und K hinreichend groß, gleichmäßig in m ≤ αn gilt 1 (9.6) Pλ (Sm = 0) = o( ). n 104 Übung 9.6 Man beweise (9.6). Wir zeigen eine ähnliche Schranke für m > αn, wobei α < ζλ ist (und beliebig dicht bei ζλ gewählt werden kann). Wir benutzen hierbei, dass für m dicht bei nζλ gilt EXm < 1, so dass wir uns Sm in m nahezu als Irrfahrt mit negativer Drift √vorstellen können. Daher ist die Wahrscheinlichkeit dafür, dass Sm = 0, aber Smx > ε n, exponentiell klein. Im einzelnen: √ √ Pλ (Sm = 0, Smx > ε n) ≤ P(Smx > ε n|Sm = 0) √ = Pλ (B(n − (m + k − 1), 1 − (q − p)mx −m ) > (mx − m) + ε n), da nach Proposition 9.2 bedingt unter Sm = 0 Sl + (l − m) ∼ B(n − (m + k − 1), (1 − (1 − p)l−m )) verteilt ist. Wähle κ = ζλ − ε für ein sehr kleines ε > 0. Unter Ausnutzung von 1 − (1 − a)b ≤ ab für alle a, b mit 0 < a < 1, b ≥ 1, erhalten wir 1 − (1 − p)mx −m = (1 − (1 − nλ )mx −m ) ≤ λ(mx −m) . Somit haben wir für n X ∼ B(n − (m + k − 1), (1 − (1 − p)mx −m )), unter Ausnutzung von n − (m + k − 1) ≤ n − m ≤ n(1 − ζλ + ε) und p = λ n EX ≤ (1 − ε)(mx − m). Daher folgt √ √ Pλ (Sm = 0, Smx > ε n) ≤ Pλ (X − EX ≥ ε((mx − m) + n)). Benutzt man wieder Proposition 7.12 über die√Abschätzung der Tails der Binomialverteilung, erhält man dann für t = ε((mx − m) + n) √ t2 Pλ (Sm = 0, Smx > ε n) ≤ exp − 2((1 − ε)(mx − m) + 3t ) ! t2 √ ≤ exp − . 2((mx − m) + 2ε3 n ) √ Daher folgt für mx − m ≥ ε n, da t ≥ ε(mx − m), √ √ √ 1 Pλ (Sm = 0, Smx > ε n) ≤ exp(−3ε n|8) = exp(−ε n/2) = o( ). n Dies beschließt den Beweis des Zentralen Grenzwertsatzes. 105 2 10 Inhomogene Zufallsgraphen Der G(n, p)-Zufallsgraph ist gewissermaßen die homogenste Art, einen Zufallsgraphen zu konstruieren. Wir wollen hier nun das zugrunde liegende Modell ein wenig ändern und sehen, welche Auswirkungen das hat. Wir wollen zu diesem Zweck den Knoten Gewichte zuweisen. Die Kanten werden dann, gegeben diese Gewicht, unabhängig gewählt. Die Gewichte selbst können deterministisch sein oder selbst zufällig. Sei wi das Gewicht von Knoten i. Die Wahrscheinlichkeit, eine Kante zwischen Knoten i und j zu legen, ist nun gegeben durch wi wj (GRG) pij = pij = , ln + wi wj wobei ln das Gesamtgewicht ist: ln = n X wi . i=1 Das entstehende Modell nenne wir HRG (w) (generaoized random graph mit Gewicht w). Hierbei nehmen wir an, dass wi > 0 gilt (alle i mit wi = 0 wären mit Wahrscheinlichkeit isoliert). Sind die (wi ) selbst Ergebnis von Zufallsvariablen (Wi ), so schreiben wir GRG(W). Sind die (wi) i.i.d. mit Erwartungswert µ, so kann man auch ln durch n ersetzen und kommt zu den Gewichten 1 Wi Wj Wi Wj µ . pij = = µn + wi wj n + µ1 wi wj Ein Spezialfall ist der GRG mit Gewichten wi = nλ , n−λ womit man pij = nλ , also das G(n, p)-Modell mit p = λ n erhält. Wir beginnen damit, im Modell GRG(w) die Gradfolge zu studieren. Es sei Dk der Grad von Knoten k. Dann gilt (n) Satz 10.1 a) Für feste Gewichte w = (wi ) gibt es eine Poisson-Zufallsvariable Zk (n) mit Zk ∼ P oi(wk ), so dass (n) n (n) X (wj )2 (wk )2 P(Zk = 6 Dk ) ≤ (1 + 2 ). ln ln j=1 Insbesondere konvergiert Dk in dem Fall, dass (n) wk = lim wk n→∞ existiert, gegen eine P oi(wk )-verteilte Zufallsvariable, falls n X (n) (wi )2 = o(ln2 ). i=1 106 b) Gilt für die Kantenwahrscheinlichkeiten pij lim pij = 0, n→∞ so sind die Grade D1 , . . . , Dm asymptotisch unabhängig. Um ein Korollar hieraus zu formulieren, benötigen wir noch eine Definition. Definition 10.2 Eine Zufallsvariable X hat eine gemischte Poissonverteilung mit Mischungsverteilung F , falls wk P[X = k] = E[e−w ] k! und W eine Zufallsvariable mit Verteilungsfunktion F . Korollar 10.3 Sind die Gewichte im GRG-Modell gegeben durch w = (wi )ni=1 und i wi = (1 − Fw )−1 ( ) n für eine Verteilungsfunktion Fw mit endlichem Erwartungswert, dann gilt a) Der Grad eines mit Gleichverteilung gezogenen Knotens konvergiert in Verteilung gegen eine gemischte Poisson-Verteilung mit Mischungsverteilung Fw . b) Die Grade mit Gleichverteilung auf {1, . . . , n} gezogener Knoten sind asymptotisch unabhängig. Beweis von Satz 10.1: Wir werden wieder die schon in Kapitel 5 vorgestellte Kopplung von Poisson- und Binomial-verteilten (genauer Summe von Bernoulli-Zufallsvariablen) Zufallsvariablen benutzen. Wir unterdrücken das (n) in der Schreibweise und schreiben (n) wi = wi . Es ist n X Dk = Xkj , j=1 wobei Xkj der Indikator für die kj-te Kante ist. Da Xkj ∼ Ber(pkj mit pkj = es mithilfe der Kopplung eine P oi(λk )-Zufallsvariable Ŷk , wobei λk = X j=k wk wj ln + wk wj und eine Zufallsvariable D̂k mit D D̂k = Dk , 107 wk wj ln+wk wj gibt so dass P(D̂k 6= Ŷk ) ≤ X p2kj = X j 6= k ≤ wk2 j6=k wk2 wj2 (ln + wk wj )2 n X wj2 . 2 ln j=1 Also genügt es, um die Behauptung zu beweisen, Ŷk an eine P oi(wk )-verteilte Zufallsvariable Ẑk so zu koppeln, dass P(Ŷk 6= Ẑk ) ≤ wk2 n X wj2 ln2 j=1 gilt. Hierzu bemerken wir, dass λk ≤ X wk wj ln j=k k wk X wj = wk ≤ ln j=1 gilt. Daher ist εk := wk − λk ≥ 0. Sei Vk ∼ P oi(εk ) unabhängig von Ŷk und schreiben Ẑk = Ŷk + V̂k . Dann ist P(Ŷk 6= Ẑk ) = P(V̂k 6= 0) = P(V̂k ≥ 1) ≤ E[V̂k ] = εk . Wir wollen daher εk beschränken: wk wj ln + wk wj j6=k n X 1 wk2 1 = wk wj + − ln lnwk wj ln + wk2 j=1 ε k = wk − = n X j=1 X wj2 wk2 wk2 + ln(ln + wk wj ) ln + wk2 n wk2 X wj2wk2 + ≤ ln ln2 j=1 = wk2 n X wj2 1+ ln2 j=1 ! . Also P(D̂k 6= Ẑk ) ≤ P(D̂k 6= Ŷk ) + P(Ŷk 6= Ẑk ) ≤ 108 2wk2 n X wj2 wk2 + ln2 ln j=1 wie benötigt. Somit ist der erste Teil des Satzes bewiesen. Um den zweiten Teil herzuleiten, genügt es zu zeigen, dass man (D1 , . . . , Dm ) an einen unabhängigen Vektor (D̂1 , . . . , D̂m , so dass P((D1 , . . . , Dm ) 6= (D̂1 , . . . , D̂m )) → 0. (10.1) Sei wieder Xij der Indikator dafür, ob die Kante (i, j) gesetzt ist. Die Zufallsvariablen (Xij ) sind natürlich unabhängig mit Parameter (pij ). Seien (Xij′ ) unabhängige (Bernoulli-) Variablen, die unabhängige Kopien von (Xij ) sein sollen. Sei Di′ = X Xij′ + j<i Offenbar ist n X Xij . j=i+1 D Di = Di′ . Während Di und Dj unabhängig sind (beide enthalten Xij ), sind Di′ und Dj′ unabhängig (denn das eine enthält Xij′ , das andere Xji = Xij ). Also ist ′ (D1′ , . . . , Dm ) unabhängige Summe unabhänger Bernoulli-Variablen. Nun ist (D1 , . . . , Dm ) 6= (D̂1 , . . . , D̂m ) dann, und nur dann, wenn es i, j ∈ {1, . . . , m} gibt mit Xij 6= Xij′ , d. h. entweder ist Xij = 0 und Xij′ = 1 oder andersrum?? Also P((D1 , . . . , Dm ) 6= (D̂1 , . . . , D̂m )) ≤ 2 m X P(xij = 1) = 2 i,j m X pi,j . i,j=1 Nach Voraussetzung ist pij −→ 0, so dass (9.1) gilt. Also folgt die zweite Behauptung n→∞ und damit der ganze Satz. 2 Der Beweis von Korollar 10.3 gestaltet sich erstaunlich aufwändig. Beweis von Korollar 10.3: Man überlegt sich zunächst, dass x 7→ (1 − Fw )−1 (x) nichtwachsend, so dass n n 1X i 1X 2 wi = (1 − Fw )−1 ( )2 n i=1 n i=1 n n ≤ (1 − Fw )−1 ( 109 i 11X (1 − Fw )−1 ( ). n n i=1 n Nun behaupten wir, dass 1 (1 − Fw )−1 ( ) = o(n), n −1 1 da dies äquivalent ist zu (1 − Fw ) ( n ) ≤ an für jedes ε > 0 und n hinreichend groß. Dies wiederum ist äquivalent zu 1 Fw (ε) ≥ 1 − , n d. h. 1 − Fw (εn) = P(w1 > εn) ≤ Yn . Nun gilt aber sogar 1 P(w1 > εn) = o( ). n Außerdem ist (Übung): n 1X i (1 − Fw )−1 ( ) ≤ E[Fw−1 (U)] = EW, n i=1 n wobei W die Verteilungsfunktion F hat. Da EW < ∞ ist, folgt n 1 1X 2 wi ≤ Fw−1 (1 − )EW = o(n), n i=1 n da ln = Θ(n). Mithilfe von Satz 10.1a) können wir daher schließen, dass der Grad jedes (n) (n) (n) Knotens, für den wk beschränkt, annähernd P oi(wk )-verteilt ist. Da wB(n) mit großer Wahrscheinlichkeit beschränkt ist, können wir Satz 9.1a) anwenden. Da eine gemischte Poisson-Zufallsvariable gegen eine Limes-gemischte Poisson-Zufallsvariable konvergiert, wenn die Mischugnsverteilungen in Verteilung konvergieren, genügt es zu zeigen, dass das Gewicht eines nach der Gleichverteilung gezogenen Vertex eine Limesverteilung hat, die durch F gegeben ist. Sei D der Grad eines nach der Gleichverteilung gezogenen Knoten. Nach Satz 10.1 gilt für ein rein zufälliges B (n) in {1, . . . , n} P(D = x) = n X P(Di = x|B (n) = i)P(B (n) = i) i=1 n 1X P(Di = x|B (n) = i) = n i=1 n 1X (n) = P(P oi(wi ) = x) + o(1). n i=1 Sind nun die Gewichte so gegeben wie im Korolalr, so ergibt sich n 1X (n) P(D = x) = P(P oi(wi ) = x) + o(1) n i=1 n = i 1X P(P oi((1 − Fw )−1 ( )) = x) + o(1) n i=1 n = P(P oi((1 − Fw )−1 (Un )) = x) + o(1), 110 wobei Un eine diskrete Zufallsvariable mit Werten in {0, n1 , . . . , n−1 } ist. Daher folgt n −1 (U P(D = x) = E[e−(1−Fw ) n) ((1 − Fw )−1 (Un )) + o(1). x! Nun konvergiert aber D Un −→ U, wobei U die Gleichverteilung auf [0, 1] ist, und da für jedes x ≥ 0 die Funktion y 7→ e−y yx x! stetig und beschränkt ist, folgt −1 (U e−(1−Fw ) n) (1 − Fw )−1 (Un )x (1 − Fw )−1 (U)x −1 → e−(1−Fw ) (U ) . x! x! Da all diese Größen Wahrscheinlichkeiten sind und somit zwischen 0 und 1 liegen, folgt mit majorisierter Konvergenz x −1 ∗ −w W −(1−Fw )−1 (U ) (1 − Fw ) (U) + o(1) = E e + o(1), P(D = x) = E e x! x! wenn W die verteilungsfunktion Fw hat. Also hat D eine gemischte Poisson-Verteilung mit Mischungsverteilung Fw . Der Beweis von Teil b) ist ähnlich zum Beweis von Satz 10.1 b). 2 Satz 10.1 macht Aussagen über ein festes Element der Gradfolge. Ähliche Resultate lassen sich auch für die gesamte Gradfolge ableiten. Hierzu betrachten wir die empirische Verteilungsfunktion n 1X (n) Ln = 1l{Di =k} . n i=1 Wir wollen den folgenden Satz zeigen: Satz 10.4 Die Gewichte seien gegeben durch i wi = [1 − Fw ]−1 ( ) n für eine Verteilungsfunktion Fw mit endlichem Erwartungswert. Dann gilt für jedes ε > 0 X P( Lnk − pk | ≥ ε) → 0, k wobei pk = E[e−w und W die Verteilungsfunktion Fw besitzt. 111 wk ] k! Beweis: Es ist X k (n) |Pk − pk | = 2dT V (L(n) , p). Man überlegt sich schnell,d ass für zwei Wahrscheinlichkeiten µ und ν auf N0 gilt dT V (µ, ν) → 0 ⇔ max |µ(i) − ν(i)| → 0. i Dies impliziert insbesondere X X (n) (n) P(|Lk − pk | ≥ ε). |Lk − pk | ≥ ε) ≤ P( k k Nun ist (n) ELk = P(D1 = k). Man kann nun zeigen, dass tatsächlich P(D1 = k) gegen pk konvergiert und zwar gleichmäßig in l, dass also ε (n) max |ELk − pk | ≤ k 2 für hinreichend großes n gilt (Übung). Also folgt für alle großen n (n) P(max |Lk k − pk | ≥ ε) ≤ ∞ X ε (n) P(Lk − ELnk ≥ ). 2 k=0 Mithilfe der Chebyshev-Ungleichung erhalten wir 4 ε (n) (n) (n) P(|Lk − ELk |E ) ≤ 2 VLk . 2 ve (n) Setzt man die Definition Lk ein, so sieht man, dass (n) E(Lk )2 = 1 X 1 n−1 P(D = D = k) = P(D = k) + P(D1 = D2 = k). 1 i j k 2 1≤i,j≤n n n Somit erhalten wir (n) VLk ≤ 1 P(D1 = k) + (P(D1 = D2 = k) − P2 (D1 = k)). n Nun sind die Grade asymptotische unabhängig, also folgt P(D2 = k|D2 = k) − P(D1 = k) = o(1). Somit ergibt sich 4 X ε (n) (n) (n) V(Pk ) P(max |Lk − ELk | ≥ ) ≤ 2 k 2 ε k 4 X 1 ≤ 2 P(D1 = k)( + P(D2 = k|D1 = k) − P(D1 = k)). ε k n Dies konvergiert wegen dominanter Konvergenz gegen 0 (Übung). 112 2