Fallstricke der Statistik
Transcrição
Fallstricke der Statistik
Fallstricke der Statistik und des Studiendesigns KEIN Crash-Kurs für Statistik R. Stocker Klinik Hirslanden Was sind gute Daten? • Nachvollziehbar, reproduzierbar • Relevante Fallzahlen (Poweranalyse) • Wissenschaftlich anerkannte Erhebungsplanung, Datenerfassung und statistischen Analyse • Richtig • Plausibel • Widerspruchsfrei • Vollständig Probleme bei Humanversuchen • • • • Ethik Komplexität des Menschen Biologische Variabilität Effekte von Begleiterkrankungen und Begleitmedikationen • Unterscheidung unerwünschte Begleiterscheinung der Intervention vs. neu aufgetretene Krankheit/Symptome • Finanzfragen • Stichprobenumfang und Produktkosten • Sponsoring • Compliance der Versuchspersonen/Prüfer mit Studienanforderungen Fallzahlen (Poweranalyse) Holt, Stefanie; Schmiedl, Sven; Thürmann, Petra A. Potenziell inadäquate Medikation für ältere Menschen: Die PRISCUS-Liste Dtsch Arztebl Int 2010; 107(31-32): 543-51; DOI: 10.3238/arztebl.2010.0543 Gold Standard für interventionelle Einzelstudie • Prospektiv, kontrolliert, randomisiert, doppelblind • ABER – Für hohe Signifikanz • Kleine Patientenpopulation erfordert kleine Varianz => hoher Stratifizierungsgrad => nicht mehr repräsentativ • Repräsentative Population hat oft grosse Varianz => sehr grosse Patientenpopulation muss in Studie eingeschlossen werden Typ 1 Fehler/Fehler 1. Art, -Fehler • Fälschliche Ablehnung der NullHypothese/Annahme der Hypothese • Wird durch das Signifikanzniveau adressiert • Trotzdem: scheinbare Signifikanz kann durch Zufall zustande kommen; Bsp.: Bei mehrfacher (z:B. 20 facher) Durchführung der gleichen, an sich negativen Studie ist die Wahrscheinlichkeit hoch, dass eine der Studien ein positives Resultat aufweist (P<0.05), Typ 1 Fehler/Fehler 1. Art, -Fehler • Bei Studien, bei welcher eine Vielzahl an Outcomes untersucht wird, kann gelegentlich eine Signifikanz als statistischer Outlier auftreten Typ 1 Fehler/Fehler 1. Art, -Fehler • ‘Publication Bias’: Extreme und positive Resultate werden bevorzugt publiziert. Beispiel: wenn von 20 vergleichbar konzipierten, kleinen Studien alle ausser einer negativ sind, wird häufig nur diese publiziert => Eindruck, Intervention sei wirksam – => Cave: Kleine Studien mit “zu guten” Resultaten Typ 2 Fehler/Fehler 1. Art, -Fehler • Null-Hypothese fälschlicherweise abgelehnt – Wirklich existierende Unterschiede werden übersehen, weil das Sample Size zu klein war oder eine inadäquate Patientense-lektion vorgenommen wurde (Heterogenizität) – Besonders gefährlich bei sog. „non-inferiority studies“ • Deshalb: Powerkalkulation notwendig! Muss in der Methodikbeschreibung erwähnt werden Fallstricke • Quasirandomisierung: Zuordnung zum Studienarm nach z.B. Studiennummer (gerade, ungerade) oder Datum (gerade, ungerade) – Patient bzw. Untersucher kennt Zuordnung zum Voraus => beeinflusst Einschluss oder Behandlung Fallstricke • Keine Verblindung: Bias zu Gunsten der Behandlungsgruppen, da negative Resultate kaum publiziert werden Fallstricke “Halbwahrheiten”: Nur “Gesunde” (sehr kleine Zahl) profitieren Galban et al.( 2000) An immune-enhancing enteral diet reduces mortality rate and episodes of bacteremia in septic intensive care unit patients. Crit Care Med;28:643-648 Probleme mit Studien • “Intention to treat” Intention to Treat • “Drop outs” von randomisierten Patienten unvermeidbar. • ABER • Randomisierungsprozess nur gültig, wenn Daten aller randomisierten Patienten analysiert werden (Intention to Treat-Analyse). Sonst: Verlust der Gruppenvergleichbarkeit bei systematischen “drop outs” [z.B. Versterben]) • Extrem wichtig bei Subgruppenanalysen. Idealerweise sind Resultate der “intention to treat” Analyse gleich wir in der “per protocoll” Analyse Fallstricke • Medizinische Kultur – In der Medizin ist die Publikation von negativen Resultaten sehr schwierig Ein Beispiel • Eine grosse Studie! • Kaum eine Publikation der letzten Jahre hat in der Intensivmedizin so schnell und breit zu einer Therapieänderung geführt Schlüsselstudie Intensive Insulintherapie mit dem Ziel, den Blutzucker < 110 mg/dl zu halten, reduziert Morbidität und Mortalität von kritisch Kranken Intensivpatienten Intensified insulin therapy in surgical ICU patients • 1548 ICU patients • trial period 12 months • conventional treatment: blood glucose 180-210 mg/dl • intensive treatment: blood glucose 80-110 mg/dl • insulin: 0-50 IU/h iv • total mortality: 10.6% vs. 20.2% (p=0.005) Intensive treatment: reduction MOF-associated mortality Van den Berghe G et al., N Engl J Med 2001 Stimmt das??? Original Article Intensive versus Conventional Glucose Control in Critically Ill Patients The NICE-SUGAR Study Investigators N Engl J Med Volume 360(13):1283-1297 March 26, 2009 Studienübersicht • Erwachsene mit erwarteter IPSAufenthaltsdauer > 3 Tage randomisiert zu – Intensive Bz-Kontrolle (Ziel 81 - 108 mg /dl [4.5 6.0 mmol / L]) oder – Konvetionelle BZ-Kontrolle (180 mg / dl [10.0 mmol / L]) • Primärer Endpunkt: Tod jeder Ursache 90 Tage nach Randomisierung Data on Blood Glucose Level, According to Treatment Group The NICE-SUGAR Study Investigators. N Engl J Med 2009;360:1283-1297 Probability of Survival and Odds Ratios for Death, According to Treatment Group The NICE-SUGAR Study Investigators. N Engl J Med 2009;360:1283-1297 Schlussfolgerung • Die intensive BZ-Kontrolle ERHÖHT die Mortalität bei erwachsenen Intensivpatienten. Ein BZ-Ziel von 180 mg / dl führte zu einer reduzierten Mortalität im Vergleich zu einem BZ-Ziel von 81 - 108 mg / dl Was ist hier schief gelaufen? • Van den Berghe Studie – Hat falschen Titel – Untersuchte die falsche Studienpopulation – Hat die untersuchten Patienten falsch behandelt – Wurde nicht richtig gelesen – Verführte zum Glauben an das „Magic Bullet“, insbesondere, da sie im NEJM publiziert wurde Patientenpopulation • In van den Berghe Studie } – Neurologische Patienten – Patienten nach Abdominalchirurgie < 10% – Patients nach Gefässchirurgie – Traumapatienten – TPL-Patienten – KEINE internistischen Intensivpatienten Patientenpopulation • 80% kardiochirurgische Patienten mit einem mittlerer APACHE II score von 9 (in typischer Intensivpopulation > 20): brauchen KEINE parenterale Ernährung Behandlung • Patienten in beiden Gruppen direkt nach Eintritt in IPS mit hohen Dosen intravenöser Glukose behandelt Darum… • Eine enge BZ-Kontrolle ist günstig für nicht kritisch kranke, postkardiochirurgische Patienten, welche unnötigerweise mit viel intravenöser Glukose behandelt wurden Meta-Analysen • Datenkombination/Aggregation verschiedener Studien – Vorteile • „Power“ wird erhöht • Präzision eines Effektes sowie Effekt der Intervention besser abschätzbar • Datenkombination/Aggregation verschiedener Studien – Nachteile • Ignorierte Studienheterogenizität – Datenkombination/Aggregation von verschiedenartig aufgebauten Studien (z.B. primäre, sekundäre Outcomes, Randomisierungsverfahren, untersuchte Studienpopulationen….... – If trash goes in….trash comes out • Datenkombination verschiedener Studien (aggregierte Daten, systematische Reviews, Metaanalysen): Methoden – Data-pooling: Zahlen werden einfach zusammengezählt – Meta-Analyse: Kombinationsprozedur, bei welcher die Studien entsprechend ihrer Varianz (= Wahrscheinlichkeit, mit der das Resultat nahe/weit von der statistischen Wahrheit entfernt ist) gewichtet werden, bevor die Summierung stattfindet Ressing, Meike; Blettner, Maria; Klug, Stefanie J. Systematische Übersichtsarbeiten und Metaanalysen: Teil 6 der Serie zur Bewertung wissenschaftlicher Publikationen Dtsch Arztebl Int 2009; 106(27): 456-63; DOI: 10.3238/arztebl.2009.0456 Ein Beispiel Immunonutrition: Ein Fall für eine Meta-Analyse? Heyland et al. JAMA 2001 286: 944-53 Immuno nutrition & mortality in 22 Trials Immuno nutrition & infectious Complikations in 18 Trials Immuno nutrition & LOS in 17 Trials Heyland et al. JAMA 2001 286: 944-53 No. / Total (%) Mortality Source, y No. of Typ of patients Experim . Diets Experim e nt Alive % Dead Mean (SD) Infectious Com plications Control Dead Alive % Experi m ent No Yes Hospital Stay, d Control % Yes No Experim ent Control % Elective Surgical Daly et al. 1995 Braga et al. 1996 Senkal et al. 1997 Braga et al. 1999 Senkal et al. 1999 Overall 60 Impact 1 30 3.33 2 30 6.67 1 30 3.33 9 30 30.00 16 22 40 Impact 0 20 0.00 0 20 0.00 2 20 10.00 3 20 15.00 13.2 15.5 154 Impact 3 77 3.90 2 77 2.60 17 77 22.08 24 77 31.17 27 30.6 206 Impact 0 102 0.00 1 104 0.96 14 102 13.73 31 104 29.81 11.1 12.9 154 Impact 0 78 0.00 0 76 0.00 10 78 12.82 18 76 23.68 22.2 25.8 614 4 307 1.30 5 307 1.63 44 307 14.33 85 307 27.69 17.9 21.36 Critically Ill Bow er et al. 1995 Kudsk et al. 1996 Ross Products Division of Abbot Laboratories 1996 Mendez et al. 1997 296 Impact 24 153 15.69 12 143 8.39 86 153 56.21 90 143 62.94 27.6 30.9 33 Immun-Aid 1 16 6.25 1 17 5.88 5 16 31.25 11 17 64.71 18.3 32.6 170 Experimental formula 20 87 22.99 8 83 9.64 57 87 65.52 52 83 62.65 25.4 20.9 43 Experimental formula 1 22 4.55 1 21 4.76 19 22 86.36 12 21 57.14 34 21.9 Overall 542 46 278 16.55 22 264 8.33 167 278 60.07 165 264 62.50 26.325 26.575 Die Wahrheit…. • Wenn nur wirklich vergleichbare Studien verwendet und elektive chirurgische Patienten von echten Intensivpatienten getrennt untersucht werden kann lediglich eine signifikante Reduktion von Infektionen bei elektiv-chirurgischen Patienten gezeigt werden Die Wahrheit…… • Bei Intensivpatienten zeigt sich Verdoppelung der Mortalität ohne Benefit auf Infektkomplikationen oder Aufenthaltsdauer Schlussfolgerung • Genaue Analyse des Studiendesigns, der Methodik und sorgfältige Interpretation der Resultate von Studien ist für deren Gewichtung entscheidend • Meta-Analysen, obwohl mit sinnvoller Absicht entwickelt, sind oft wegen Studienheterogenizität und fragwürdiger Studienauswahl irreführend oder nichssagend Schlussfolgerung • Wir brauchen ein „Journal of Negative Results“ wo sorgfältig gemacht Studien mit negativem Resultat publiziert werden können. Dies würde die medizinische Kultur und unser Wissen positiv beeinflussen