Fallstricke der Statistik

Transcrição

Fallstricke der Statistik
Fallstricke der Statistik und des
Studiendesigns
KEIN Crash-Kurs für Statistik
R. Stocker
Klinik Hirslanden
Was sind gute Daten?
• Nachvollziehbar, reproduzierbar
• Relevante Fallzahlen (Poweranalyse)
• Wissenschaftlich anerkannte Erhebungsplanung, Datenerfassung und statistischen
Analyse
• Richtig
• Plausibel
• Widerspruchsfrei
• Vollständig
Probleme bei Humanversuchen
•
•
•
•
Ethik
Komplexität des Menschen
Biologische Variabilität
Effekte von Begleiterkrankungen und
Begleitmedikationen
• Unterscheidung unerwünschte
Begleiterscheinung der Intervention vs. neu
aufgetretene Krankheit/Symptome
• Finanzfragen
• Stichprobenumfang und Produktkosten
• Sponsoring
• Compliance der Versuchspersonen/Prüfer mit
Studienanforderungen
Fallzahlen (Poweranalyse)
Holt, Stefanie; Schmiedl, Sven; Thürmann, Petra A.
Potenziell inadäquate Medikation für ältere Menschen: Die PRISCUS-Liste
Dtsch Arztebl Int 2010; 107(31-32): 543-51; DOI: 10.3238/arztebl.2010.0543
Gold Standard für interventionelle
Einzelstudie
• Prospektiv, kontrolliert, randomisiert,
doppelblind
• ABER
– Für hohe Signifikanz
• Kleine Patientenpopulation erfordert kleine Varianz
=> hoher Stratifizierungsgrad => nicht mehr
repräsentativ
• Repräsentative Population hat oft grosse Varianz
=> sehr grosse Patientenpopulation muss in Studie
eingeschlossen werden
Typ 1 Fehler/Fehler 1. Art, -Fehler
• Fälschliche Ablehnung der NullHypothese/Annahme der Hypothese
• Wird durch das Signifikanzniveau adressiert
• Trotzdem: scheinbare Signifikanz kann durch
Zufall zustande kommen; Bsp.: Bei mehrfacher
(z:B. 20 facher) Durchführung der gleichen, an
sich negativen Studie ist die Wahrscheinlichkeit
hoch, dass eine der Studien ein positives
Resultat aufweist (P<0.05),
Typ 1 Fehler/Fehler 1. Art, -Fehler
• Bei Studien, bei welcher eine Vielzahl an
Outcomes untersucht wird, kann
gelegentlich eine Signifikanz als
statistischer Outlier auftreten
Typ 1 Fehler/Fehler 1. Art, -Fehler
• ‘Publication Bias’: Extreme und positive
Resultate werden bevorzugt publiziert. Beispiel:
wenn von 20 vergleichbar konzipierten, kleinen
Studien alle ausser einer negativ sind, wird
häufig nur diese publiziert => Eindruck,
Intervention sei wirksam
– => Cave: Kleine Studien mit “zu guten” Resultaten
Typ 2 Fehler/Fehler 1. Art, -Fehler
• Null-Hypothese fälschlicherweise abgelehnt
– Wirklich existierende Unterschiede werden
übersehen, weil das Sample Size zu klein war
oder eine inadäquate Patientense-lektion
vorgenommen wurde (Heterogenizität)
– Besonders gefährlich bei sog. „non-inferiority studies“
• Deshalb: Powerkalkulation notwendig! Muss in der
Methodikbeschreibung erwähnt werden
Fallstricke
• Quasirandomisierung: Zuordnung zum
Studienarm nach z.B. Studiennummer
(gerade, ungerade) oder Datum (gerade,
ungerade)
– Patient bzw. Untersucher kennt Zuordnung
zum Voraus => beeinflusst Einschluss oder
Behandlung
Fallstricke
• Keine Verblindung: Bias zu Gunsten der
Behandlungsgruppen, da negative
Resultate kaum publiziert werden
Fallstricke
“Halbwahrheiten”: Nur “Gesunde” (sehr kleine Zahl) profitieren
Galban et al.( 2000) An immune-enhancing enteral diet reduces mortality rate and episodes of
bacteremia in septic intensive care unit patients. Crit Care Med;28:643-648
Probleme mit Studien
• “Intention to treat”
Intention to Treat
• “Drop outs” von randomisierten Patienten
unvermeidbar.
• ABER
• Randomisierungsprozess nur gültig, wenn Daten
aller randomisierten Patienten analysiert werden
(Intention to Treat-Analyse). Sonst: Verlust der
Gruppenvergleichbarkeit bei systematischen
“drop outs” [z.B. Versterben])
• Extrem wichtig bei Subgruppenanalysen.
Idealerweise sind Resultate der “intention to
treat” Analyse gleich wir in der “per protocoll”
Analyse
Fallstricke
• Medizinische Kultur
– In der Medizin ist die Publikation von
negativen Resultaten sehr schwierig
Ein Beispiel
• Eine grosse Studie!
• Kaum eine Publikation der letzten Jahre
hat in der Intensivmedizin so schnell und
breit zu einer Therapieänderung geführt
Schlüsselstudie
Intensive Insulintherapie mit dem
Ziel, den Blutzucker < 110 mg/dl
zu halten, reduziert Morbidität
und Mortalität von kritisch
Kranken Intensivpatienten
Intensified insulin therapy in
surgical ICU patients
• 1548 ICU patients
• trial period 12 months
• conventional treatment:
blood glucose 180-210 mg/dl
• intensive treatment:
blood glucose 80-110 mg/dl
• insulin: 0-50 IU/h iv
• total mortality:
10.6% vs. 20.2% (p=0.005)
Intensive treatment: reduction MOF-associated mortality
Van den Berghe G et al., N Engl J Med 2001
Stimmt das???
Original Article
Intensive versus Conventional Glucose Control in
Critically Ill Patients
The NICE-SUGAR Study Investigators
N Engl J Med
Volume 360(13):1283-1297
March 26, 2009
Studienübersicht
• Erwachsene mit erwarteter IPSAufenthaltsdauer > 3 Tage randomisiert zu
– Intensive Bz-Kontrolle (Ziel 81 - 108 mg /dl [4.5 6.0 mmol / L])
oder
– Konvetionelle BZ-Kontrolle (180 mg / dl [10.0
mmol / L])
• Primärer Endpunkt: Tod jeder Ursache 90
Tage nach Randomisierung
Data on Blood Glucose Level, According to Treatment Group
The NICE-SUGAR Study Investigators. N Engl J Med
2009;360:1283-1297
Probability of Survival and Odds Ratios for Death, According to Treatment Group
The NICE-SUGAR Study Investigators. N Engl J Med
2009;360:1283-1297
Schlussfolgerung
• Die intensive BZ-Kontrolle ERHÖHT die
Mortalität bei erwachsenen
Intensivpatienten. Ein BZ-Ziel von  180
mg / dl führte zu einer reduzierten
Mortalität im Vergleich zu einem BZ-Ziel
von 81 - 108 mg / dl
Was ist hier schief gelaufen?
• Van den Berghe Studie
– Hat falschen Titel
– Untersuchte die falsche Studienpopulation
– Hat die untersuchten Patienten falsch
behandelt
– Wurde nicht richtig gelesen
– Verführte zum Glauben an das „Magic Bullet“,
insbesondere, da sie im NEJM publiziert
wurde
Patientenpopulation
• In van den Berghe Studie
}
– Neurologische Patienten
– Patienten nach Abdominalchirurgie
< 10%
– Patients nach Gefässchirurgie
– Traumapatienten
– TPL-Patienten
– KEINE internistischen Intensivpatienten
Patientenpopulation
• 80% kardiochirurgische Patienten mit einem
mittlerer APACHE II score von 9 (in typischer
Intensivpopulation > 20): brauchen KEINE
parenterale Ernährung
Behandlung
• Patienten in beiden Gruppen direkt nach
Eintritt in IPS mit hohen Dosen
intravenöser Glukose behandelt
Darum…
• Eine enge BZ-Kontrolle ist günstig
für nicht kritisch kranke, postkardiochirurgische Patienten,
welche unnötigerweise mit viel
intravenöser Glukose behandelt
wurden
Meta-Analysen
• Datenkombination/Aggregation
verschiedener Studien
– Vorteile
• „Power“ wird erhöht
• Präzision eines Effektes sowie Effekt der
Intervention besser abschätzbar
• Datenkombination/Aggregation
verschiedener Studien
– Nachteile
• Ignorierte Studienheterogenizität
– Datenkombination/Aggregation von verschiedenartig
aufgebauten Studien (z.B. primäre, sekundäre
Outcomes, Randomisierungsverfahren, untersuchte
Studienpopulationen…....
– If trash goes in….trash comes out
• Datenkombination verschiedener Studien
(aggregierte Daten, systematische Reviews,
Metaanalysen): Methoden
– Data-pooling: Zahlen werden einfach
zusammengezählt
– Meta-Analyse: Kombinationsprozedur, bei welcher die
Studien entsprechend ihrer Varianz (= Wahrscheinlichkeit, mit der das Resultat nahe/weit von der
statistischen Wahrheit entfernt ist) gewichtet werden,
bevor die Summierung stattfindet
Ressing, Meike; Blettner, Maria; Klug, Stefanie J.
Systematische Übersichtsarbeiten und Metaanalysen: Teil 6 der Serie zur Bewertung wissenschaftlicher Publikationen
Dtsch Arztebl Int 2009; 106(27): 456-63; DOI: 10.3238/arztebl.2009.0456
Ein Beispiel
Immunonutrition:
Ein Fall für eine Meta-Analyse?
Heyland et al. JAMA 2001 286: 944-53
Immuno nutrition & mortality in 22 Trials
Immuno nutrition & infectious Complikations in 18 Trials
Immuno nutrition & LOS in 17 Trials
Heyland et al. JAMA 2001 286: 944-53
No. / Total (%)
Mortality
Source, y
No. of
Typ of
patients Experim .
Diets
Experim e
nt
Alive
%
Dead
Mean (SD)
Infectious Com plications
Control
Dead
Alive
%
Experi
m ent
No
Yes
Hospital Stay, d
Control
%
Yes
No
Experim ent
Control
%
Elective Surgical
Daly et al.
1995
Braga et al.
1996
Senkal et al.
1997
Braga et al.
1999
Senkal et al.
1999
Overall
60 Impact
1
30
3.33
2
30
6.67
1
30
3.33
9
30
30.00
16
22
40 Impact
0
20
0.00
0
20
0.00
2
20
10.00
3
20
15.00
13.2
15.5
154 Impact
3
77
3.90
2
77
2.60
17
77
22.08
24
77
31.17
27
30.6
206 Impact
0
102
0.00
1
104
0.96
14
102
13.73
31
104
29.81
11.1
12.9
154 Impact
0
78
0.00
0
76
0.00
10
78
12.82
18
76
23.68
22.2
25.8
614
4
307
1.30
5
307
1.63
44
307
14.33
85
307
27.69
17.9
21.36
Critically Ill
Bow er et al.
1995
Kudsk et al.
1996
Ross Products
Division of
Abbot
Laboratories
1996
Mendez et al.
1997
296 Impact
24
153
15.69
12
143
8.39
86
153
56.21
90
143
62.94
27.6
30.9
33 Immun-Aid
1
16
6.25
1
17
5.88
5
16
31.25
11
17
64.71
18.3
32.6
170 Experimental
formula
20
87
22.99
8
83
9.64
57
87
65.52
52
83
62.65
25.4
20.9
43 Experimental
formula
1
22
4.55
1
21
4.76
19
22
86.36
12
21
57.14
34
21.9
Overall
542
46
278
16.55
22
264
8.33
167
278
60.07
165
264
62.50
26.325
26.575
Die Wahrheit….
• Wenn nur wirklich vergleichbare Studien
verwendet und elektive chirurgische
Patienten von echten Intensivpatienten
getrennt untersucht werden kann lediglich
eine signifikante Reduktion von
Infektionen bei elektiv-chirurgischen
Patienten gezeigt werden
Die Wahrheit……
• Bei Intensivpatienten zeigt sich
Verdoppelung der Mortalität ohne
Benefit auf Infektkomplikationen oder
Aufenthaltsdauer
Schlussfolgerung
• Genaue Analyse des Studiendesigns, der
Methodik und sorgfältige Interpretation
der Resultate von Studien ist für deren
Gewichtung entscheidend
• Meta-Analysen, obwohl mit sinnvoller
Absicht entwickelt, sind oft wegen
Studienheterogenizität und fragwürdiger
Studienauswahl irreführend oder
nichssagend
Schlussfolgerung
• Wir brauchen ein
„Journal of Negative Results“
wo sorgfältig gemacht Studien mit negativem
Resultat publiziert werden können. Dies
würde die medizinische Kultur und unser
Wissen positiv beeinflussen