Cookie-Einstellungen
Wir verwenden Cookies für Analysen. Datenschutzerklärung Du kannst nicht notwendiges Tracking akzeptieren oder ablehnen.
Praxisleitfaden zu „Sequentielles Testen und die Peeking-Falle“: zentrale Schritte, typische Fehler und Umsetzung mit A/B-Rechner.
Gehen Sie zu Werkzeug
Statistische Signifikanz (Z-Test) und Konfidenzintervalle.
Sie setzen alpha = 0,05 (5% falsch positive Rate) und planen, einen Test für 4 Wochen durchzuführen. Aber Sie überprüfen die Ergebnisse jeden Tag. Nach 28 Überprüfungen von Daten, die zufällig schwanken, beträgt die Wahrscheinlichkeit eines *mindestens einmaligen* falsch signifikanten Ergebnisses nicht 5% — sie steigt auf etwa 25-30%.
Der Grund: Jede Überprüfung ist ein Hypothesentest. Selbst wenn es keinen realen Effekt gibt, sehen zufällig generierte Daten gelegentlich signifikant aus. Mehr Überprüfungen = mehr Chancen für einen falschen Alarm. Formal gesehen erhöht sich die Fehlerquote, weil die Teststatistik unter der Null einem Random Walk folgt und jede feste Grenze mit zunehmender Wahrscheinlichkeit über die Zeit überschreitet.
Sequenzielle Testmethoden steuern die gesamte falsch positive Rate über mehrere Überprüfungen hinweg, indem sie alpha allmählich "ausgeben". Anstatt bei jeder Überprüfung alpha = 0,05 zu verwenden, verwendet jede Zwischenanalyse eine kleinere Schwelle, sodass die Gesamtschwelle über alle Überprüfungen hinweg bei 0,05 bleibt.
Zwei klassische Ansätze:
O'Brien-Fleming — sehr konservativ früh, nachsichtig spät. Die erste Überprüfung könnte ein p < 0,0001 erfordern, um zu stoppen. Die endgültige Überprüfung verwendet ungefähr die ursprüngliche alpha. Am besten geeignet, wenn Sie den vollständigen Test durchführen möchten, es sei denn, der Effekt ist enorm.
| Überprüfung | Alpha-Ausgaben (kumuliert) | Grenz-p-Wert |
|---|---|---|
| 1 von 4 | 0,0001 | 0,0001 |
| 2 von 4 | 0,0054 | 0,0049 |
| 3 von 4 | 0,0221 | 0,0184 |
| 4 von 4 | 0,0500 | 0,0429 |
Pocock — gibt alpha gleichmäßig aus. Jede Überprüfung verwendet ungefähr die gleiche Schwelle (~0,016 für 4 Überprüfungen). Einfacher zu erklären, aber erfordert eine größere Gesamtstichprobengröße, weil Sie alpha frühzeitig "aufbrauchen".
Baseline: 5% Conversion, MDE: 2 pp, alpha: 0,05, Power: 80%.
Berechnen Sie Ihre erforderliche Stichprobe und Ihren Zeitplan mit A/B-Test-Rechner.
Entscheiden Sie sich für 3-5 Zwischenüberprüfungen, wählen Sie O'Brien-Fleming-Grenzen und berechnen Sie Ihre angepasste Stichprobengröße mit A/B-Test-Rechner.
Dieser Artikel wird von der Tools Hub Redaktion auf fachliche Genauigkeit, praktische Relevanz und Konsistenz mit aktuellen Produkt-Workflows geprüft.
Zuletzt geprüft:
Praxisleitfaden zu „Nicht übereinstimmendes Probenverhältnis: Erkennung und Ursachen“: zentrale Schritte, typische Fehler und Umsetzung mit A/B-Rechner.
Praxisleitfaden zu „Wann sollte ein A/B-Test bei geringem Traffic beendet werden?“: zentrale Schritte, typische Fehler und Umsetzung mit A/B-Rechner.
Praxisleitfaden zu „Bayesian vs. Frequentist A/B-Tests für Produktteams“: zentrale Schritte, typische Fehler und Umsetzung mit A/B-Rechner.
Praxisleitfaden zu „Multivariate vs. A/B-Tests: Ein Entscheidungsrahmen“: zentrale Schritte, typische Fehler und Umsetzung mit A/B-Rechner.