Cookie-Einstellungen
Wir verwenden Cookies für Analysen. Datenschutzerklärung Du kannst nicht notwendiges Tracking akzeptieren oder ablehnen.
Praxisleitfaden zu „So vermeiden Sie falsch positive Ergebnisse in A/B-Tests“: zentrale Schritte, typische Fehler und Umsetzung mit A/B-Rechner.
Gehen Sie zu Werkzeug
Statistische Signifikanz (Z-Test) und Konfidenzintervalle.
Ein falsch positives Ergebnis (Typ-I-Fehler, Alpha-Fehler) bedeutet, dass Ihr Test einen Gewinner erklärt, wenn es keinen wirklichen Unterschied gibt. Sie setzen Variante B ein, weil Sie denken, dass sie die Konversion um 3% erhöht, aber in Wirklichkeit ist B identisch mit A. Der "Lift" war Rauschen.
Bei alpha = 0,05 akzeptieren Sie eine 5%ige Chance auf diesen Fehler pro Test. Das klingt sicher. Es ist jedoch nicht sicher im großen Maßstab.
Wenn Sie 20 unabhängige Tests mit alpha = 0,05 durchführen, ist die Wahrscheinlichkeit für *mindestens ein* falsch positives Ergebnis:
P(mindestens 1 falsch positives Ergebnis) = 1 - (1 - 0,05)^20 = 1 - 0,95^20 = 0,64
Das ist eine 64%ige Chance. Mit 20 Tests sind Sie praktisch sicher, dass mindestens ein falsch positives Ergebnis auftritt. Wenn jedes falsch positive Ergebnis eine Änderung auslöst, die tatsächlich die Konversion schädigt, akkumulieren Sie Schäden über die Zeit.
Die einfachste Lösung: Teilen Sie alpha durch die Anzahl der Tests.
Führen Sie 5 Metriken in einem Test durch? Verwenden Sie alpha = 0,05 / 5 = 0,01 pro Metrik.
| Anzahl der Vergleiche | Bonferroni-Alpha | Erforderlicher p-Wert |
|---|---|---|
| 1 | 0,050 | < 0,050 |
| 3 | 0,017 | < 0,017 |
| 5 | 0,010 | < 0,010 |
| 10 | 0,005 | < 0,005 |
| 20 | 0,0025 | < 0,0025 |
Bonferroni ist konservativ - es reduziert die Leistung. Eine weniger konservative Alternative ist Benjamini-Hochberg (steuert die falsche Entdeckungsrate anstelle der familienbezogenen Fehlerrate). Aber Bonferroni ist einfach und nie falsch.
Vorregistrierung bedeutet, vor dem Test zu dokumentieren:
Warum das funktioniert: Es eliminiert die post-hoc-Rationalisierung. Ohne Vorregistrierung testen Teams unbewusst 10 Metriken, finden ein signifikantes Ergebnis und präsentieren es als "das" Ergebnis. Vorregistrierung erzwingt Ehrlichkeit.
Sicherheitsmetriken sind sekundäre Metriken, die Sie überwachen, um Rückschläge zu erkennen, nicht um Gewinne zu finden:
Setzen Sie Sicherheitsgrenzwerte im Voraus: "Wenn die Bounce-Rate um >2 pp steigt, setzen Sie nicht um, unabhängig vom Ergebnis der primären Metrik." Bewerten Sie Sicherheitsmetriken in A/B Test Calculator.
Bevor Sie Ihren nächsten Test durchführen, schreiben Sie Ihre primäre Metrik, Ihr Alpha-Level und Ihre Stichprobengröße auf. Berechnen Sie dann die erforderliche Dauer in A/B Test Calculator und verpflichten Sie sich dazu.
Dieser Artikel wird von der Tools Hub Redaktion auf fachliche Genauigkeit, praktische Relevanz und Konsistenz mit aktuellen Produkt-Workflows geprüft.
Zuletzt geprüft:
Praxisleitfaden zu „Wann sollte ein A/B-Test bei geringem Traffic beendet werden?“: zentrale Schritte, typische Fehler und Umsetzung mit A/B-Rechner.
Praxisleitfaden zu „Nicht übereinstimmendes Probenverhältnis: Erkennung und Ursachen“: zentrale Schritte, typische Fehler und Umsetzung mit A/B-Rechner.
Praxisleitfaden zu „Bayesian vs. Frequentist A/B-Tests für Produktteams“: zentrale Schritte, typische Fehler und Umsetzung mit A/B-Rechner.
Praxisleitfaden zu „Sequentielles Testen und die Peeking-Falle“: zentrale Schritte, typische Fehler und Umsetzung mit A/B-Rechner.