Ustawienia cookies
Używamy cookies do analityki. Polityka prywatności Możesz zaakceptować lub odrzucić nieobowiązkowe śledzenie.
Praktyczny przewodnik po „Testowanie sekwencyjne i pułapka podglądająca”: kluczowe kroki, typowe błędy i wdrożenie z użyciem Kalkulator A/B.
Przejdź do narzędzia
Istotność statystyczna (Z-test) i przedziały ufności.
Ustawiamy α = 0.05 (5% stwierdzenie fałszywe) i planujemy przeprowadzić test przez 4 tygodnie. Ale sprawdzamy wyniki każdego dnia. Po 28 sprawdzeniach danych, które wahają się losowo, prawdopodobieństwo *co najmniej jednego* fałszywego wyniku istotnego nie jest 5% — wzrasta do około 25-30%.
Powód: każde sprawdzenie jest testem hipotezy. Nawet jeśli nie ma rzeczywistego efektu, losowe dane czasami wyglądają istotnie. Więcej sprawdzeń = więcej szans na fałszywy alarm. Formalnie, stawka błędu wzrasta, ponieważ statystyka testu podąża losową ścieżką w warunku zerowym, i przekracza dowolną granicę z coraz większą prawdopodobieństwem wraz z czasem.
Metody testowania sekwencyjnego kontrolują ogólną stawkę fałszywych pozytywnych wyników w wielu spojrzeniach przez "wydatkowanie" alfy stopniowo. Zamiast używania alfy = 0.05 w każdym spojrzeniu, każde spojrzenie pośrednie używa mniejszej prognozy, więc łączna w całej serii spojrzeń pozostaje na poziomie 0,05.
Dwa klasyczne podejścia:
O'Brien-Fleming — bardzo konserwatywny na początku, leniwy na końcu. Pierwsze spojrzenie może wymagać p < 0.0001, aby zatrzymać się. Ostatnie spojrzenie używa około oryginalnej alfy. Najlepsze, gdy chcesz przeprowadzić pełny test, chyba że efekt jest ogromny.
| Spojrzenie | Wydatkowana alfa (gromadzona) | Granica p-wartości |
|---|---|---|
| 1 z 4 | 0,0001 | 0,0001 |
| 2 z 4 | 0,0054 | 0,0049 |
| 3 z 4 | 0,0221 | 0,0184 |
| 4 z 4 | 0,0500 | 0,0429 |
Pocock — wydatkuje alfa równomiernie. Każde spojrzenie używa około tej samej prognozy (~0,016 dla 4 spojrzeń). Lepsze do wyjaśnienia, ale wymaga więcej ogólnej próby, ponieważ "wykorzystuje" alfa wcześnie.
Podstawowe: 5% konwersji, MDE: 2 pp, alfa: 0,05, moc: 80%.
Oblicz swoją wymaganą próbę i harmonogram za pomocą Kalkulator testu A/B.
Zdecyduj się na 3-5 pośrednich spojrzeń, wybierz granice O'Brien-Fleming i oblicz swoją dostosowaną próbę w Kalkulatorze testu A/B.
Ten artykuł jest weryfikowany przez zespół redakcyjny Tools Hub pod kątem dokładności, użyteczności praktycznej i zgodności z aktualnymi procesami produktu.
Ostatnia weryfikacja:
Praktyczny przewodnik po „Niedopasowanie proporcji próbki: wykrywanie i przyczyny źródłowe”: kluczowe kroki, typowe błędy i wdrożenie z użyciem Kalkulator A/B.
Praktyczny przewodnik po „Kiedy przerwać test A/B przy małym natężeniu ruchu”: kluczowe kroki, typowe błędy i wdrożenie z użyciem Kalkulator A/B.
Praktyczny przewodnik po „Bayesowskie a częste testy A/B dla zespołów produktowych”: kluczowe kroki, typowe błędy i wdrożenie z użyciem Kalkulator A/B.
Praktyczny przewodnik po „Testowanie wielowymiarowe a testowanie A/B: ramy decyzyjne”: kluczowe kroki, typowe błędy i wdrożenie z użyciem Kalkulator A/B.