Настройки cookie
Мы используем cookie для аналитики. Политика конфиденциальности Вы можете принять или отклонить необязательный трекинг.
Практический гайд по теме «Последовательное тестирование и ловушка для подглядывания»: ключевые шаги, типичные ошибки и внедрение через Калькулятор A/B.
Перейти к инструменту
Статистическая значимость (Z-test) и доверительные интервалы.
Вы установили alpha = 0,05 (5% ложноположительных) и планируете 4 недели теста. Но проверяете результаты каждый день. После 28 проверок на случайно колеблющихся данных вероятность хотя бы одного ложного «значимого» результата — не 5%, а около 25-30%.
Причина: каждая проверка — это проверка гипотезы. Даже без реального эффекта случайные данные иногда выглядят значимыми. Больше проверок = больше шансов на ложную тревогу. Формально тестовая статистика под нулевой гипотезой следует случайному блужданию и с нарастающей вероятностью пересекает любую фиксированную границу.
Методы последовательного тестирования контролируют суммарную частоту ложных срабатываний по всем промежуточным анализам, «расходуя» alpha постепенно. Вместо alpha = 0,05 на каждом взгляде каждый промежуточный анализ использует меньший порог, а суммарный уровень по всем проверкам остаётся 0,05.
Два классических подхода:
O'Brien-Fleming — очень консервативный в начале, мягкий в конце. Первый анализ может потребовать p < 0,0001 для остановки. Финальный — примерно исходный alpha. Лучший выбор, когда нужно дойти до конца, если эффект не огромен.
| Анализ | Накопленный alpha | Граничное p-value |
|---|---|---|
| 1 из 4 | 0,0001 | 0,0001 |
| 2 из 4 | 0,0054 | 0,0049 |
| 3 из 4 | 0,0221 | 0,0184 |
| 4 из 4 | 0,0500 | 0,0429 |
Pocock — расходует alpha равномерно. Каждый анализ использует примерно одинаковый порог (~0,016 при 4 анализах). Проще объяснять, но требует большего размера выборки, потому что alpha тратится рано.
База: конверсия 5%, MDE: 2 пп, alpha: 0,05, мощность: 80%.
Рассчитайте размер выборки и расписание в A/B-тест калькуляторе.
Определите 3-5 промежуточных анализов, выберите границы O'Brien-Fleming и рассчитайте скорректированный размер выборки в A/B-тест калькуляторе.
Материал проверен редакцией Tools Hub на точность формулировок, практическую применимость и соответствие актуальным сценариям использования инструментов.
Проверено:
Практический гайд по теме «Несоответствие соотношения выборки: обнаружение и основные причины»: ключевые шаги, типичные ошибки и внедрение через Калькулятор A/B.
Практический гайд по теме «Когда остановить A/B-тест при низком трафике»: ключевые шаги, типичные ошибки и внедрение через Калькулятор A/B.
Практический гайд по теме «Байесовское и частое A/B-тестирование для продуктовых команд»: ключевые шаги, типичные ошибки и внедрение через Калькулятор A/B.
Практический гайд по теме «Многовариантное тестирование против A/B: система принятия решений»: ключевые шаги, типичные ошибки и внедрение через Калькулятор A/B.