Preferencias de cookies
Usamos cookies para analítica. Política de privacidad Puedes aceptar o rechazar el seguimiento no esencial.
Guía práctica sobre «Cómo evitar falsos positivos en las pruebas A/B»: pasos clave, errores comunes e implementación con Calculadora A/B.
Ir a la herramienta
Significancia estadística (Z-test) e intervalos de confianza.
Un falso positivo (error de tipo I, error alfa) significa que tu prueba declara un ganador cuando no hay una diferencia real. Envías la variante B pensando que eleva la conversión en un 3%, pero en realidad B es idéntica a A. La "elevación" fue ruido.
A alfa = 0.05, aceptas un 5% de probabilidad de esto por prueba. Eso suena seguro. No es seguro a escala.
Si ejecutas 20 pruebas independientes a alfa = 0.05, la probabilidad de *al menos un* falso positivo es:
P(al menos 1 falso positivo) = 1 - (1 - 0.05)^20 = 1 - 0.95^20 = 0.64
Eso es un 64% de probabilidad. Con 20 pruebas, estás garantizando virtualmente al menos un ganador falso. Si cada falso positivo envía un cambio que en realidad lastima la conversión, acumulas daño con el tiempo.
La solución más simple: divide alfa por el número de pruebas.
Ejecutando 5 métricas en una prueba? Utiliza alfa = 0.05 / 5 = 0.01 por métrica.
| Número de comparaciones | Alfa Bonferroni | Valor p requerido |
|---|---|---|
| 1 | 0.050 | < 0.050 |
| 3 | 0.017 | < 0.017 |
| 5 | 0.010 | < 0.010 |
| 10 | 0.005 | < 0.005 |
| 20 | 0.0025 | < 0.0025 |
Bonferroni es conservador — reduce el poder. Una alternativa menos conservadora es Benjamini-Hochberg (controla la tasa de descubrimiento falso en lugar de la tasa de error familiar). Pero Bonferroni es simple y nunca está equivocado.
Pre-registro significa documentar antes de la prueba:
Por qué funciona: elimina la racionalización post-hoc. Sin pre-registro, los equipos prueban 10 métricas, encuentran un resultado significativo y lo presentan como "el" resultado. El pre-registro fuerza la honestidad.
Las métricas de guardarrail son métricas secundarias que monitorean para detectar regresiones, no para encontrar ganadores:
Establece umbrales de guardarrail de antemano: "Si la tasa de rebote aumenta en >2 pp, no envíes independientemente del resultado de la métrica principal". Evalúa guardarrails en Calculadora de Prueba A/B.
Antes de tu próxima prueba, escribe tu métrica principal, nivel de alfa y tamaño de muestra. Luego, calcula el tiempo requerido en Calculadora de Prueba A/B y comprométete con él.
Este artículo es revisado por el equipo editorial de Tools Hub para validar precisión, relevancia práctica y consistencia con los flujos actuales del producto.
Última revisión:
Guía práctica sobre «Cuándo detener una prueba A/B con poco tráfico»: pasos clave, errores comunes e implementación con Calculadora A/B.
Guía práctica sobre «Discrepancia en la proporción de muestras: detección y causas fundamentales»: pasos clave, errores comunes e implementación con Calculadora A/B.
Guía práctica sobre «Pruebas A/B bayesianas frente a frecuentistas para equipos de productos»: pasos clave, errores comunes e implementación con Calculadora A/B.
Guía práctica sobre «Pruebas secuenciales y la trampa de las miradas»: pasos clave, errores comunes e implementación con Calculadora A/B.