¿Por qué necesito más muestra para detectar cambios pequeños?

Detectar señal pequeña en ruido grande requiere más datos para que la señal sea estadísticamente significativa. Detectar +50% es fácil con poca muestra; detectar +5% requiere muchísima.

¿Qué es el MDE (Minimum Detectable Effect)?

El menor cambio que tu test puede detectar con la muestra que tienes. Si tu MDE es 10% y la variante mejora 5%, no lo verás aunque exista. Pre-define MDE realista para tu negocio.

¿Qué confianza y potencia debería usar?

Estándar industria: 95% confianza (α=0.05), 80% potencia (β=0.2). Para tests de alto riesgo (cambios grandes, billones de impacto): 99% / 90%.

¿Cuánto tarda un A/B test?

Para sites medianos con conversión 2% buscando MDE 10%: 2-4 semanas. Para conversiones bajas (0.5%) o MDE pequeños (5%): 6-12 semanas o más.

¿Puedo correr tests concurrentes?

Sí si los cambios afectan a partes distintas del funnel. No si interactúan: el resultado se contamina. Usa interleaving cuidadoso o test secuencial.

¿Y si mi tráfico es muy bajo?

Bajo 5.000 visitantes/mes los A/B tests rara vez tienen sentido — tardas trimestres. Mejores opciones: tests cualitativos (usabilidad), copy tests con paneles, o tests de tipo before/after con cuidado.

¿Por qué no puedo parar el test cuando «ya gana»?

Eso es peeking. Aumenta dramáticamente el falso positivo (puedes ver ganador donde no lo hay). Define duración mínima y respétala. Si quieres parar antes, usa metodologías secuenciales (CUPED, group sequential).

¿La calculadora vale para Bayesian y Frequentist?

Esta calculadora aplica el enfoque frecuentista clásico (z-test de proporciones). Bayesian tiene otro razonamiento pero las muestras necesarias son similares en magnitud.

Calculadora de muestra para A/B test

La calculadora de muestra para A/B test devuelve cuántas visitas (o eventos) necesitas por variante para detectar un cambio mínimo (MDE) con confianza estadística suficiente. Aplica la fórmula clásica con baseline de conversión, MDE, nivel de confianza y potencia estadística.

Por qué los A/B tests fallan

La razón número uno por la que un A/B test «no concluye nada» no es que la variante no funcione: es que no tenías muestra suficiente para detectarlo. Si tu baseline de conversión es 2% y quieres detectar una mejora del 10% relativo (pasar de 2% a 2,2%), necesitas unos 15.000 visitantes por variante con confianza 95% y potencia 80%. Si paras el test a las 2.000 visitas, lo que veas es ruido, no señal.

La otra razón habitual: peeking. Mirar el test todos los días y parar cuando «ya gana» multiplica el falso positivo. Si pre-defines duración y la respetas, el riesgo de falso positivo se mantiene en el nivel de confianza que elegiste. Si parar antes, el riesgo real puede subir al 30-50%.

Tres tipos de tests por sample needed

• Tests grandes (MDE 30%+): cambios visuales radicales, nuevos productos. Pocas visitas necesarias (1.000-5.000 por variante). Buenos para sites con poco tráfico.
• Tests medianos (MDE 10-20%): mejoras de copy, layout, CTAs. Necesidad media (10.000-50.000 por variante). El sweet spot para CRO normal.
• Tests finos (MDE 3-5%): optimización marginal sobre site ya muy refinado. Decenas de miles por variante. Solo viable con tráfico masivo.

Cuándo no merece la pena hacer A/B test

• Tráfico muy bajo (<5.000 visitantes/mes en la página testeada).
• Cambio que va a aplicarse igual gane o pierda (por motivos legales, técnicos o de marca).
• El cambio que quieres testear es obvio: rediseño completo de marca, nuevo modelo de negocio.
• El coste de no testear es muy bajo (página interna con tráfico mínimo).
• No tienes tiempo: si necesitas decisión en 2 días, otros métodos (heurística, usabilidad).

Errores comunes

Parar el test cuando «ya gana». Falso positivo se dispara al 30-50%.
No correr ciclos completos. Mínimo 2 semanas para capturar lunes-domingo varios.
Testear demasiado a la vez con tráfico bajo: cada test diluye la muestra.
Ignorar instrumentación: si el tracking falla, el resultado es basura.
Asumir que el ganador en un segmento es ganador en todos. Segmenta resultados.

Qué hacer con el resultado

Cuando tu test concluye, no aplique al azar todas las variantes ganadoras: prioriza por impacto absoluto en revenue. Una variante que mejora conversión 3% en una página con 1M visitas/mes vale más que una variante que mejora 20% en una página con 10k. También, documenta lo que aprendiste, no solo qué ganó — el conocimiento del por qué es lo que escala a próximos tests.