Polimake

Calculadora de muestra para A/B test

La calculadora de muestra para A/B test devuelve cuántas visitas (o eventos) necesitas por variante para detectar un cambio mínimo (MDE) con confianza estadística suficiente. Aplica la fórmula clásica con baseline de conversión, MDE, nivel de confianza y potencia estadística.

Parámetros del test

Por qué los A/B tests fallan

La razón número uno por la que un A/B test «no concluye nada» no es que la variante no funcione: es que no tenías muestra suficiente para detectarlo. Si tu baseline de conversión es 2% y quieres detectar una mejora del 10% relativo (pasar de 2% a 2,2%), necesitas unos 15.000 visitantes por variante con confianza 95% y potencia 80%. Si paras el test a las 2.000 visitas, lo que veas es ruido, no señal.

La otra razón habitual: peeking. Mirar el test todos los días y parar cuando «ya gana» multiplica el falso positivo. Si pre-defines duración y la respetas, el riesgo de falso positivo se mantiene en el nivel de confianza que elegiste. Si parar antes, el riesgo real puede subir al 30-50%.

Tres tipos de tests por sample needed

  • Tests grandes (MDE 30%+): cambios visuales radicales, nuevos productos. Pocas visitas necesarias (1.000-5.000 por variante). Buenos para sites con poco tráfico.
  • Tests medianos (MDE 10-20%): mejoras de copy, layout, CTAs. Necesidad media (10.000-50.000 por variante). El sweet spot para CRO normal.
  • Tests finos (MDE 3-5%): optimización marginal sobre site ya muy refinado. Decenas de miles por variante. Solo viable con tráfico masivo.

Cuándo no merece la pena hacer A/B test

  • • Tráfico muy bajo (<5.000 visitantes/mes en la página testeada).
  • • Cambio que va a aplicarse igual gane o pierda (por motivos legales, técnicos o de marca).
  • • El cambio que quieres testear es obvio: rediseño completo de marca, nuevo modelo de negocio.
  • • El coste de no testear es muy bajo (página interna con tráfico mínimo).
  • • No tienes tiempo: si necesitas decisión en 2 días, otros métodos (heurística, usabilidad).

Errores comunes

  1. Parar el test cuando «ya gana». Falso positivo se dispara al 30-50%.
  2. No correr ciclos completos. Mínimo 2 semanas para capturar lunes-domingo varios.
  3. Testear demasiado a la vez con tráfico bajo: cada test diluye la muestra.
  4. Ignorar instrumentación: si el tracking falla, el resultado es basura.
  5. Asumir que el ganador en un segmento es ganador en todos. Segmenta resultados.

Qué hacer con el resultado

Cuando tu test concluye, no aplique al azar todas las variantes ganadoras: prioriza por impacto absoluto en revenue. Una variante que mejora conversión 3% en una página con 1M visitas/mes vale más que una variante que mejora 20% en una página con 10k. También, documenta lo que aprendiste, no solo qué ganó — el conocimiento del por qué es lo que escala a próximos tests.