Polimake

Distribución normal: de De Moivre (1733) a Gauss y Laplace, el Teorema Central del Límite, y por qué saber esto cambia decisiones de negocio

La distribución normal explicada con la profundidad que merece: el origen en The Doctrine of Chances de Abraham de Moivre (1733), su formalización por Gauss en 1809, el Teorema Central del Límite que explica su omnipresencia, sus aplicaciones reales en negocio (A/B testing, control de calidad, finanzas), y los casos donde NO aplica (Pareto, distribuciones de poder, fat tails).

· Platform

El equipo detrás de Polimake. Exploramos la intersección entre tecnología, creatividad y automatización.

Publicado:

Una distribución normal —también llamada distribución gaussiana o campana de Gauss— es la representación matemática de cómo se distribuyen muchos fenómenos naturales y sociales: la mayoría de los valores se concentran alrededor de un promedio (la media), y los valores extremos son progresivamente menos frecuentes a medida que se alejan de ese centro. Su forma característica de campana simétrica es probablemente la imagen más reconocible de la estadística después del histograma, y la fórmula matemática que la describe es una de las más usadas en ciencia.

Para una persona en marketing, producto, o cualquier disciplina que toma decisiones basadas en datos, entender lo que la distribución normal asume y dónde se rompe es probablemente una de las habilidades estadísticas más valiosas que se pueden adquirir. Asumir normalidad cuando los datos no la cumplen lleva a conclusiones equivocadas con consecuencias reales. Este artículo cubre la historia, las matemáticas en lenguaje accesible, las aplicaciones honestas, y los casos donde NO aplica — algo que la mayoría de introducciones al tema omiten.

El origen: Abraham de Moivre, 1733

La distribución normal lleva el nombre de Carl Friedrich Gauss (1777-1855), pero su descripción matemática es anterior por casi un siglo. Abraham de Moivre, matemático francés exiliado en Londres, publicó en 1733 en su libro The Doctrine of Chances (segunda edición de un trabajo originalmente de 1718) la primera descripción matemática conocida de lo que hoy llamamos distribución normal.

De Moivre estaba estudiando la distribución de resultados al lanzar muchas monedas. Cuando se lanza una moneda 100 veces y se cuenta cuántas caras salen, no se obtiene 50 cada vez. La cantidad varía. De Moivre observó que si se grafican los resultados de muchos experimentos, la frecuencia de cada número de caras formaba una curva con forma específica, simétrica alrededor del valor esperado (50). Desarrolló la fórmula matemática que describe esa curva.

Es uno de los casos clásicos de descubrimiento atribuido tarde. Hasta el siglo XX, "ley de De Moivre-Laplace" era nombre común. Hoy llamarla "gaussiana" es estándar pero no estrictamente preciso históricamente.

Pierre-Simon Laplace (1749-1827), matemático francés, refinó significativamente el trabajo de De Moivre durante las primeras décadas del siglo XIX, especialmente en su Théorie analytique des probabilités (1812). Laplace contribuyó decisivamente al Teorema Central del Límite, que explica por qué la distribución normal aparece tan ubicuamente en datos reales (lo cubrimos abajo).

Carl Friedrich Gauss publicó en 1809 Theoria motus corporum coelestium ("Teoría del movimiento de los cuerpos celestes"), donde derivó la distribución normal en un contexto completamente distinto: análisis de errores en medición astronómica. Gauss observó que cuando varios astrónomos median la misma estrella, los errores de medición se distribuían siguiendo una curva con forma de campana. Su tratamiento matemático en astronomía le dio fama y nombre al fenómeno, aunque De Moivre y Laplace lo habían descrito antes.

La razón histórica de que se llame "gaussiana": el trabajo de Gauss fue más visible en la comunidad científica del siglo XIX y su asociación con métodos de mínimos cuadrados (también desarrollados independientemente por Legendre) consolidó su nombre.

La fórmula y los parámetros

Aunque este artículo evita matemáticas excesivas, vale la pena conocer los conceptos básicos:

La distribución normal tiene dos parámetros que la definen completamente:

Media (μ, mu). El centro de la distribución. El valor más frecuente, el promedio. Si una población tiene altura media de 175 cm, μ = 175.

Desviación estándar (σ, sigma). La dispersión. Indica cuánto los valores típicamente se alejan del promedio. Si σ = 7 cm, significa que la mayoría de las personas están dentro de unos 7 cm de los 175 cm.

La fórmula matemática completa de la distribución normal:

$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$

No hace falta entenderla en detalle para usarla. Lo operativamente importante son dos propiedades:

La regla 68-95-99,7 (regla empírica). En una distribución normal:

  • 68% de los valores están dentro de 1 desviación estándar de la media (μ ± σ).
  • 95% están dentro de 2 desviaciones estándar (μ ± 2σ).
  • 99,7% están dentro de 3 desviaciones estándar (μ ± 3σ).

Esto significa que valores más allá de 3 desviaciones estándar de la media son extremadamente raros (~0,3%). Esta regla es una de las herramientas estadísticas más útiles para evaluar rápidamente si un valor observado es típico o anómalo.

Simetría. La distribución normal es simétrica alrededor de la media. Hay aproximadamente el mismo número de valores por debajo de la media que por encima. Si los datos no cumplen esta simetría (skewness), no son perfectamente normales.

El Teorema Central del Límite: por qué la distribución normal es ubicua

La razón fundamental por la que la distribución normal aparece tantas veces en datos reales es matemática profunda. El Teorema Central del Límite (TCL), desarrollado durante el siglo XIX (con contribuciones de Laplace, Lyapunov, Lindeberg, Lévy), establece esencialmente:

Cuando se promedian o suman muchas variables aleatorias independientes —cada una con su propia distribución (que ni siquiera tiene que ser normal)— el resultado tiende a seguir una distribución normal a medida que el número de variables crece.

La consecuencia práctica es enorme. Cualquier fenómeno que es resultado agregado de muchos factores independientes pequeños tiende a distribuirse normalmente:

  • Altura humana. Determinada por muchos genes, nutrición, ambiente, etc. — todos pequeños factores que se agregan.
  • Errores de medición. Cada experimento tiene muchas pequeñas fuentes de error que se suman.
  • Promedios de muchos resultados independientes (lo que De Moivre observó con monedas).
  • Coeficientes intelectuales (como construcción estadística — la propia escala IQ se diseña para ser normal).
  • Performance de muchos individuos en tareas similares.
  • Distribución de errores en procesos industriales controlados.

El TCL es por qué, durante décadas, la asunción de normalidad fue casi automática en estadística aplicada. Si algo es resultado agregado de factores múltiples e independientes, debería ser aproximadamente normal.

Pero también es por qué cuando los datos NO son normales, suele ser porque alguna asunción del TCL no se cumple — los factores no son independientes, o algún factor domina, o hay efectos no lineales. Saber esto guía a investigar la causa subyacente.

Aplicaciones reales en negocio y marketing

A/B testing y experimentación. El núcleo de cómo se diseñan tests estadísticos. La asunción de normalidad permite calcular significancia estadística (p-values), tamaños de muestra, intervalos de confianza. Plataformas como Optimizely, VWO, Convert, Google Optimize (descontinuado 2023) operan sobre estas matemáticas. Cuando alguien dice "esta variante es 95% significativa", está diciendo que la diferencia observada cae fuera del rango típico que esperaríamos por azar bajo asunción de distribución normal.

Control de calidad / Six Sigma. El nombre "Six Sigma" viene literalmente de la distribución normal: producir solo 3,4 defectos por millón de oportunidades equivale a tener defectos a más de 6 sigmas de la media. Six Sigma fue desarrollado en Motorola en los 80 (Bill Smith) y popularizado por Jack Welch en GE en los 90. Sigue siendo metodología en manufactura de calidad.

Finanzas y modelos de riesgo. El modelo Black-Scholes (1973), base de gran parte de la valoración de opciones financieras, asume que los retornos de los activos se distribuyen normalmente. Aunque esta asunción se ha demostrado insuficiente (mercados tienen "fat tails" que la normal subestima), el modelo sigue usándose como aproximación. Más sobre esto en la sección de límites.

Análisis de comportamiento de usuarios. Distribuciones de tiempo en página, edad de visitantes, ingresos del segmento — frecuentemente aproximadamente normales y permitiendo análisis estadístico estándar.

Forecasting / previsión de ventas. Asumiendo distribución normal de errores de previsión, se pueden construir intervalos de confianza ("ventas esperadas: 1.000 ± 100 unidades con 95% de confianza"). Cubierto en previsión de ventas.

Encuestas y muestreo. El TCL es la razón por la que muestras relativamente pequeñas pueden estimar parámetros poblacionales con precisión. Cubierto en el cuestionario.

Métricas de performance organizacional. Productividad de empleados, tiempos de proceso, ciclo de venta — frecuentemente aproximadamente normales en agregado.

Cuándo NO aplica la distribución normal

Aquí está la parte más importante y que la mayoría de introducciones omite. Muchos fenómenos relevantes para negocio NO siguen distribuciones normales, y asumir normalidad cuando no aplica produce predicciones gravemente equivocadas.

Distribuciones de poder (power-law) y Pareto. Cubrimos esto en detalle en regla 80/20 / Principio de Pareto. Muchos fenómenos económicos siguen distribuciones de poder, no normales:

  • Ingresos por cliente: la mayoría de los clientes generan poco, unos pocos generan la mayoría.
  • Tráfico web por página: unas pocas páginas concentran la mayoría de las visitas.
  • Tamaños de ciudades. Pocas megaciudades, muchas ciudades pequeñas.
  • Frecuencia de palabras (Ley de Zipf).
  • Magnitudes de terremotos.
  • Ventas por producto. Pocos best-sellers concentran ventas.

En distribuciones de poder, los "outliers" son mucho más frecuentes y más extremos de lo que la normal predice. Asumir normalidad lleva a subestimar dramáticamente eventos extremos.

Fat tails (colas pesadas). Algunas distribuciones tienen forma de campana pero con colas mucho más gruesas que la normal — los eventos extremos son mucho más probables. Nassim Nicholas Taleb ha popularizado este concepto especialmente en finanzas (libros Fooled by Randomness 2001, The Black Swan 2007). El crash bursátil de octubre 1987 (cuando el Dow Jones cayó 22,6% en un día) fue evento que bajo asunción de normalidad debería ocurrir aproximadamente una vez cada 10^50 años. Ocurrió.

Distribuciones bimodales o multimodales. Cuando hay dos (o más) "picos" en lugar de uno. Ejemplo: el peso de adultos en una población puede tener dos modos (uno para hombres, otro para mujeres). Tratar todo el conjunto como normal mezcla dos distribuciones diferentes y produce conclusiones equivocadas.

Distribuciones asimétricas (skewed). Cuando una cola es más larga que la otra. Ingresos personales son clásico ejemplo: muchos por debajo del promedio, pocos extremadamente altos por encima. La distribución log-normal aplica mejor que la normal.

Distribuciones discretas con limitadas opciones. Resultados de encuestas con escala 1-5, número de hijos por familia, decisiones binarias. La normal es continua e ilimitada en ambos extremos; estas son discretas y limitadas.

Eventos con rápida acumulación o agotamiento. Ventas de un producto recién lanzado siguen típicamente curvas-S, no normales. Adopción de tecnología (cubierto en early adopter) sigue curva de difusión, no normal.

Cómo verificar si tus datos son aproximadamente normales

Antes de asumir normalidad y aplicar herramientas estadísticas que dependen de ella, conviene verificar:

Visual: histograma. Plotear los datos en histograma y ver si parece campana simétrica. Si está claramente sesgado, multimodal, o tiene colas raras, no es normal.

Visual: QQ plot (quantile-quantile plot). Gráfico que compara cuantiles de tus datos con cuantiles de una distribución normal. Si los datos son normales, los puntos están aproximadamente en línea recta.

Tests estadísticos formales: Shapiro-Wilk (mejor para muestras pequeñas), Kolmogorov-Smirnov, Anderson-Darling. Producen un p-value; si es bajo, los datos rechazan la hipótesis de normalidad.

Estadísticos descriptivos: Skewness (asimetría) y Kurtosis (achatamiento). En distribución normal, skewness ≈ 0 y kurtosis ≈ 3 (o 0 si se usa "exceso de kurtosis"). Valores significativamente diferentes sugieren no normalidad.

Regla práctica para decidir: muchos métodos estadísticos son razonablemente robustos a desviaciones modestas de normalidad. Pero si la desviación es grande, hay que considerar transformaciones (logarítmica, raíz cuadrada) o métodos no paramétricos (que no asumen normalidad).

Errores comunes en aplicación de la normal

Asumir normalidad por defecto sin verificar. El error más caro. Lleva a conclusiones equivocadas en analytics, A/B testing, finanzas, forecasting.

Confundir distribución normal con distribución uniforme. La normal concentra valores cerca del centro; la uniforme los distribuye igualmente. Son cosas distintas.

Calcular medias en datos con outliers extremos sin considerar distribución. Si los datos siguen distribución de poder, la media es engañosa porque está sesgada por los pocos valores muy grandes. La mediana es típicamente más representativa.

Usar tests paramétricos (que asumen normalidad) en datos que claramente no son normales. Las conclusiones sobre significancia estadística son inválidas.

Basar predicciones extremas en asunción normal. Especialmente en finanzas y gestión de riesgo. La crisis financiera de 2007-2008 fue parcialmente alimentada por modelos que subestimaban riesgo de eventos extremos.

Confundir "muchos datos" con "distribución normal". Tener 10.000 puntos no garantiza normalidad. La asunción depende de la naturaleza del fenómeno medido, no del tamaño de la muestra.

Ignorar el contexto del fenómeno. ¿Qué genera estos datos? Si son resultado agregado de muchos factores independientes, normalidad es plausible. Si dependen de unos pocos factores dominantes, probablemente no.

Aplicar test de A/B con muestra muy pequeña. Algunos tests asumen tamaño de muestra suficiente para que el TCL aplique. Con n muy pequeño, las asunciones se rompen.

No considerar transformaciones cuando aplican. Si los datos son log-normales (común en ingresos, tiempos), tomar logaritmo los convierte en normales y permite aplicar herramientas estándar.

La distribución normal en A/B testing: el caso operativo más común

Para muchos profesionales del marketing y producto, A/B testing es el contexto donde la distribución normal aparece más cotidianamente. Vale la pena aterrizar:

Cuando una empresa hace A/B test (versión A vs. versión B), está midiendo si la diferencia observada en alguna métrica (conversión, tiempo en página, ingresos por usuario) es estadísticamente significativa o podría ser ruido aleatorio.

El razonamiento: si la métrica para cada versión sigue aproximadamente distribución normal alrededor de su verdadero valor, podemos calcular la probabilidad de observar una diferencia tan grande o más por puro azar. Esa probabilidad es el p-value.

P-value < 0,05 (típicamente) significa que la diferencia tiene menos de 5% de probabilidad de ser ruido — convencionalmente se considera "estadísticamente significativa".

Pero hay matices que merecen atención:

Significancia estadística no es magnitud. Una diferencia puede ser estadísticamente significativa y operativamente irrelevante (mejora de conversión del 0,01%).

Tamaño de muestra importa. Con muestras grandes, casi cualquier diferencia llega a ser significativa. La pregunta es si la magnitud justifica acción.

Multiple testing. Hacer muchos tests simultáneos aumenta la probabilidad de encontrar "significancia" por azar. Correcciones como Bonferroni ajustan para esto.

Sequential testing. Mirar resultados y parar cuando hay significancia (peeking) infla la tasa de falsos positivos. Tests bayesianos o secuenciales formales son alternativas.

Asunciones de la metodología. Frequentist A/B testing tradicional asume distribución normal de la métrica medida. Si la métrica es muy sesgada (revenue per user en e-commerce típicamente es muy sesgada), las asunciones se rompen y los tests dan resultados poco fiables.

Plataformas modernas de A/B testing (Optimizely, VWO, Convert, Mixpanel, Eppo, GrowthBook) usan métodos estadísticos sofisticados, pero la matemática subyacente sigue dependiendo —en grado variable— de la distribución normal o de aproximaciones a ella.

Distribución normal y operaciones creativas

Para una marca que toma decisiones basadas en datos —A/B testing de creativos, análisis de performance de campañas, evaluación de hipótesis— entender qué asume y qué no asume la estadística que se usa cotidianamente afecta a la calidad de las decisiones.

Esa disciplina conecta con operaciones creativas: los KPIs creativos deben definirse con conciencia de qué distribuciones siguen, los aprendizajes de A/B testing alimentan al calendario editorial y la producción de contenidos mejor cuando se entienden sus límites estadísticos.

En Polimake la lógica de medición vive en tres superficies: Studio coordina experimentos basándose en KPIs definidos, Studio produce variantes para testing, Media almacena historial de variantes y resultados que permiten análisis longitudinal.


Si lideras producto, marketing, analytics o cualquier rol que toma decisiones basadas en datos y has llegado aquí buscando una respuesta sobre distribución normal, lo más útil que puedes llevarte de este artículo es probablemente la combinación de tres ideas: la distribución normal es ubicua en datos por razones matemáticas profundas (TCL), las herramientas estadísticas estándar dependen de su asunción, y muchos fenómenos relevantes en negocio NO la siguen (distribuciones de poder, fat tails, multimodales, asimétricas). La habilidad estadística más valiosa no es saber calcular medias y desviaciones, sino saber cuándo las asunciones se cumplen y cuándo no.

Para complementar, regla 80/20 / Principio de Pareto cubre el contramodelo de las distribuciones de poder, previsión de ventas cubre uno de los contextos donde la asunción normal frecuentemente se rompe, y el cuestionario cubre el contexto de muestreo donde TCL es relevante.

Referencias rápidas