Distribución normal

Pérez-Guerrero Edsaúl Emilio

Instituto de Investigación en Ciencias Biomédicas

2024-09-30

Recordando

¿Por qué es importante determinar la forma en que se distribuyen los datos?

Es importante porque mediante cálculos matemáticos, dependiendo de la forma que adquieran los datos, se pueden derivar probabilidades teóricas de ocurrencia de un evento.
A la forma que adquieren los datos se la conoce como distribución de probabilidades

¿Qué es la distribución normal?

Si \(X \sim N(\mu, \sigma{2})\) entonces \(X\) se apega a una distribución normal

¿Qué es la distribución normal?

La distribución normal es una distribución de probabilidad continua que describe cómo se distribuyen los valores de una variable aleatoria de manera que la mayoría de los datos se agrupan alrededor de un valor medio (la media), y a medida que nos alejamos hacia cualquiera de los dos extremos (hacia arriba o hacia abajo desde la media), la cantidad de datos disminuye rápidamente, formando una curva simétrica en forma de campana.

Distribución normal

\[f(x | \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}\]

Distribución normal

Simetría: La curva es perfectamente simétrica alrededor de su media.
Media, mediana y moda son iguales:
Asintótica: La curva se acerca al eje horizontal, pero nunca lo toca.
Área bajo la curva: Es igual 1.
Existe una distribución diferente por cada valor de \(\mu\) y de \(s\)
Puede tomar valores de \(\infty\) a \(- \infty\)

Distribució normal

Distribución normal

Distribución normal +/- 1 desviación estándar

Distribución normal

Distribución normal +/- 2 desviación estándar

Distribución normal

Distribución normal y porcentaje de datos según la desviación estándar

Distribución normal

Regla del 69, 95, 99

Creando mi primer gráfico de densidad

x <- rnorm(100000, mean = 0, sd = 1)
curve(dnorm(x), from = 4, to = -4, ylab = "Densidad",  xlab= "Variable aleatoria")

dnorm(x)|>
  curve(from = 4, to = -4, ylab = "Densidad",  xlab= "Variable aleatoria")

Creando mi primer gráfico de densidad

x <- rnorm(100000)
dnorm(x)|>
  curve(from = 4, to = -4, ylab = "Densidad",  xlab= "Variable aleatoria")
abline(v=mean(x), col="red")

Añada una linea roja que a menos una desviación estándar y más una desviación estándar

Creando mi primer gráfico de densidad

x <- rnorm(100000)
dnorm(x)|>
  curve(from = 4, to = -4, ylab = "Densidad",  xlab= "Variable aleatoria")
abline(v=mean(x), col="red")
abline(v=mean(x)+sd(x), col="red")
abline(v=mean(x)-sd(x), col="red")
abline(v=mean(x)+sd(x)*2, col="blue")
abline(v=mean(x)-sd(x)*2, col="blue")

Creando mi primer gráfico de densidad

¿Cómo evaluar una distribución normal?

Evaluación de normalidad

¿Cómo evaluar una distribución normal?

Histogramas

hist(x, col = "#e5f5e0")

¿Cómo evaluar una distribución normal?

Histogramas

hist(x, col="#e5f5e0")
abline(v=mean(x), col="red", lty=2) # Linea vertical para la media
abline(v=median(x), col="blue", lty=6) # Linea vertical para mediana

¿Cómo evaluar una distribución normal?

Histogramas

¿Cómo evaluar una distribución normal?

Histogramas

hist(x, col="#e5f5e0",
     prob=T, # Graficar densidades en lugar de frecuencias
     )
lines(density(rnorm(100000)), ## Agregar una linea de densidad para un conjunto de datos normales
      lwd=2,
      col="#31a354")
abline(v=mean(x), col="red", lty=2) # Linea vertical para la media
abline(v=median(x), col="blue", lty=6) # Linea vertical para mediana

¿Cómo evaluar una distribución normal?

Histogramas

¿Cómo evaluar una distribución normal

Gráfico de tallo y hojas

Podríamos utilizar

stem(x)

¿Cómo evaluar una distribución normal

Gráfico de tallo y hojas


  The decimal point is at the |

  -3 | 7
  -3 | 
  -2 | 6555
  -2 | 4322110
  -1 | 998888877777666665555
  -1 | 4444444444333333333222221111111111111100000000000
  -0 | 99999999888888888888887777777777777777776666666666666666666666655555+6
  -0 | 44444444444444444433333333333333333333322222222222222222111111111111+3
   0 | 00000011111111111111111111111111222222222222222223333333333333333333+6
   0 | 55555555555555555556666666666777777777777777788888888888999999999
   1 | 000000000000000111111111222222222222222223333334444444
   1 | 55556677777788888899999
   2 | 00000011222222334
   2 | 889
   3 | 0

¿Cómo evaluar una distribución normal?

Graficos Q-Q

Es un método gráfico para comparar los cuantiles de un conjunto de datos con los cuantiles de una distribución normal teórica.

Utilice la función:

car::qqPlot(x) #Objeto creado con anterioridad

¿Cómo evaluar una distribución normal?

Graficos Q-Q

[1] 61152 77067

¿Cómo evaluar una distribución normal?

Graficos Q-Q

¿Cómo evaluar una distribución normal?

Graficos Q-Q

¿Cómo evaluar una distribución normal?

Graficos Q-Q

¿Cómo evaluar una distribución normal?

Graficos Q-Q

¿Cómo evaluar una distribución normal?

Boxplot

¿Cómo evaluar una distribución normal?

Boxplot

¿Cómo evaluar una distribución normal?

Coeficiente de asimetría

El coeficiente de asimetría, también conocido como sesgo o skewness en inglés, es una medida que cuantifica el grado de asimetría de la distribución de una variable aleatoria o conjunto de datos respecto a su media. Aquí algunos puntos clave:
El coeficiente de asimetría es un indicador estadístico que describe la forma de la distribución de probabilidad de un conjunto de datos.

¿Cómo evaluar una distribución normal?

Coeficiente de asimetría

Asimetría positiva: Si el coeficiente es positivo, la cola de la distribución se extiende más hacia los valores altos, o sea, la masa de la distribución está concentrada en valores menores y la cola derecha es más larga.
Asimetría negativa: Si el coeficiente es negativo, la cola de la distribución se extiende más hacia los valores bajos, es decir, la masa de la distribución está concentrada en valores mayores y la cola izquierda es más larga.
Cero asimetría: No hay desviación.

¿Cómo evaluar una distribución normal?

Coeficiente de asimetría

¿Cómo evaluar una distribución normal?

Coeficiente de asimetría

¿Cómo evaluar una distribución normal?

Coeficiente de asimetría

No hay un criterio único para considerar el valor del coeficiente de asimetría como bueno o malo.

Para esta clase:
- \(\pm1\)

En R utilice la función:

moments::skewness(x)

[1] 0.007093672

¿Cómo evaluar una distribución normal?

Curtosis

Es una medida estadística que describe la forma de la distribución de los datos, en particular, cómo de pronunciadas son las colas de la distribución en comparación con una distribución normal (también conocida como distribución gaussiana)

¿Cómo evaluar una distribución normal?

Curtosis

¿Cómo evaluar una distribución normal?

Curtosis

Mesocúrtica: Una distribución con una curtosis similar a la distribución normal tiene una curtosis de 0 y se denomina mesocúrtica. Indica que las colas de la distribución son similares a las de una distribución normal en términos de su grosor o pronunciación.

¿Cómo evaluar una distribución normal?

Curtosis

Leptocúrtica: Una distribución con una curtosis mayor que 0 se denomina leptocúrtica. Las distribuciones leptocúrticas tienen colas más pesadas y un pico más agudo que una distribución normal. Esto significa que hay una mayor probabilidad de observar valores extremos (en las colas) en comparación con la distribución normal.

¿Cómo evaluar una distribución normal?

Curtosis

Platicúrtica: Una distribución con una curtosis menor que 0 se denomina platicúrtica. Las distribuciones platicúrticas tienen colas más ligeras y un pico más aplanado que una distribución normal, lo que indica una menor probabilidad de observar valores extremos

¿Cómo evaluar una distribución normal?

Curtosis

En R utilice la función

No hay un criterio único para considerar el valor del coeficiente de asimetría como bueno o malo.

Para esta clase:
- \(\pm1.5\)

moments::kurtosis(x)

[1] 3.007133

¿Cómo evaluar una distribución normal?

Pruebas de hipótesis

Recurso final

Ho: Los datos de la variable aleatoria X siguen una distribución de probabilidad normal
Ha: Los datos de la variable aleatoria X NO siguen una distribución de probabilidad normal
Algunas pruebas de hipótesis
- Shapiro Wilk (<50)
- Kolmogorov (>50)
- Anderson-Darling

¿Cómo evaluar una distribución normal?

Pruebas de hipótesis

Utilice la función:

library(MASS)
data(Pima.tr2)
shapiro.test(Pima.tr2$glu) # Para shapiro


    Shapiro-Wilk normality test

data:  Pima.tr2$glu
W = 0.97857, p-value = 0.0001819

nortest::lillie.test(Pima.tr2$glu) # Para Kolmogorov


    Lilliefors (Kolmogorov-Smirnov) normality test

data:  Pima.tr2$glu
D = 0.0633, p-value = 0.005573

Rainclouds

library(ggrain)
library(ggplot2)

Ejercicios de práctica

Estima la normalidad para las variables cuantitativas de la base de datos Pima.tr2

Gráficos:
- Histogramas, Gráficos de tallos y hojas, Gráficos Q-Q, Boxplot, Gráficos de violín
Características de la forma
- Coeficiente de simetría, Kurtosis
Pruebas de hipótesis
- Shapiro wilk

¿Para qué me sirve conocer si mis datos son normales o no?

Entender cuales son las mejores medidas descriptivas para mis datos
- Normal: Media ± desviación estándar
- No normal: Mediana, rangos (IQR, Percentil 95, mínimos y máximos)

¿Para qué me sirve conocer si mis datos son normales o no?

Decidir el tipo de estadística que puedo emplear
- Paramétrica, requiere del cumplimiento de parámetros, entre ellos la normalidad de los datos
- No paramétrica: NO requiere el cumplimiento de parámetro como la normalidad pero si de otros supuestos.