¿Por qué es importante determinar la forma en que se distribuyen los datos?
Es importante porque mediante cálculos matemáticos, dependiendo de la forma que adquieran los datos, se pueden derivar probabilidades teóricas de ocurrencia de un evento.
A la forma que adquieren los datos se la conoce como distribución de probabilidades
¿Qué es la distribución normal?
Si \(X \sim N(\mu, \sigma{2})\) entonces \(X\) se apega a una distribución normal
¿Qué es la distribución normal?
La distribución normal es una distribución de probabilidad continua que describe cómo se distribuyen los valores de una variable aleatoria de manera que la mayoría de los datos se agrupan alrededor de un valor medio (la media), y a medida que nos alejamos hacia cualquiera de los dos extremos (hacia arriba o hacia abajo desde la media), la cantidad de datos disminuye rápidamente, formando una curva simétrica en forma de campana.
Simetría: La curva es perfectamente simétrica alrededor de su media.
Media, mediana y moda son iguales:
Asintótica: La curva se acerca al eje horizontal, pero nunca lo toca.
Área bajo la curva: Es igual 1.
Existe una distribución diferente por cada valor de \(\mu\) y de \(s\)
Puede tomar valores de \(\infty\) a \(- \infty\)
Distribució normal
Distribución normal
Distribución normal
Distribución normal +/- 1 desviación estándar
Distribución normal
Distribución normal +/- 2 desviación estándar
Distribución normal
Distribución normal y porcentaje de datos según la desviación estándar
Distribución normal
Regla del 69, 95, 99
Creando mi primer gráfico de densidad
x <-rnorm(100000, mean =0, sd =1)curve(dnorm(x), from =4, to =-4, ylab ="Densidad", xlab="Variable aleatoria")
dnorm(x)|>curve(from =4, to =-4, ylab ="Densidad", xlab="Variable aleatoria")
Creando mi primer gráfico de densidad
Creando mi primer gráfico de densidad
x <-rnorm(100000)dnorm(x)|>curve(from =4, to =-4, ylab ="Densidad", xlab="Variable aleatoria")abline(v=mean(x), col="red")
Añada una linea roja que a menos una desviación estándar y más una desviación estándar
Creando mi primer gráfico de densidad
x <-rnorm(100000)dnorm(x)|>curve(from =4, to =-4, ylab ="Densidad", xlab="Variable aleatoria")abline(v=mean(x), col="red")abline(v=mean(x)+sd(x), col="red")abline(v=mean(x)-sd(x), col="red")abline(v=mean(x)+sd(x)*2, col="blue")abline(v=mean(x)-sd(x)*2, col="blue")
Creando mi primer gráfico de densidad
¿Cómo evaluar una distribución normal?
Evaluación de normalidad
¿Cómo evaluar una distribución normal?
Histogramas
hist(x, col ="#e5f5e0")
¿Cómo evaluar una distribución normal?
Histogramas
hist(x, col="#e5f5e0")abline(v=mean(x), col="red", lty=2) # Linea vertical para la mediaabline(v=median(x), col="blue", lty=6) # Linea vertical para mediana
¿Cómo evaluar una distribución normal?
Histogramas
¿Cómo evaluar una distribución normal?
Histogramas
hist(x, col="#e5f5e0",prob=T, # Graficar densidades en lugar de frecuencias )lines(density(rnorm(100000)), ## Agregar una linea de densidad para un conjunto de datos normaleslwd=2,col="#31a354")abline(v=mean(x), col="red", lty=2) # Linea vertical para la mediaabline(v=median(x), col="blue", lty=6) # Linea vertical para mediana
Es un método gráfico para comparar los cuantiles de un conjunto de datos con los cuantiles de una distribución normal teórica.
Utilice la función:
car::qqPlot(x) #Objeto creado con anterioridad
¿Cómo evaluar una distribución normal?
Graficos Q-Q
[1] 61152 77067
¿Cómo evaluar una distribución normal?
Graficos Q-Q
¿Cómo evaluar una distribución normal?
Graficos Q-Q
¿Cómo evaluar una distribución normal?
Graficos Q-Q
¿Cómo evaluar una distribución normal?
Graficos Q-Q
¿Cómo evaluar una distribución normal?
Boxplot
¿Cómo evaluar una distribución normal?
Boxplot
¿Cómo evaluar una distribución normal?
Coeficiente de asimetría
El coeficiente de asimetría, también conocido como sesgo o skewness en inglés, es una medida que cuantifica el grado de asimetría de la distribución de una variable aleatoria o conjunto de datos respecto a su media. Aquí algunos puntos clave:
El coeficiente de asimetría es un indicador estadístico que describe la forma de la distribución de probabilidad de un conjunto de datos.
¿Cómo evaluar una distribución normal?
Coeficiente de asimetría
Asimetría positiva: Si el coeficiente es positivo, la cola de la distribución se extiende más hacia los valores altos, o sea, la masa de la distribución está concentrada en valores menores y la cola derecha es más larga.
Asimetría negativa: Si el coeficiente es negativo, la cola de la distribución se extiende más hacia los valores bajos, es decir, la masa de la distribución está concentrada en valores mayores y la cola izquierda es más larga.
Cero asimetría: No hay desviación.
¿Cómo evaluar una distribución normal?
Coeficiente de asimetría
¿Cómo evaluar una distribución normal?
Coeficiente de asimetría
¿Cómo evaluar una distribución normal?
Coeficiente de asimetría
No hay un criterio único para considerar el valor del coeficiente de asimetría como bueno o malo.
Para esta clase:
\(\pm1\)
En R utilice la función:
moments::skewness(x)
[1] 0.007093672
¿Cómo evaluar una distribución normal?
Curtosis
Es una medida estadística que describe la forma de la distribución de los datos, en particular, cómo de pronunciadas son las colas de la distribución en comparación con una distribución normal (también conocida como distribución gaussiana)
¿Cómo evaluar una distribución normal?
Curtosis
¿Cómo evaluar una distribución normal?
Curtosis
Mesocúrtica: Una distribución con una curtosis similar a la distribución normal tiene una curtosis de 0 y se denomina mesocúrtica. Indica que las colas de la distribución son similares a las de una distribución normal en términos de su grosor o pronunciación.
¿Cómo evaluar una distribución normal?
Curtosis
Leptocúrtica: Una distribución con una curtosis mayor que 0 se denomina leptocúrtica. Las distribuciones leptocúrticas tienen colas más pesadas y un pico más agudo que una distribución normal. Esto significa que hay una mayor probabilidad de observar valores extremos (en las colas) en comparación con la distribución normal.
¿Cómo evaluar una distribución normal?
Curtosis
Platicúrtica: Una distribución con una curtosis menor que 0 se denomina platicúrtica. Las distribuciones platicúrticas tienen colas más ligeras y un pico más aplanado que una distribución normal, lo que indica una menor probabilidad de observar valores extremos
¿Cómo evaluar una distribución normal?
Curtosis
En R utilice la función
No hay un criterio único para considerar el valor del coeficiente de asimetría como bueno o malo.
Para esta clase:
\(\pm1.5\)
moments::kurtosis(x)
[1] 3.007133
¿Cómo evaluar una distribución normal?
Pruebas de hipótesis
Recurso final
Ho: Los datos de la variable aleatoria X siguen una distribución de probabilidad normal
Ha: Los datos de la variable aleatoria X NO siguen una distribución de probabilidad normal
Algunas pruebas de hipótesis
Shapiro Wilk (<50)
Kolmogorov (>50)
Anderson-Darling
¿Cómo evaluar una distribución normal?
Pruebas de hipótesis
Utilice la función:
library(MASS)data(Pima.tr2)shapiro.test(Pima.tr2$glu) # Para shapiro
Shapiro-Wilk normality test
data: Pima.tr2$glu
W = 0.97857, p-value = 0.0001819
nortest::lillie.test(Pima.tr2$glu) # Para Kolmogorov
Lilliefors (Kolmogorov-Smirnov) normality test
data: Pima.tr2$glu
D = 0.0633, p-value = 0.005573
Rainclouds
library(ggrain)library(ggplot2)
Ejercicios de práctica
Estima la normalidad para las variables cuantitativas de la base de datos Pima.tr2
Gráficos:
Histogramas, Gráficos de tallos y hojas, Gráficos Q-Q, Boxplot, Gráficos de violín
Características de la forma
Coeficiente de simetría, Kurtosis
Pruebas de hipótesis
Shapiro wilk
¿Para qué me sirve conocer si mis datos son normales o no?
Entender cuales son las mejores medidas descriptivas para mis datos
Normal: Media ± desviación estándar
No normal: Mediana, rangos (IQR, Percentil 95, mínimos y máximos)
¿Para qué me sirve conocer si mis datos son normales o no?
Decidir el tipo de estadística que puedo emplear
Paramétrica, requiere del cumplimiento de parámetros, entre ellos la normalidad de los datos
No paramétrica: NO requiere el cumplimiento de parámetro como la normalidad pero si de otros supuestos.