Instituto de Investigación en Ciencias Biomédicas
2024-09-30
¿Por qué es importante determinar la forma en que se distribuyen los datos?
Es importante porque mediante cálculos matemáticos, dependiendo de la forma que adquieran los datos, se pueden derivar probabilidades teóricas de ocurrencia de un evento.
A la forma que adquieren los datos se la conoce como distribución de probabilidades
Si \(X \sim N(\mu, \sigma{2})\) entonces \(X\) se apega a una distribución normal
La distribución normal es una distribución de probabilidad continua que describe cómo se distribuyen los valores de una variable aleatoria de manera que la mayoría de los datos se agrupan alrededor de un valor medio (la media), y a medida que nos alejamos hacia cualquiera de los dos extremos (hacia arriba o hacia abajo desde la media), la cantidad de datos disminuye rápidamente, formando una curva simétrica en forma de campana.
\[f(x | \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}\]
Distribución normal
Distribución normal +/- 1 desviación estándar
Distribución normal +/- 2 desviación estándar
Distribución normal y porcentaje de datos según la desviación estándar
Regla del 69, 95, 99
Añada una linea roja que a menos una desviación estándar y más una desviación estándar
Evaluación de normalidad
hist(x, col="#e5f5e0",
prob=T, # Graficar densidades en lugar de frecuencias
)
lines(density(rnorm(100000)), ## Agregar una linea de densidad para un conjunto de datos normales
lwd=2,
col="#31a354")
abline(v=mean(x), col="red", lty=2) # Linea vertical para la media
abline(v=median(x), col="blue", lty=6) # Linea vertical para mediana
Podríamos utilizar
The decimal point is at the |
-3 | 7
-3 |
-2 | 6555
-2 | 4322110
-1 | 998888877777666665555
-1 | 4444444444333333333222221111111111111100000000000
-0 | 99999999888888888888887777777777777777776666666666666666666666655555+6
-0 | 44444444444444444433333333333333333333322222222222222222111111111111+3
0 | 00000011111111111111111111111111222222222222222223333333333333333333+6
0 | 55555555555555555556666666666777777777777777788888888888999999999
1 | 000000000000000111111111222222222222222223333334444444
1 | 55556677777788888899999
2 | 00000011222222334
2 | 889
3 | 0
Es un método gráfico para comparar los cuantiles de un conjunto de datos con los cuantiles de una distribución normal teórica.
Utilice la función:
[1] 61152 77067
El coeficiente de asimetría, también conocido como sesgo o skewness en inglés, es una medida que cuantifica el grado de asimetría de la distribución de una variable aleatoria o conjunto de datos respecto a su media. Aquí algunos puntos clave:
El coeficiente de asimetría es un indicador estadístico que describe la forma de la distribución de probabilidad de un conjunto de datos.
No hay un criterio único para considerar el valor del coeficiente de asimetría como bueno o malo.
En R
utilice la función:
Es una medida estadística que describe la forma de la distribución de los datos, en particular, cómo de pronunciadas son las colas de la distribución en comparación con una distribución normal (también conocida como distribución gaussiana)
Mesocúrtica: Una distribución con una curtosis similar a la distribución normal tiene una curtosis de 0 y se denomina mesocúrtica. Indica que las colas de la distribución son similares a las de una distribución normal en términos de su grosor o pronunciación.
Leptocúrtica: Una distribución con una curtosis mayor que 0 se denomina leptocúrtica. Las distribuciones leptocúrticas tienen colas más pesadas y un pico más agudo que una distribución normal. Esto significa que hay una mayor probabilidad de observar valores extremos (en las colas) en comparación con la distribución normal.
Platicúrtica: Una distribución con una curtosis menor que 0 se denomina platicúrtica. Las distribuciones platicúrticas tienen colas más ligeras y un pico más aplanado que una distribución normal, lo que indica una menor probabilidad de observar valores extremos
En R
utilice la función
No hay un criterio único para considerar el valor del coeficiente de asimetría como bueno o malo.
Recurso final
Ho: Los datos de la variable aleatoria X siguen una distribución de probabilidad normal
Ha: Los datos de la variable aleatoria X NO siguen una distribución de probabilidad normal
Algunas pruebas de hipótesis
Utilice la función:
Shapiro-Wilk normality test
data: Pima.tr2$glu
W = 0.97857, p-value = 0.0001819
Lilliefors (Kolmogorov-Smirnov) normality test
data: Pima.tr2$glu
D = 0.0633, p-value = 0.005573
Estima la normalidad para las variables cuantitativas de la base de datos Pima.tr2
Bioestadística básica/Posgrados CUCS