Instituto de Investigación en Ciencias Biomédicas
2024-10-20
Para varianzas iguales: \[t= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_p}{n_1}+ \frac{s^2_p}{n_2}}}\]
Para varianzas NO iguales. Test de Welch
\[t'= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_1}{n_1}+ \frac{s^2_2}{n_2}}}\]
La prueba de hipótesis que involucra la diferencia entre las medias de dos poblaciones se utiliza para conocer si dos medias son distintas entre sí.
Las hipótesis que se pueden plantear son:
\(H_O\) | \(H_A\) | Tipo de hipótesis | |
---|---|---|---|
1 | \(\mu_1- \mu_2 =0\) | \(\mu_1- \mu_2 \neq0\) | Bilateral |
2 | \(\mu_1- \mu_2 >=0\) | \(\mu_1- \mu_2 \ <0\) | Unilateral |
3 | \(\mu_1- \mu_2 <=0\) | \(\mu_1- \mu_2 \ >0\) | Unilateral |
Un grupo de investigadores quiere comparar la edad de dos grupos de estudiantes de posgrados. Para ello recluta a 60 alumnos estudiantes del doctorado de Biología Molecular en Medicina y a 45 estudiantes del Doctorado en Ciencias Biomédicas. Es del interés de los investigadores probar que las medias de la edades son diferentes.
\(H_0\): \(\mu_{DCBMM} = \mu_{DCB}\)
\(H_0=\): \(\mu_{DCBMM}-\mu_{DCB}=0\)
\(H_A\): \(\mu_{DCBMM} \neq \mu_{DCB}\)
\(H_A\): \(\mu_{DCBMM}-\mu_{DCB}\neq0\)
Un grupo de investigadores quiere comparar la edad de dos grupos de estudiantes de posgrados. Para ello recluta a 60 alumnos estudiantes del doctorado de Biología Molecular en Medicina y a 45 estudiantes del Doctorado en Ciencias Biomédicas. Es del interés de los investigadores probar que las medias de la edades son del DCBMM son MAYORES que las del DCB
Para \(H_A\) - \(H_A\): \(\mu_{DCBMM} > \mu_{DCBMM}\) - \(H_A\): \(\mu_{DCBMM}-\mu_{DCBMM}>0\) - \(H_A\): \(26-22=4\) Por ejemplo
Un grupo de investigadores quiere comparar la edad de dos grupos de estudiantes de posgrados. Para ello recluta a 60 alumnos estudiantes del doctorado de Biología Molecular en Medicina y a 45 estudiantes del Doctorado en Ciencias Biomédicas. Es del interés de los investigadores probar que las medias de la edades son del DCBMM son MENORES que las del DCB
Para \(H_A\)
Cuando no se conoce el valor de la varianza poblacional se puede utilizar la prueba \(t-student\). Sin embargo, el tipo de estadístico dependerá de si las varianzas de las muestras son iguales o no. Por lo tanto, antes de realizar la prueba es necesario realizar una prueba de homocedasticidad.
Para varianzas iguales la moneda de cambios es: \[t= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_p}{n_1}+ \frac{s^2_p}{n_2}}}\]
Cuando \(H_0\) es verdadera, sigue una distribución t de Student con \(n_1 + n_2 -2\) grados de libertad.
Ejercicio adaptado de Bioestadistica: Base para el analisis de las ciencias de la salud.
Un estudio de los investigadores Eidelman et al.tiene como objetivo examinar las características de destrucción pulmonar en personas que fuman cigarros antes de desarrollar un marcado enfisema pulmonar. Para lo cual utilizan un índice de destrucción pulmonar. Una calificación alta indica un mayor daño pulmonar.
Los datos fueron guardados en dos objetos para uno de los índices de destrucción pulmonar de una muestra de 9 personas que no fuman y 16 fumadores.
Se pretende saber si es posible concluir, con base en los datos, que las personas que sí fuman, en general, tienen los pulmones mas dañados que las personas no fumadoras, como lo indican las mediciones. No se conocen las variancias poblacionales, pero se supone que son iguales. Además se conoce que los datos siguen una distribución normal. Utilice un nivel de confianza del 98%.
¿Es posible concluir, con base en los datos, que las personas que sí fuman, en general, tienen los pulmones mas dañados que las personas no fumadoras?
Queremos comparar las calificaciones de los índices de destrucción pulmonar de dos grupos de pacientes
Queremos saber si las calificaciones del índice es mayor en pacientes que fuman que en los que no fuman
\[H_0: \mu_{ \ No \ Fumadores}=> \mu_{\ Fumadores}\]
\[H_A: \mu_{ \ No \ Fumadores}<\mu_{\ Fumadores}\]
Una forma alternativa
Estadística descriptiva:
Se utilizó R
ya que las calificaiones no están en un df. Por lo tanto
El código para la gráfica es:
Del problema podemos obtener:
NO
se conoce \(\sigma^2\) y que los datos para ambas poblaciones provienen de una distribución normal, que las varianzas de las muestras son iguales y siguiendo nuestro algoritmo para la selección de pruebas se puede emplear:\[t= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_p}{n_1}+ \frac{s^2_p}{n_2}}}\]
\[t= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_p}{n_1}+ \frac{s^2_p}{n_2}}}\]
Todos los datos pueden ser estimados del problema
Estimación ede datos faltantes para el grupo 2 (fumadores)
Con estos datos ya prodríamos estimar el estadístico de prueba de nuestros datos.
¿Se cumplen los supuestos?
Para calcular el valor \(t\) tabulado se utiliza la función qt
. Dado que nuestra hipótesis es unilateral se pide la probabilidad del lado izquierdo
y <- (rt(1000000, df=999999))
den <- density(y)
plot(den, main="Regla de decisión prueba t", xlab="Valores de t")
value <- qt(0.05, df=((length(Calif_Fumadores)+
length(Calif_No_Fumadores))-2))
polygon(c(den$x[den$x <= value ], value),
c(den$y[den$x <= value ], 0),
col = "slateblue1",
border = 1)
value <- qt(0.025, df=13)
legend(x="topleft", legend = "Zona aceptación en blanco")
Se utilizará estadístico \(t\) \[t= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_p}{n_1}+ \frac{s^2_p}{n_2}}}\] Primero es necesario estimar el valor de \(s^2_p\)
Para la estimación de \(s^2_p\) se utiliza la siguiente formula:
\[s^2_p= \frac{(n_1-1)(s^2_1)+(n_2-1)(s^2_2)}{(n_1-1)+(n_2-1)}\]
Sustituyendo: \[s^2_p= \frac{(8)(23.5)+(15)(20.0)}{8+15}=21.22\]
Sustituyendo en la formula: \[t= \frac {(12.4- 17.5)-(0)}{\sqrt{ \frac{21.22}{16}+ \frac{21.22}{9}}}=-2.66\]
En R
los podemos estimar así:
on base en la regla de decisión, existe evidencia para rechazar la hipótesis nula porque -2.6571051 es menor que -1.7138715
El código empleado para construir la gráfica fue:
y <- (rt(1000000, df=999999))
den <- density(y)
plot(den, main="Regla de decisión prueba t", xlab="Valores de t")
value <- qt(0.05, df=((length(Calif_Fumadores)+
length(Calif_No_Fumadores))-2))
polygon(c(den$x[den$x <= value ], value),
c(den$y[den$x <= value ], 0),
col = "slateblue1",
border = 1)
value <- qt(0.025, df=13)
legend(x="topleft", legend = "Zona aceptación en blanco")
abline(v=(12.4-17.5)/(sqrt((21.22/16)+(21.22/9))),
col="red", lw=4)
Con un 98% de confianza podemos concluir que las personas que si fuman, en general, tienen los pulmones mas dañados que las personas no fumadoras.
En r
lo podemos calcular con la función pt
R
?R
?En R
hay dos formas de hacerlo:
Two Sample t-test
data: Calif_No_Fumadores and Calif_Fumadores
t = -2.658, df = 23, p-value = 0.007027
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf -1.812983
sample estimates:
mean of x mean of y
12.43333 17.53750
Para este ejemplificar cree una base con los datos del ejemplo práctico 8. Descargue la base aqui
El código para la gráfica anterior fue:
ggplot
ggplot
ggplot
ggplot
ggplot
ggplot
Two Sample t-test
data: Calificacion by Grupo
t = -2.658, df = 23, p-value = 0.007027
alternative hypothesis: true difference in means between group No Fumadores and group Fumadores is less than 0
95 percent confidence interval:
-Inf -1.812983
sample estimates:
mean in group No Fumadores mean in group Fumadores
12.43333 17.53750
En estadística, la prueba t de Welch, o prueba t de varianzas desiguales, es una prueba de ubicación de dos muestras que se utiliza para probar la hipótesis de que dos poblaciones tienen medias iguales. Lleva el nombre de su creador, Bernard Lewis Welch, y es una adaptación de la prueba t de Student, y es más confiable cuando las dos muestras tienen varianzas desiguales y/o tamaños de muestra desiguales.
\[t'= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_1}{n_1}+ \frac{s^2_2}{n_2}}}\]
No se puede utilizar el valor de \(t\) tabla. Para el valor crítico de tablas usar:
\[t'_{1-( \alpha/2)}= \frac{w_1t_1+w_2t_2}{w_1+w_2}\]
\[t'_{crítico \ 1-( \alpha/2)}= \frac{w_1t_1+w_2t_2}{w_1+w_2}\]
Donde:
Para una prueba de hipótesis se rechaza \(H_0\) si el valor de \(t'\) es igual o mayor que la \(t'_{critico}\) o menor al valor negativo.
Un grupo de investigadores quiere saber si las poblaciones difieren con respecto al valor medio de la actividad del complemento del suero total \((C_{H50})\). Los datos se componen de las mediciones de \((C_{H50})\) en \(n_2 = 20\) individuos aparentemente sanos y en \(n_1=10\) individuos enfermos. Las medias de las muestras y desviaciones estándar son:
\[\bar{x_1}= 62.6, \ s=33.8\] \[\bar{x_2}= 47.2, \ s=10.1\]
Asuma que los datos siguen una distribución normal y que las varianzas en los grupos son diferentes
Conocer si las poblaciones difieren con respecto al valor medio de la actividad del complemento del suero total
El problema nos dice que los datos siugien una distribución normal y que las varianzas entre los grupos son diferentes, por lo que se cumplen los supuestos
Para calcular el valor \(t'_{critico}\) tabulado se utiliza la formula:
\[t'_{crítico \ 1-( \alpha/2)}= \frac{w_1t_1+w_2t_2}{w_1+w_2}\]
Donde:
Dado que es una hipótesis bilateral se toma \(\alpha/2\). Si la hipótesis no bilateral no se divide el valor entre 2.
Utilizando la función ´qt´ para \(t_1\) y \(t_2\)
\(t_1=\)
\(t_2=\)
Para el cálculo \(t'_{\ critico}\) se utiliza solo uno de los valores
Sustituyendo en la formula:
\[t'_{crítico \ 1-( \alpha/2)}= \frac{114.24(2.26)+5.10(2.09)}{114.24+5.10}=2.25\] Nuestro zona de aceptación es de 2.25 a -2.25 (Hipótesis bilateral)
y <- (rt(1000000, df=999999))
den <- density(y)
plot(den, main="Regla de decisión prueba t", xlab="Valores de t")
value <- -2.25
polygon(c(den$x[den$x <= value ], value),
c(den$y[den$x <= value ], 0),
col = "slateblue1",
border = 1)
value <- 2.25
polygon(c(den$x[den$x >= value ], value),
c(den$y[den$x >= value ], 0),
col = "slateblue1",
border = 1)
legend(x="topleft", legend = "Zona aceptación en blanco")
Se utilizará estadístico \(t\) \[t'= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_1}{n_1}+ \frac{s^2_2}{n_2}}}\]
Sustituyendo la formula anterior \[t'= \frac {(62.6-47.2)-(0)}{\sqrt{ \frac{33.8^2}{10}+ \frac{10.1^2}{20}}}=1.41\]
Con base en la regla de decisión, No existe evidencia para rechazar la hipótesis nula porque 1.41 es menor que 2.23
El código empleado para construir la gráfica fue:
y <- (rt(1000000, df=999999))
den <- density(y)
plot(den, main="Regla de decisión prueba t", xlab="Valores de t")
value <- -2.25
polygon(c(den$x[den$x <= value ], value),
c(den$y[den$x <= value ], 0),
col = "slateblue1",
border = 1)
value <- 2.25
polygon(c(den$x[den$x >= value ], value),
c(den$y[den$x >= value ], 0),
col = "slateblue1",
border = 1)
legend(x="topleft", legend = "Zona aceptación en blanco
valor de t estimado en rojo")
abline(v=1.41, col="red", lw=4)
Con un 95% de confianza podemos concluir que el valor medio de la actividad del complemento del suero es igual en enfermos que en sanos.
En r
lo podemos calcular con la función pt
con \((n_1+n_2)-2\) gl
[1] 0.08477594
[1] 0.08477594
Dado que es un hipótesis bilateral es necesario sumar los valores de \(p\) para un total de 0.1695519
La prueba de Levene modificada utiliza la desviación absoluta de las observaciones en cada tratamiento (grupo) de la mediana del tratamiento. Luego evalúa si la media de estas desviaciones son o no iguales para todos los tratamientos.
La prueba de Levene para la igualdad de varianzas nos indica si podemos o no suponer varianzas iguales. Así, si la probabilidad asociada al estadístico Levene es >0.05
– Suponemos varianzas iguales, si es <0.05
Importe la base de datos ejemplo 2
En R
utilizamos la función leveneTest(y, group, center=median, ...)
library(car)# Necesario para cargar la función
leveneTest(Calificacion, Grupo)#Utilizando la base ejemplo 2
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 1 0.1704 0.6836
23
También puede utilizar la prueba de bartlett.
bartlett.test(formula, data)
# Definir los parámetros del grupo
set.seed(123) # para reproducibilidad
n_grupo1 <- 50 # tamaño del grupo 1 (tratamiento estándar)
n_grupo2 <- 50 # tamaño del grupo 2 (nuevo tratamiento)
media_grupo1 <- 140 # media del grupo 1 (e.g., presión arterial)
media_grupo2 <- 130 # media del grupo 2
sd_grupo1 <- 10 # desviación estándar del grupo 1
sd_grupo2 <- 15 # desviación estándar del grupo 2
# Simular los datos
salud_grupo1 <- rnorm(n_grupo1, mean = media_grupo1, sd = sd_grupo1)
salud_grupo2 <- rnorm(n_grupo2, mean = media_grupo2, sd = sd_grupo2)
# Crear vector de tratamiento correspondiente
tratamiento_grupo1 <- rep("Estándar", n_grupo1)
tratamiento_grupo2 <- rep("Nuevo", n_grupo2)
# Combinar los datos en un solo vector/data frame
salud <- c(salud_grupo1, salud_grupo2)
tratamiento <- c(tratamiento_grupo1, tratamiento_grupo2)
datos <- data.frame(Salud = salud, Tratamiento = tratamiento)
# Utilizar 'sample' para mezclar los datos
indices <- sample(1:length(salud))
datos <- datos[indices, ]
Bartlett test of homogeneity of variances
data: datos$Salud by datos$Tratamiento
Bartlett's K-squared = 6.9534, df = 1, p-value = 0.008366
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 1 4.4228 0.03802 *
98
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
\(H_0\): Varianza grupo 1 = Varianza grupo 2
Si \(p> \alpha\) varianzas iguales. Aceptar \(H_0\)
Si \(p< \alpha\) varianzas diferentes. Rechazar \(H_0\)
Welch Two Sample t-test
data: Salud by Tratamiento
t = 3.5051, df = 86.454, p-value = 0.0007258
alternative hypothesis: true difference in means between group Estándar and group Nuevo is not equal to 0
95 percent confidence interval:
3.527122 12.768701
sample estimates:
mean in group Estándar mean in group Nuevo
140.3440 132.1961
Definición: - Mide la magnitud de la diferencia entre dos grupos. - Ayuda a interpretar la importancia práctica de los resultados, no solo su significancia estadística.
Importancia del Tamaño del Efecto: - Fundamental para determinar la relevancia práctica o clínica de un descubrimiento. - Crucial en estudios donde el tamaño de la muestra es grande y pequeñas diferencias pueden ser estadísticamente significativas pero no clínicamente relevantes.
Medidas Comunes: - Cohen’s d: Usado para comparar las diferencias entre las medias de dos grupos. - Hedges’g: Correción para Cohen’s d - r (correlación de Pearson): A menudo transformado para evaluar tamaños de efecto en contextos de correlación. - \(\omega^2\)
\[d= \frac{M_1-M_2}{SD_{pooled}}\] \[g= d \times \big(1- \frac{3}{4 (n_1+n_2)-9}\] - Menos sesgada que \(d\) - Proporciona una medida más precisa de la magnitud de una diferencia entre dos medias, especialmente útil cuando los tamaños de muestra son pequeños.
\[ \omega^2 = \frac{SS_{entre} - (df_{entre} \cdot MS_{error})}{SS_{total} + MS_{error}} \]
Donde: - \(SS_{entre}\) es la suma de cuadrados entre grupos. - \(df_{entre}\) son los grados de libertad entre grupos. - \(MS_{error}\) es el cuadrado medio del error. - \(SS_{total}\) es la suma de cuadrados total.
Estos umbrales pueden variar
ggstatsplot
es una librería de R diseñada para enriquecer los gráficos ggplot2 con detalles de pruebas estadísticas.ggbetweenstats
: Para comparaciones de medios entre grupos (e.g., boxplots con resultados de t-test).ggwithinstats
: Para comparaciones dentro de grupos (e.g., paired samples t-tests).ggscatterstats
: Para análisis de correlación y regresión lineal.ggpiestats
: Para análisis de datos categóricos (e.g., tabla de contingencia con chi-squared test).# Instalar y cargar ggstatsplot
library(ggstatsplot)
# Crear un gráfico de comparación de medias
ggbetweenstats(
data = mtcars,
x = am, # Variable de grupo (0 = automático, 1 = manual)
y = mpg, # Variable continua
title = "Comparación de Consumo de Combustible por Tipo de Transmisión",
xlab = "Tipo de Transmisión",
ylab = "Millas por Galón",
messages = FALSE # Desactivar mensajes automáticos
)
Pima.tr2
compare la edad entre la pacientes con diabetes y sin diabetes.Pima.tr2
puede demostrar que el IMC es mayor en la pacientes con diabetes comparado con las pacientes sin diabetesBioestadística básica/Posgrados CUCS