Pruebas de hipótesis para la de dos medias

Pérez-Guerrero Edsaúl Emilio

Instituto de Investigación en Ciencias Biomédicas

2024-10-20

Introducción

  • Cuando se evalúa la diferencia de dos medias se pueden presentar:
    • Distribución normal varianza conocida. Usar \(z\)
    • Distribución normal varianza desconocida. Usar \(t-student\) para muestras independientes
      • t-student para muestras con varianzas iguales
      • t-student para muestras con varianzas diferentes
    • Comparación por parejas
      • t-student para muestras pareadas

Introducción

Muchas pruebas t, una sola moneda de cambio

  • Para varianzas iguales: \[t= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_p}{n_1}+ \frac{s^2_p}{n_2}}}\]

  • Para varianzas NO iguales. Test de Welch

\[t'= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_1}{n_1}+ \frac{s^2_2}{n_2}}}\]

Diferencias de medias

  • La prueba de hipótesis que involucra la diferencia entre las medias de dos poblaciones se utiliza para conocer si dos medias son distintas entre sí.

  • Las hipótesis que se pueden plantear son:

\(H_O\) \(H_A\) Tipo de hipótesis
1 \(\mu_1- \mu_2 =0\) \(\mu_1- \mu_2 \neq0\) Bilateral
2 \(\mu_1- \mu_2 >=0\) \(\mu_1- \mu_2 \ <0\) Unilateral
3 \(\mu_1- \mu_2 <=0\) \(\mu_1- \mu_2 \ >0\) Unilateral

Diferencias de medias

Un grupo de investigadores quiere comparar la edad de dos grupos de estudiantes de posgrados. Para ello recluta a 60 alumnos estudiantes del doctorado de Biología Molecular en Medicina y a 45 estudiantes del Doctorado en Ciencias Biomédicas. Es del interés de los investigadores probar que las medias de la edades son diferentes.

  • \(H_0\): \(\mu_{DCBMM} = \mu_{DCB}\)

  • \(H_0=\): \(\mu_{DCBMM}-\mu_{DCB}=0\)

  • \(H_A\): \(\mu_{DCBMM} \neq \mu_{DCB}\)

  • \(H_A\): \(\mu_{DCBMM}-\mu_{DCB}\neq0\)

Diferencias de medias

Un grupo de investigadores quiere comparar la edad de dos grupos de estudiantes de posgrados. Para ello recluta a 60 alumnos estudiantes del doctorado de Biología Molecular en Medicina y a 45 estudiantes del Doctorado en Ciencias Biomédicas. Es del interés de los investigadores probar que las medias de la edades son del DCBMM son MAYORES que las del DCB

  • \(H_0\): \(\mu_{DCBMM} <= \mu_{DCB}\)
  • \(H_0\): \(\mu_{DCBMM}-\mu_{DCB}<=0\)
  • \(H_0\): \(22-22=0\) Por ejemplo
  • \(H_0\): \(22-26=-4\) Por ejemplo

Para \(H_A\) - \(H_A\): \(\mu_{DCBMM} > \mu_{DCBMM}\) - \(H_A\): \(\mu_{DCBMM}-\mu_{DCBMM}>0\) - \(H_A\): \(26-22=4\) Por ejemplo

Diferencias de medias

Un grupo de investigadores quiere comparar la edad de dos grupos de estudiantes de posgrados. Para ello recluta a 60 alumnos estudiantes del doctorado de Biología Molecular en Medicina y a 45 estudiantes del Doctorado en Ciencias Biomédicas. Es del interés de los investigadores probar que las medias de la edades son del DCBMM son MENORES que las del DCB

  • \(H_0\): \(\mu_{DCBMM} => \mu_{DCB}\)
  • \(H_0=\): \(\mu_{DCBMM}-\mu_{DCB}=>0\)
  • \(H_0\): \(22-22=0\)
  • \(H_0\): \(26-22=4\)

Para \(H_A\)

  • \(H_A\): \(\mu_{DCBMM} < \mu_{DCB}\)
  • \(H_A\): \(\mu_{DCBMM}-\mu_{DCB}<0\)
  • \(H_A\): \(22-26=-4\)

Diferencias de medias

Prueba \(t\) para grupos independientes

Comparación de medias en dos poblaciones utilizando \(t\) student

Cuando no se conoce el valor de la varianza poblacional se puede utilizar la prueba \(t-student\). Sin embargo, el tipo de estadístico dependerá de si las varianzas de las muestras son iguales o no. Por lo tanto, antes de realizar la prueba es necesario realizar una prueba de homocedasticidad.

  • La elección de la moneda de cambio depedenra de las homocedasticidad de las varianzas de los grupos.

Comparación de medias en dos poblaciones utilizando \(t\) student

  • Para varianzas iguales la moneda de cambios es: \[t= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_p}{n_1}+ \frac{s^2_p}{n_2}}}\]

  • Cuando \(H_0\) es verdadera, sigue una distribución t de Student con \(n_1 + n_2 -2\) grados de libertad.

Recordando

Ejemplo práctico 8

Ejercicio adaptado de Bioestadistica: Base para el analisis de las ciencias de la salud.

Un estudio de los investigadores Eidelman et al.tiene como objetivo examinar las características de destrucción pulmonar en personas que fuman cigarros antes de desarrollar un marcado enfisema pulmonar. Para lo cual utilizan un índice de destrucción pulmonar. Una calificación alta indica un mayor daño pulmonar.

Los datos fueron guardados en dos objetos para uno de los índices de destrucción pulmonar de una muestra de 9 personas que no fuman y 16 fumadores.

Ejemplo práctico 8

Se pretende saber si es posible concluir, con base en los datos, que las personas que sí fuman, en general, tienen los pulmones mas dañados que las personas no fumadoras, como lo indican las mediciones. No se conocen las variancias poblacionales, pero se supone que son iguales. Además se conoce que los datos siguen una distribución normal. Utilice un nivel de confianza del 98%.

Ejemplo práctico 8. Los datos

Calif_No_Fumadores<-c(18.1,6.0,10.8,11.0,7.7,17.9,8.5,13.0,18.9)
Calif_Fumadores<- c(16.6,13.9,11.3,26.5, 17.4, 15.3, 15.8, 12.3, 
                    18.6, 12.0, 24.1, 16.5, 21.8, 16.3, 23.4, 
                    18.8)

Recordando

Recordando

Pregunta ¿Qué buscamos?

  • ¿Es posible concluir, con base en los datos, que las personas que sí fuman, en general, tienen los pulmones mas dañados que las personas no fumadoras?

  • Queremos comparar las calificaciones de los índices de destrucción pulmonar de dos grupos de pacientes

  • Queremos saber si las calificaciones del índice es mayor en pacientes que fuman que en los que no fuman

Hipótesis

\[H_0: \mu_{ \ No \ Fumadores}=> \mu_{\ Fumadores}\]

\[H_A: \mu_{ \ No \ Fumadores}<\mu_{\ Fumadores}\]

Una forma alternativa

  • \(H_0: \mu_{ \ No \ Fumadores}- \mu_{\ Fumadores} => 0\)
  • \(H_A: \mu_{\ No \ Fumadores}- \mu_{\ Fumadores} < 0\)

Estadística descriptiva y datos

Estadística descriptiva:

summary(Calif_No_Fumadores)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   6.00    8.50   11.00   12.43   17.90   18.90 
summary(Calif_Fumadores)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  11.30   14.95   16.55   17.54   19.55   26.50 

Estadística descriptiva y datos. Conocer mis datos

Estadística descriptiva y datos. Conocer mis datos

Se utilizó R ya que las calificaiones no están en un df. Por lo tanto

El código para la gráfica es:

boxplot(Calif_Fumadores, Calif_No_Fumadores, 
        main= "Calificación del daño pulmonar en fumadores y
        no fumadores", names=c("Fumadores", " No Fumadores"), col=c("cadetblue", "cadetblue2"))

Estadística descriptiva y datos

Otros datos importantes

Del problema podemos obtener:

  • Varianzas homogéneas
  • Distribución normal
  • No se conoce la varianza poblacional
  • Se puede estimar:
    • Medias
    • Desviación estándar

Selección de la prueba

  • Dado que NO se conoce \(\sigma^2\) y que los datos para ambas poblaciones provienen de una distribución normal, que las varianzas de las muestras son iguales y siguiendo nuestro algoritmo para la selección de pruebas se puede emplear:

\[t= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_p}{n_1}+ \frac{s^2_p}{n_2}}}\]

Selección de la prueba

¿Con qué datos contamos y cuáles nos faltan para estimar el estadístico de prueba?

\[t= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_p}{n_1}+ \frac{s^2_p}{n_2}}}\]

  • Necesitamos
    • Varianza/desviación estándar
    • Medias de los grupos
    • n

¿Con qué datos contamos y cuáles nos faltan para estimar el estadístico de prueba?

  • ¿Qué datos tenemos disponibles?
    • \(\bar{x_1}=\) se puede estimar. Media del grupo 1
    • \(n_1=\) Se puede estimar
    • \(s^2_1=\) Se puede estimar
    • \(\bar{x_2}=\) Se puede estimar. Media del grupo 2
    • \(n_2=\) Se puede estimar
    • \(s^2_2=\) Se puede estimar

¿Con qué datos contamos y cuáles nos faltan para estimar el estadístico de prueba?

Todos los datos pueden ser estimados del problema

¿Con qué datos contamos y cuáles nos faltan para estimar el estadístico de prueba?

Estimación ede datos faltantes para el grupo 2 (fumadores)

mean(Calif_Fumadores)
[1] 17.5375
length(Calif_Fumadores)
[1] 16
sd(Calif_Fumadores)
[1] 4.475247

Con estos datos ya prodríamos estimar el estadístico de prueba de nuestros datos.

Supuestos

¿Se cumplen los supuestos?

  • Los datos provienen de una distribución normal
  • Son muestras aleatorias
  • Tienen varianza normal

Regla de decisión

Para calcular el valor \(t\) tabulado se utiliza la función qt. Dado que nuestra hipótesis es unilateral se pide la probabilidad del lado izquierdo

qt(0.02, df=((length(Calif_Fumadores)+
                length(Calif_No_Fumadores))-2), lower.tail = T)
[1] -2.176958

Regla de decisión. Gráfica

Regla de decisión. Código para Gráfica

y <- (rt(1000000, df=999999))
den <- density(y)
plot(den,  main="Regla de decisión prueba t", xlab="Valores de t")
value <- qt(0.05, df=((length(Calif_Fumadores)+
                         length(Calif_No_Fumadores))-2))
polygon(c(den$x[den$x <= value ], value),
        c(den$y[den$x <= value ], 0),
        col = "slateblue1",
        border = 1)
value <-  qt(0.025, df=13)
legend(x="topleft", legend = "Zona aceptación en blanco")

Valor de mi estadístico de prueba

Se utilizará estadístico \(t\) \[t= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_p}{n_1}+ \frac{s^2_p}{n_2}}}\] Primero es necesario estimar el valor de \(s^2_p\)

Valor de mi estadístico de prueba

Para la estimación de \(s^2_p\) se utiliza la siguiente formula:

\[s^2_p= \frac{(n_1-1)(s^2_1)+(n_2-1)(s^2_2)}{(n_1-1)+(n_2-1)}\]

Valor de mi estadístico de prueba

Sustituyendo: \[s^2_p= \frac{(8)(23.5)+(15)(20.0)}{8+15}=21.22\]

(8*23.5+15*20.0)/(8+15)
[1] 21.21739

Valor de mi estadístico de prueba

Sustituyendo en la formula: \[t= \frac {(12.4- 17.5)-(0)}{\sqrt{ \frac{21.22}{16}+ \frac{21.22}{9}}}=-2.66\]

Valor de mi estadístico de prueba

En R los podemos estimar así:

(12.4-17.5)/(sqrt((21.22/16)+(21.22/9)))
[1] -2.657105

Decisión

on base en la regla de decisión, existe evidencia para rechazar la hipótesis nula porque -2.6571051 es menor que -1.7138715

Paso 8. Decisión

Gráficamente lo podemos ver:

Decisión

El código empleado para construir la gráfica fue:

y <- (rt(1000000, df=999999))
den <- density(y)
plot(den,  main="Regla de decisión prueba t", xlab="Valores de t")
value <- qt(0.05, df=((length(Calif_Fumadores)+
                         length(Calif_No_Fumadores))-2))
polygon(c(den$x[den$x <= value ], value),
        c(den$y[den$x <= value ], 0),
        col = "slateblue1",
        border = 1)
value <-  qt(0.025, df=13)
legend(x="topleft", legend = "Zona aceptación en blanco")
abline(v=(12.4-17.5)/(sqrt((21.22/16)+(21.22/9))), 
       col="red", lw=4)

Conclusión

Con un 98% de confianza podemos concluir que las personas que si fuman, en general, tienen los pulmones mas dañados que las personas no fumadoras.

Paso 10. Valor de p

En r lo podemos calcular con la función pt

pt((12.4-17.5)/(sqrt((21.22/16)+(21.22/9))), df=23)
[1] 0.007040751

¿Cómo hacerlo en R?

¿Cómo hacerlo en R?

En R hay dos formas de hacerlo:

  1. Utilizando “x” y “y”: t.test(x=objeto1, y=objeto2)
  2. Utilizando la formula: t.test(Variable de prueba~Variable agrupación)

Prueba t.test opción 1

t.test(x=Calif_No_Fumadores, y=Calif_Fumadores,
       alternative = "less", var.equal = T)

    Two Sample t-test

data:  Calif_No_Fumadores and Calif_Fumadores
t = -2.658, df = 23, p-value = 0.007027
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
      -Inf -1.812983
sample estimates:
mean of x mean of y 
 12.43333  17.53750 

Importar base

Para este ejemplificar cree una base con los datos del ejemplo práctico 8. Descargue la base aqui

library(readr)
Base_Ejemplo_2 <- read_csv("Base_Ejemplo 2.csv", 
    col_types = cols(Grupo = col_factor(levels = c("No Fumadores", 
        "Fumadores"))))
attach(Base_Ejemplo_2)
View(Base_Ejemplo_2)

Prueba t.test opción 2

Prueba t.test opción 2

El código para la gráfica anterior fue:

boxplot(Calificacion~Grupo, 
        main="Calificación de daño pulmonar", col=c("cadetblue", "cadetblue2"))

También podemos construir la gráfica en ggplot

También podemos construir la gráfica en ggplot

library(ggplot2)
ggplot(Base_Ejemplo_2, aes(x=Grupo, y=Calificacion))+
  geom_boxplot(fill= c("cadetblue", "cadetblue2"), alpha=0.8)+
  labs(title="Calificación de daño pulmonar", x="Grupo", y="Calificación")+
  theme_minimal()

También podemos construir la gráfica en ggplot

También podemos construir la gráfica en ggplot

library(ggrain)
ggplot(Base_Ejemplo_2, aes(x=1, y=Calificacion))+
  geom_rain(alpha=0.8, fill="cadetblue")+
  facet_grid(~Grupo)+
  labs(title="Calificación de daño pulmonar", x="Grupo", y="Calificación")+
  theme_minimal()

También podemos construir la gráfica en ggplot

También podemos construir la gráfica en ggplot

Base_Ejemplo_2|>
  ggplot(aes(x=Calificacion, fill = Grupo))+
  geom_density(alpha=0.5)+
  labs(title="Calificación de daño pulmonar")+
  theme_minimal()

Prueba t.test opción 2

t.test(Calificacion~Grupo, alternative="less", var.equal=T)

    Two Sample t-test

data:  Calificacion by Grupo
t = -2.658, df = 23, p-value = 0.007027
alternative hypothesis: true difference in means between group No Fumadores and group Fumadores is less than 0
95 percent confidence interval:
      -Inf -1.812983
sample estimates:
mean in group No Fumadores    mean in group Fumadores 
                  12.43333                   17.53750 
##Importante cambiar el argumento var.equal=T

Comparación de dos medias. Poblaciones con varianzas diferentes

Welch’s t-test

Test de welch

En estadística, la prueba t de Welch, o prueba t de varianzas desiguales, es una prueba de ubicación de dos muestras que se utiliza para probar la hipótesis de que dos poblaciones tienen medias iguales. Lleva el nombre de su creador, Bernard Lewis Welch, y es una adaptación de la prueba t de Student, y es más confiable cuando las dos muestras tienen varianzas desiguales y/o tamaños de muestra desiguales.

Poblaciones con varianzas diferentes

\[t'= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_1}{n_1}+ \frac{s^2_2}{n_2}}}\]

No se puede utilizar el valor de \(t\) tabla. Para el valor crítico de tablas usar:

\[t'_{1-( \alpha/2)}= \frac{w_1t_1+w_2t_2}{w_1+w_2}\]

Poblaciones con varianzas diferentes

\[t'_{crítico \ 1-( \alpha/2)}= \frac{w_1t_1+w_2t_2}{w_1+w_2}\]

Donde:

  • \(w_1=s^2_1/n_1\)
  • \(w_2=s^2_2/n_2\)
  • \(t_1=t_{1-(\alpha/2)}\)
  • \(t_2=t_{1-(\alpha/2)}\)

Poblaciones con varianzas diferentes

Para una prueba de hipótesis se rechaza \(H_0\) si el valor de \(t'\) es igual o mayor que la \(t'_{critico}\) o menor al valor negativo.

Ejemplo práctico 9

Un grupo de investigadores quiere saber si las poblaciones difieren con respecto al valor medio de la actividad del complemento del suero total \((C_{H50})\). Los datos se componen de las mediciones de \((C_{H50})\) en \(n_2 = 20\) individuos aparentemente sanos y en \(n_1=10\) individuos enfermos. Las medias de las muestras y desviaciones estándar son:

\[\bar{x_1}= 62.6, \ s=33.8\] \[\bar{x_2}= 47.2, \ s=10.1\]

Asuma que los datos siguen una distribución normal y que las varianzas en los grupos son diferentes

Pregunta

Conocer si las poblaciones difieren con respecto al valor medio de la actividad del complemento del suero total

Hipótesis

  • \[H_0: \mu_{\ Enfermos}= \mu_{\ Sanos}\]
  • \[H_A: \mu_{\ Enfermos} \neq \mu_{\ Sanos}\]

Selección de la prueba estadística

  • Dado que NO se conoce \(\sigma^2\) y que los datos para ambas poblaciones provienen de una distribución normal y que las varianzas de las muestras NO son iguales se debe emplear: \[t'= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_1}{n_1}+ \frac{s^2_2}{n_2}}}\]

Datos

  • Elegir grupos:
    • Grupo 1: Enfermos
    • Grupo 2: Sanos

Datos

  • ¿Qué datos tenemos disponibles?
    • \(\bar{x_1}=62.6\)
    • \(n_1=10\)
    • \(s_1=33.8\)
    • \(\bar{x_2}=47.2\)
    • \(n_2=20\)
    • \(s_2=10.1\)

Supuestos

El problema nos dice que los datos siugien una distribución normal y que las varianzas entre los grupos son diferentes, por lo que se cumplen los supuestos

Regla de decisión

Para calcular el valor \(t'_{critico}\) tabulado se utiliza la formula:

\[t'_{crítico \ 1-( \alpha/2)}= \frac{w_1t_1+w_2t_2}{w_1+w_2}\]

Donde:

  • \(w_1=s^2_1/n_1\)
  • \(w_2=s^2_2/n_2\)
  • \(t_1=t_{1-(\alpha/2)}\)
  • \(t_2=t_{1-(\alpha/2)}\)

Dado que es una hipótesis bilateral se toma \(\alpha/2\). Si la hipótesis no bilateral no se divide el valor entre 2.

Regla de decisión. Estimación de \(t'_{critico}\)

  • \(w_1=(33.8)^2/10\)
  • \(w_2=(10.1)^2/20\)
  • \(t_1=2.2622\)
  • \(t_2=2.0930\)

Regla de decisión. Estimación de \(t'_{critico}\)

Utilizando la función ´qt´ para \(t_1\) y \(t_2\)

\(t_1=\)

qt(c(0.025,0.975), df=9)
[1] -2.262157  2.262157

\(t_2=\)

qt(c(0.025,0.975), df=19)
[1] -2.093024  2.093024

Para el cálculo \(t'_{\ critico}\) se utiliza solo uno de los valores

Regla de decisión

Sustituyendo en la formula:

\[t'_{crítico \ 1-( \alpha/2)}= \frac{114.24(2.26)+5.10(2.09)}{114.24+5.10}=2.25\] Nuestro zona de aceptación es de 2.25 a -2.25 (Hipótesis bilateral)

((114.24*2.26)+(5.10*2.09))/(114.24+5.10)
[1] 2.252735

Regla de decisión. Gráfica

Regla de decisión. Código para Gráfica

y <- (rt(1000000, df=999999))
den <- density(y)
plot(den,  main="Regla de decisión prueba t", xlab="Valores de t")
value <- -2.25
polygon(c(den$x[den$x <= value ], value),
        c(den$y[den$x <= value ], 0),
        col = "slateblue1",
        border = 1)
value <-  2.25
polygon(c(den$x[den$x >= value ], value),
        c(den$y[den$x >= value ], 0),
        col = "slateblue1",
        border = 1)
legend(x="topleft", legend = "Zona aceptación en blanco")

Estimación del estadístico de prueba

Se utilizará estadístico \(t\) \[t'= \frac {(\bar{x_1}- \bar{x_2})-(\mu_1- \mu_2)_0}{\sqrt{ \frac{s^2_1}{n_1}+ \frac{s^2_2}{n_2}}}\]

Estimación del estadístico de prueba

Sustituyendo la formula anterior \[t'= \frac {(62.6-47.2)-(0)}{\sqrt{ \frac{33.8^2}{10}+ \frac{10.1^2}{20}}}=1.41\]

(62.6-47.2)/sqrt((33.8^2/10)+(10.1^2/20))
[1] 1.409677

Decisión

Con base en la regla de decisión, No existe evidencia para rechazar la hipótesis nula porque 1.41 es menor que 2.23

Decisión

Gráficamente lo podemos ver:

Decisión

El código empleado para construir la gráfica fue:

y <- (rt(1000000, df=999999))
den <- density(y)
plot(den,  main="Regla de decisión prueba t", xlab="Valores de t")
value <- -2.25
polygon(c(den$x[den$x <= value ], value),
        c(den$y[den$x <= value ], 0),
        col = "slateblue1",
        border = 1)
value <-  2.25
polygon(c(den$x[den$x >= value ], value),
        c(den$y[den$x >= value ], 0),
        col = "slateblue1",
        border = 1)
legend(x="topleft", legend = "Zona aceptación en blanco
       valor de t estimado en rojo")
abline(v=1.41, col="red", lw=4)

Conclusión

Con un 95% de confianza podemos concluir que el valor medio de la actividad del complemento del suero es igual en enfermos que en sanos.

Valor de p

En r lo podemos calcular con la función pt con \((n_1+n_2)-2\) gl

pt(1.41, df=28, lower.tail = F)#Probabilidad lado izq
[1] 0.08477594
pt(-1.41, df=28, lower.tail = T)#Probabilidad lado derecho
[1] 0.08477594

Dado que es un hipótesis bilateral es necesario sumar los valores de \(p\) para un total de 0.1695519

Recordando

Prueba de Levene

Prueba de Levene

  • La prueba de Levene modificada utiliza la desviación absoluta de las observaciones en cada tratamiento (grupo) de la mediana del tratamiento. Luego evalúa si la media de estas desviaciones son o no iguales para todos los tratamientos.

  • La prueba de Levene para la igualdad de varianzas nos indica si podemos o no suponer varianzas iguales. Así, si la probabilidad asociada al estadístico Levene es >0.05

– Suponemos varianzas iguales, si es <0.05

Prueba de Levene

Importe la base de datos ejemplo 2

df <- read.csv("Bases/Base_Ejemplo 2.csv")# Cambie la ruta
attach(df) # Si no adjunta utilice el sigo de $ para acceder a las variables

Prueba de Levene

En R utilizamos la función leveneTest(y, group, center=median, ...)

library(car)# Necesario para cargar la función
leveneTest(Calificacion, Grupo)#Utilizando la base ejemplo 2
Levene's Test for Homogeneity of Variance (center = median)
      Df F value Pr(>F)
group  1  0.1704 0.6836
      23               

También puede utilizar la prueba de bartlett.

bartlett.test(formula, data)

Otro ejemplo. Para welch test

Creación de la base de datos

# Definir los parámetros del grupo
set.seed(123)  # para reproducibilidad
n_grupo1 <- 50  # tamaño del grupo 1 (tratamiento estándar)
n_grupo2 <- 50  # tamaño del grupo 2 (nuevo tratamiento)
media_grupo1 <- 140  # media del grupo 1 (e.g., presión arterial)
media_grupo2 <- 130  # media del grupo 2
sd_grupo1 <- 10  # desviación estándar del grupo 1
sd_grupo2 <- 15  # desviación estándar del grupo 2

# Simular los datos
salud_grupo1 <- rnorm(n_grupo1, mean = media_grupo1, sd = sd_grupo1)
salud_grupo2 <- rnorm(n_grupo2, mean = media_grupo2, sd = sd_grupo2)

# Crear vector de tratamiento correspondiente
tratamiento_grupo1 <- rep("Estándar", n_grupo1)
tratamiento_grupo2 <- rep("Nuevo", n_grupo2)

# Combinar los datos en un solo vector/data frame
salud <- c(salud_grupo1, salud_grupo2)
tratamiento <- c(tratamiento_grupo1, tratamiento_grupo2)
datos <- data.frame(Salud = salud, Tratamiento = tratamiento)

# Utilizar 'sample' para mezclar los datos 
indices <- sample(1:length(salud))
datos <- datos[indices, ]

Otro ejemplo. Para welch test

Paso 1. Comprobar la homogenidad de las varianzas

bartlett.test(datos$Salud~datos$Tratamiento)

    Bartlett test of homogeneity of variances

data:  datos$Salud by datos$Tratamiento
Bartlett's K-squared = 6.9534, df = 1, p-value = 0.008366
car::leveneTest(datos$Salud~datos$Tratamiento)
Levene's Test for Homogeneity of Variance (center = median)
      Df F value  Pr(>F)  
group  1  4.4228 0.03802 *
      98                  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • \(H_0\): Varianza grupo 1 = Varianza grupo 2

  • Si \(p> \alpha\) varianzas iguales. Aceptar \(H_0\)

  • Si \(p< \alpha\) varianzas diferentes. Rechazar \(H_0\)

Otro ejemplo. Para welch test

Realizar la prueba

t.test(Salud ~ Tratamiento, data = datos)

    Welch Two Sample t-test

data:  Salud by Tratamiento
t = 3.5051, df = 86.454, p-value = 0.0007258
alternative hypothesis: true difference in means between group Estándar and group Nuevo is not equal to 0
95 percent confidence interval:
  3.527122 12.768701
sample estimates:
mean in group Estándar    mean in group Nuevo 
              140.3440               132.1961 

Tamaño del efecto

Tamaño del efecto

Definición: - Mide la magnitud de la diferencia entre dos grupos. - Ayuda a interpretar la importancia práctica de los resultados, no solo su significancia estadística.

Importancia del Tamaño del Efecto: - Fundamental para determinar la relevancia práctica o clínica de un descubrimiento. - Crucial en estudios donde el tamaño de la muestra es grande y pequeñas diferencias pueden ser estadísticamente significativas pero no clínicamente relevantes.

Medidas Comunes: - Cohen’s d: Usado para comparar las diferencias entre las medias de dos grupos. - Hedges’g: Correción para Cohen’s d - r (correlación de Pearson): A menudo transformado para evaluar tamaños de efecto en contextos de correlación. - \(\omega^2\)

Cohen’s d

  • Usado para comparar las diferencias entre las medias de dos grupos
  • *Interpretación de Cohen’s d**:
    • Pequeño (0.2), Mediano (0.5), Grande (0.8) según las convenciones de Cohen.
    • La interpretación puede variar dependiendo del contexto y del campo de estudio.

Hedges’g

  • Mide la diferencia entre dos medias relativa a la desviación estándar agrupada

\[d= \frac{M_1-M_2}{SD_{pooled}}\] \[g= d \times \big(1- \frac{3}{4 (n_1+n_2)-9}\] - Menos sesgada que \(d\) - Proporciona una medida más precisa de la magnitud de una diferencia entre dos medias, especialmente útil cuando los tamaños de muestra son pequeños.

Hedges’g

Cómo Interpretar

  1. Menor que 0.2:
    • Un efecto pequeño; puede ser difícil de detectar sin una muestra grande.
    • Posiblemente insignificante desde una perspectiva práctica.
  2. Entre 0.2 y 0.5:
    • Un efecto moderado; generalmente observable y con relevancia práctica en muchos campos.
    • Suficiente para fundamentar conclusiones provisionales en estudios exploratorios.

Hedges’g

Cómo Interpretar

  1. Entre 0.5 y 0.8:
    • Un efecto grande; claramente visible y probablemente de gran relevancia clínica o práctica.
    • Efectos de este tamaño son altamente significativos en la mayoría de los contextos.
  2. Mayor que 0.8:
    • Un efecto muy grande; extremadamente notable y de alta significancia práctica.
    • Tales efectos son raros en muchas áreas de investigación y pueden indicar relaciones muy fuertes.

Omega Squared \(\omega^2\)

¿Qué es \(\omega^2\)?

  • \(\omega^2\) es una medida del tamaño del efecto utilizada en el contexto de ANOVA.
  • Indica la proporción de la variabilidad total en los datos que es atribuible a la variación entre los grupos definidos por la variable independiente.

Fórmula de Omega Squared

\[ \omega^2 = \frac{SS_{entre} - (df_{entre} \cdot MS_{error})}{SS_{total} + MS_{error}} \]

Donde: - \(SS_{entre}\) es la suma de cuadrados entre grupos. - \(df_{entre}\) son los grados de libertad entre grupos. - \(MS_{error}\) es el cuadrado medio del error. - \(SS_{total}\) es la suma de cuadrados total.

Omega Squared \(\omega^2\)

Interpretación

  • Pequeño: \(| \omega^2 | < 0.01\)
  • Mediano: \(0.01 \leq | \omega^2 | < 0.06\)
  • Grande: \(| \omega^2 | \geq 0.06\)

Estos umbrales pueden variar

Omega Squared (\(\omega^2\))

Cómo Interpretar \(\omega^2\)

  1. Menor que 0.01:
    • Un efecto muy pequeño; indica que la variable independiente tiene una influencia mínima sobre la variación en la variable dependiente.
    • En términos prácticos, la variable de grupo no explica una proporción significativa de la diferencia en los resultados.
  2. Entre 0.01 y 0.06:
    • Un efecto moderado; sugiere que la variable independiente tiene una influencia notable pero no dominante.
    • Útil para identificar factores de influencia moderada que podrían ser de interés en investigaciones más detalladas.

Omega Squared (\(\omega^2\))

Cómo Interpretar \(\omega^2\)

  1. Mayor o igual a 0.06:
    • Un efecto grande; la variable de grupo proporciona una explicación sustancial para la variación en la variable dependiente.
    • Implica que las diferencias entre grupos son importantes y muy probablemente de relevancia práctica.

ggstatsplot (generado con AI)

Introducción a ggstatsplot

¿Qué es ggstatsplot?

  • ggstatsplot es una librería de R diseñada para enriquecer los gráficos ggplot2 con detalles de pruebas estadísticas.
  • Facilita la creación de visualizaciones atractivas y informativas que integran automáticamente resultados de análisis estadísticos.

Introducción a ggstatsplot

Características Principales

  • Integración con ggplot2: Extiende las capacidades de ggplot2 añadiendo anotaciones estadísticas directamente en los gráficos.
  • Soporte para múltiples pruebas estadísticas: Incluye t-tests, ANOVA, correlaciones, y más.
  • Automatización y simplificación: Reduce la necesidad de código adicional para anotar gráficos con resultados estadísticos.
  • Personalización avanzada: Permite ajustar casi todos los aspectos de los gráficos y las anotaciones estadísticas.

Ejemplos de Funciones en ggstatsplot

  • ggbetweenstats: Para comparaciones de medios entre grupos (e.g., boxplots con resultados de t-test).
  • ggwithinstats: Para comparaciones dentro de grupos (e.g., paired samples t-tests).
  • ggscatterstats: Para análisis de correlación y regresión lineal.
  • ggpiestats: Para análisis de datos categóricos (e.g., tabla de contingencia con chi-squared test).

Ejemplo de Uso de ggstatsplot

# Instalar y cargar ggstatsplot
library(ggstatsplot)

# Crear un gráfico de comparación de medias
ggbetweenstats(
  data = mtcars,
  x = am,   # Variable de grupo (0 = automático, 1 = manual)
  y = mpg,  # Variable continua
  title = "Comparación de Consumo de Combustible por Tipo de Transmisión",
  xlab = "Tipo de Transmisión",
  ylab = "Millas por Galón",
  messages = FALSE  # Desactivar mensajes automáticos
)

Ejemplo de Uso de ggstatsplot

Prueba t en ggstastplot

library(MASS)
data("Pima.tr2")
library(ggstatsplot)
ggstatsplot::ggbetweenstats(
  data=Pima.tr2, # Es necesario indicarle donde tomar los datos
  x=type, # Variable de agrupación
  y=glu,  # Variable numérica
  type = "parametric"
)

Prueba t en ggstastplot

Ejercicios clase

  1. Utilizando la base de datos Pima.tr2 compare la edad entre la pacientes con diabetes y sin diabetes.
  • Cree gráficos que le permitan ver las diferencias (si es que las hay)
  1. Utilizando la base de datos Pima.tr2 puede demostrar que el IMC es mayor en la pacientes con diabetes comparado con las pacientes sin diabetes
  2. Se sabe que existe una relación de la edad con el IMC, ¿El IMC de las mujeres con menos de 40 años es menor que las mujeres con 40 años o más?