Pruebas de hipótesis para la de dos medias dependientes o pareadas

Pérez-Guerrero Edsaúl Emilio

Instituto de Investigación en Ciencias Biomédicas

2024-05-07

Introducción

Un método que se utiliza con frecuencia para averiguar la eficacia de un tratamiento o procedimiento experimental es aquel que hace uso de observaciones relacionadas que resultan de muestras no independientes.

  • Mediciones a través del tiempo
  • Dos mediciones en el mismo sujeto
  • Diseño cruzados

Prueba t para grupos dependientes

El estadístico de prueba para una prueba t por grupos pareados es el siguiente:

\[t= \frac{\bar{d}-\mu_{d0}}{s_{\bar{d}}}\] Donde: - \(\bar{d}\) es la diferencia de media muestral - \(\mu_{d0}\) es la diferencia de la media poblacional supuesta - \(s_{\bar{d}}=s_d/\sqrt{n}\) es la desviación estándar de las diferencias dividida entre la raíz de n - Cuando \(H_0\) es verdadera sigue una distribución \(t\) con \(n-1\) grados de libertad.

Prueba t para grupos dependientes

Dado que se trabaja con la diferencia de las medias, no es necesario realizar prueba de homogeneidad de varainzas. !Es la misma muestra!

Se siguen los mismos pasos que los revisados en las otras prueba de hipótesis

Ejemplo 1.

Un grupo investigación de la licenciatura en Nutrición están probando un nuevo programas de dietas para la reducción de peso en pacientes con obesidad. Para este estudio reclutan 17 individuos. La intención de este programa es que después de 12 semanas los pacientes tengan una reducción del peso de forma significativa. Los datos del peso antes y peso después se muestran a continuación:

antes<-c(117.3, 111.4,98.6,104.3,105.4,100.4, 81.7,89.5,78.2)
despues<-c(83.3,85.9,75.8,82.9,82.3,77.7,62.7,69.0,63.9)

Ejemplo 1

  • Lo que se busca es saber si existe la suficiente evidencia para concluir que el programa de dietas es eficaz.
  • ¿Es posible rechazar la hipótesis nula que indica que el cambio en la media de la población \(\mu_d\) es cero o positivo?
  • \(H_0\): \(\mu\) antes >= \(\mu\) después
  • \(H_A\): \(\mu\) antes > \(\mu\) después

Ejemplo 1

  • En la prueba t pareada se pueden obtener dos tipos de diferencias
    • Peso antes-Peso después
    • Peso después-Peso antes
  • Se puede seleccionar cualquiera pero tiene que ser de acuerdo al tipo de hipótesis

Las hipótesis nula y alternativa deben establecerse de acuerdo con la manera de efectuar la resta de las mediciones para obtener las diferencias

Ejemplo 1

  • Si selecciona:
    • Peso después - Peso antes

\[H_0: \mu_d>=0\] \[H_A: \mu_d<0\]

Ejemplo 1

  • Si selecciona:
    • Peso antes - Peso después

\[H_0: \mu_d<=0\] \[H_A: \mu_d>0\]

Ejemplo 1

  • Si lo que se busca es solo saber si hay diferencias:
    • Hipótesis bilateral

\[H_0: \mu_d=0\] \[H_A: \mu_d \ne 0\]

Ejemplo 1. Cálculo del estadístico de prueba

  • Es necesario estimar el promedio de las diferencias (\(\bar{d}\))
  • Es necesario estimar la desviación estándar de las diferencias (\(S_d\)) para después estimar \(s_{\bar{d}}\)
  • Y luego utilizar la formula: \[t= \frac{\bar{d}-\mu_{d0}}{s_{\bar{d}}}\] Donde:
  • \(\bar{d}\) es la diferencia de media muestral promedio,
  • \(\mu_{d0}\) es la diferencia de la media poblacional supuesta,
  • \(s_{\bar{d}}=s_d/\sqrt{n}\) es la desviación estándar de las diferencias dividida entre la raíz de \(n\)

Ejemplo 1. Cálculo del estadístico de prueba

Estimaciones necesarias:

diferencia<-despues-antes
mean(diferencia)
[1] -22.58889
sd(diferencia)
[1] 5.319409
var(diferencia)
[1] 28.29611

Ejemplo 1. Cálculo del estadístico de prueba

\[t= \frac{\bar{d}-\mu_{d0}}{s_{\bar{d}/\sqrt{n}}}\] Sustituyendo

\[t= \frac{-22.59-0}{5.31/\sqrt{9}}= -12.74\]

Ejemplo 1. Determinar el valor crítico de t

Para una hipótesis unilateral en el que se espera un valor negativo

qt(0.05, df=8, lower.tail = T)
[1] -1.859548

Ejemplo 1. Determinar el valor crítico de t

Para una hipótesis unilateral en el que se espera un valor positivo

qt(0.05, df=8, lower.tail = F)
[1] 1.859548

Ejemplo 1. Determinar el valor crítico de t

Para una hipótesis bilateral

qt(c(0.025,0.975), df=8, lower.tail = F)
[1]  2.306004 -2.306004

Zona aceptación diferencia negativa

Zona aceptación diferencia negativa

Estimación del valor de p

pt(-12.74, df=8, lower.tail = T)
[1] 6.785466e-07

¿Cómo concluirían?

Como hacerlo en R

Hipótesis unilateral en la que se busca una diferencia positiva

No olvide que \(x\) es el grupo 1 y \(y\) es el grupo 2

t.test(x=antes, y=despues, alternative = "greater", 
       paired = T)

    Paired t-test

data:  antes and despues
t = 12.74, df = 8, p-value = 6.787e-07
alternative hypothesis: true mean difference is greater than 0
95 percent confidence interval:
 19.29166      Inf
sample estimates:
mean difference 
       22.58889 

Hipótesis unilateral en la que se busca una diferencia negativa

El orden de los grupos se invirtió y por tanto el argumento alternative también

t.test(x=antes, y=despues, alternative = "less", 
       paired=T, var.equal = T)

    Paired t-test

data:  antes and despues
t = 12.74, df = 8, p-value = 1
alternative hypothesis: true mean difference is less than 0
95 percent confidence interval:
     -Inf 25.88612
sample estimates:
mean difference 
       22.58889 

Hipótesis unilateral en la que se busca una diferencia bilateral

t.test(x=antes, y=despues, alternative = "two.sided", 
       paired=T, var.equal = T)

    Paired t-test

data:  antes and despues
t = 12.74, df = 8, p-value = 1.357e-06
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
 18.50003 26.67775
sample estimates:
mean difference 
       22.58889 

Ejercicio de práctica

Un grupo de estudiantes de psicología está implementando un programa de autocuidado en adultos mayores. Para medir el impacto del programa utilizaron un cuestionario que evalúa las modificaciones el comportamiento en el autocuidado. Un mayor puntaje indica una mejor capacidad de autocuidado. En este estudio participaron 17 adultos mayores, los puntajes de los cuestionarios antes y después de la aplicación dle programa se muestran a continuación:

  • Antes: 7,6,10,16,8,13,8,14,16,11,12,13,9,10,8,5
  • Después: 11,14,16,17,15,9,17,20,12,14,15,18,15,9

Ejercicio de práctica

¿Es posible concluir, con base en estos datos, que el programa implementado por los alumnos de psicología aumenta el conocimiento sobre el autocuidado en los adultos mayores? Utilice \(\alpha\)= 0.01.

Resolución

# Cambie los objetos para no sobreescribir
antes2<-c(7,6,10,16,8,13,8,14,16,11,12,13,9,10,17,8,5)
despues2<-c(11,14,16,17,9,15,9,17,20,12,14,15,14,18,15,9,12)
diferencia2<-antes2-despues2
mean(diferencia2)
[1] -3.176471
sd(diferencia2)
[1] 2.833622

Gráficos

boxplot(antes2, despues2, main="Comparación de la capacidad de autocuidad", col=c("#b0f566","#5cc9f5"),
        names=c("Antes", "Después"),
        ylab="Puntaje", xlab="Implementación del progama")

Resolución

t.test(x=antes2, y=despues2, paired=T, 
       alternative = "greater")

    Paired t-test

data:  antes2 and despues2
t = -4.622, df = 16, p-value = 0.9999
alternative hypothesis: true mean difference is greater than 0
95 percent confidence interval:
 -4.376336       Inf
sample estimates:
mean difference 
      -3.176471 
# Probamos que x es mayor que y

Resolución

t.test(x=despues2,y=antes2,  paired=T, 
       alternative = "greater")

    Paired t-test

data:  despues2 and antes2
t = 4.622, df = 16, p-value = 0.0001413
alternative hypothesis: true mean difference is greater than 0
95 percent confidence interval:
 1.976605      Inf
sample estimates:
mean difference 
       3.176471 
# Probamos que despues es más grande que antes

Resolución

t.test(x=despues2,y=antes2,  paired=T, 
       alternative = "two.sided", var.equal = T)

    Paired t-test

data:  despues2 and antes2
t = 4.622, df = 16, p-value = 0.0002827
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
 1.719557 4.633384
sample estimates:
mean difference 
       3.176471 
# Solo buscamos diferencias

Desde una base de datos

Ejemplo desde una base de datos

La siguiente base de datos contiene las presiones arteriales de un grupo de pacientes antes y después de utilizar un medicamento de prueba y los datos de un grupo de pacientes en los que se utilizó placebo. Es de interés de los investigadores observar si hubo cambios en la PA. Asuma normalidad de los datos

Generando la base de datos

# Copiar y pegar el siguiente código

set.seed(123)  # Para reproducibilidad

# Número de pacientes
n_pacientes <- 30

# Datos de presión arterial antes del tratamiento (Placebo)
PA_pre_placebo <- rnorm(n_pacientes, mean = 120, sd = 15)

# Datos de presión arterial después del placebo
PA_post_placebo <- PA_pre_placebo - rnorm(n_pacientes, mean = 0, sd = 5)

# Datos de presión arterial antes del tratamiento (Medicamento)
PA_pre_medicamento <- PA_pre_placebo + rnorm(n_pacientes, mean = 0, sd = 5)  # pequeñas variaciones

# Datos de presión arterial después del medicamento
PA_post_medicamento <- PA_pre_medicamento - rnorm(n_pacientes, mean = 10, sd = 5)  # mayor reducción

# Crear el data frame
datos <- data.frame(
  ID = 1:n_pacientes,
  PA_pre_placebo = PA_pre_placebo,
  PA_post_placebo = PA_post_placebo,
  PA_pre_medicamento = PA_pre_medicamento,
  PA_post_medicamento = PA_post_medicamento
)

Cambios de la PA del tratamiento

boxplot(PA_pre_medicamento, PA_post_medicamento, main="Comparación de la presión arterial", col=c("#b0f566","#5cc9f5"),
        names=c("Antes del tratamiento", "Después del tratamiento"),
        ylab="Presión arterial", xlab="Grupos", 
        data=datos)

Cambios de la PA del tratamiento

t.test(datos$PA_pre_medicamento, datos$PA_post_medicamento,
       paired = T)

    Paired t-test

data:  datos$PA_pre_medicamento and datos$PA_post_medicamento
t = 11.512, df = 29, p-value = 2.466e-12
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
  7.837397 11.223714
sample estimates:
mean difference 
       9.530555 

Utilizanod ggstatplot

library(ggstatsplot) # Cargar librería
# Es necesario modificar el df
# Creación de variable tiempo
Tiempo <- rep(x=c("Antes", "Despues"),
              times=1, each=30)
# Juntar PA de los pacientes con tratamiento
PA <- c(datos$PA_pre_medicamento, datos$PA_post_medicamento)
# Creación de un nuevo df
datos2 <- data.frame(Tiempo, PA)
# Para comparaciones de grupos pareados se utiliza ggwithinstats
datos2|>
  ggwithinstats(
    x=Tiempo, # No es necesario entrecomillar
    y= PA,
    type="parametric",  # para indicarle una prueba paramétrica
    palette= "Set2", # Puede utilizar las paletas de RColorBrewer
  )

Utilizanod ggstatplot