Ejercicios para prueba t

Author

Edsaúl Emilio Pérez Guerrero

Ejercicios de clase

Exercise 1 Utilizando la base de datos “Pima.tr” describa si hay diferencias en los niveles de glucosa, la presión arterial, en sikin, índice de masa corporal, en ped y edad entre las mujeres con diabetes y las mujeres sin diabetes. Para este problema utilice únicamente la función t.test de R no realice la prueba de hipótesis por pasos. Para cada una de las variables entregue los siguiente:

  1. Realice un boxplot para cada variable agrupadando entre las mujeres con diabetes y sin diabetes
  2. Realice un gráfico de violín para cada variable agrupando entre mujeres con diabetes y sin diabetes
  3. Realice un gráfico de plotmeans para cada variable agrupando entre mujeres con diabetes y sin diabetes
  4. Resultado de la prueba \(t-student\)
  5. Conclusión

Exercise 2 Utilizando la base de datos “Pima.tr” describa si hay diferencias en los niveles de glucosa, la presión arterial entre las mujeres con más de 40 años y las que mujeres con 40 años o menos.

Ejercicios para la prueba t de student para muestras independientes:

Solamente para los ejercicios del 3 al 5 debe de entregar/realizar lo siguiente:

  1. Preguntas ¿Qué quiero probar?¿Las medias son iguales? ¿las proporciones son distintas?¿Qué quiero hacer con mi prueba estadística?
  2. Hipótesis: Formular las hipótesis estadísticas
  3. Estadística descriptiva y Datos:
  • Entender los datos
  • Medidas descriptivas
  • Gráficas
  • Tomar en cuenta los datos con los que se cuenta:
    • Medias
    • variación
    • Distribución
  1. Estadística de prueba: Tomando en cuenta mi hipótesis, la distribución de mis datos y los datos obtenidos del problema ¿Qué tipo de prueba voy a utilizar?

5.Evaluación de los supuestos

  • ¿Qué necesito cumplir para poder utilizar la prueba?
  • ¿Mis datos cumplen con los supuestos?
  • Si no se cumplen debo seleccionar otra prueba
  1. Regla de decisión:¿Que voy a considerar como mi valor crítico?¿Cual es mi zona de rechazo o aceptación?
  2. Estadístico de prueba: Determinar el valor de mi estadístico de prueba
  3. Decisión: ¿Acepto o rechazo?
  4. Conclusión

Los puntos anteriores fueron revisados en la presentación de clase sobre la prueba de hipótesis para la comparación de una media

Tome en cuenta que no en todos los ejercicios se podrán realizar todos los puntos.

Para el resto de los ejercicios (del 15.4 al 15.6) solamente entregue lo que se le solicita

Exercise 3 Evans et al. realizaron un estudio para determinar si la frecuencia y las características de los problemas geriátricos en pacientes de la tercera edad enfermos de diabetes presentan diferencias con respecto a pacientes de la misma edad pero sin diabetes. Los individuos estudiados, internados en una clínica, tenían de 70 a 90 años de edad. Entre los hallazgos de los investigadores están las siguientes estadísticas con respecto a las calificaciones en las medidores de los reflejos tendinosos profundos:

Grupo \(n\) Media \(sd\)
Sin diabetes 79 2.1 1.1
Con diabetes 74 1.6 1.2

Se pretende saber si es posible concluir, con base en los datos, que, en promedio, los pacientes diabéticos tienen reflejos tendinosos profundos reducidos en comparación con pacientes sin diabetes de la misma edad. Utilice \(\alpha=0.01\).

Resuelva este problema asumiendo que: a) Las muestras tienen varianzas iguales b) Las muestras no tienen varianzas iguales (este inciso no es obligatorio, pero es preferible que lo resuelva)

Exercise 4 Un estudio de los investigadores Hommes et al. tiene dos propósitos: 1) investigar si el gasto de energía en reposo aumenta en la etapa primaria, sin síntomas de infección de VIH, y 2) estudiar las contribuciones relativas de la oxidación de carbohidratos de grasas durante el gasto de energía en reposo en los pacientes. Los individuos estudiados eran 11 pacientes externos varones infectados de VIH, que no presentaban síntomas y cuyas edades eran entre 23 y 50 años. El grupo de control estaba formado por 11 voluntarios varones sanos, con edades entre 25 y 51 anos, que resultaron físicamente normales en sus exámenes y expedientes médicos. Entre los hallazgos se tienen las estadísticas respecto a la medición del gasto de energía en reposo.

Grupo Media \(sd\)
Individuos con VIH 7116 173
Individuos de control 7058 205

¿Ofrecen estos datos suficiente evidencia que permita concluir que el gasto de energía en reposo aumenta durante la primera etapa, cuando no hay síntomas presentes de la infección de VIH? Utilice \(\alpha=05\). Asuma igualdad de varianzas.

Ejercicio tomado de BIOESTADÍSTICA, 4A ED Daniel , Wayne W.

Exercise 5 Frigerio et al. midieron la energía consumida en 32 mujeres de Gambia. Dieciséis de los individuos estudiados eran mujeres en periodo de lactancia (L) y el resto eran mujeres no embarazadas que no estaban en etapa de lactancia (NENL). Se reportaron los siguientes datos:

Para el grupo de mujeres en periodo de lactancia:

5289, 6209, 6054, 6665, 6343, 7699, 5678, 6954, 6916, 4770, 5979, 6305, 6502, 6113, 6347, 5657

Para el grupo de mujeres que no estaban en etapa de lactancia

9920, 8581, 9305, 10765, 8079, 9046, 7134, 8736, 10230, 7121, 8665, 5167, 8527, 7791, 8782, 6883

¿Proveen estos datos suficiente evidencia que permita concluir que las poblaciones muestreadas difieren respecto a la media de consumo de energía? Utilice \(\alpha=0.05\). Asuma igualdad de varianzas. Además obtenga un gráfico de caja y bigotes con los datos de cada grupo. Compruebe sus resultados utilizando la función de t.test.

Ejercicio adaptado de BIOESTADÍSTICA, 4A ED Daniel , Wayne W.

Exercise 6 Utilizando la base de datos “Pima.tr” describa si hay diferencias en los niveles de glucosa, la presión arterial, en sikin, índice de masa corporal, en ped y edad entre las mujeres con diabetes y las mujeres sin diabetes. Para este problema utilice únicamente la función t.test de R no realice la prueba de hipótesis por pasos. Para cada una de las variables entregue los siguiente:

  1. Realice un boxplot para cada variable agrupadando entre las mujeres con diabetes y sin diabetes
  2. Realice un gráfico de violín para cada variable agrupando entre mujeres con diabetes y sin diabetes
  3. Realice un gráfico de plotmeans para cada variable agrupando entre mujeres con diabetes y sin diabetes
  4. Resultado de la prueba \(t-student\)
  5. Conclusión

Se muestran solo resultados para glucosa

# Importar base
library(MASS)
data("Pima.tr")
# Gráficos
## Boxplot
boxplot(Pima.tr2$glu~Pima.tr2$type, # Datos
        lwd = 2, # Lines width
        col = c("#76EEC6", "#FFE4C4"), # Color
        xlab = "Grupos",  # X-axis label
        ylab = "Concentraciones de glucosa",  # Y-axis label
        main = "Comparación de la glucosa entre muejeres de Pima sin y con diabetes", # Title
        border = "black",  # Boxplot border color
        outpch = 25,       # Outliers symbol
        outbg = "green",   # Outliers color
        whiskcol = "blue", # Whisker color
        whisklty = 2,      # Whisker line type
        names=c("Muejeres sin diabetes", "Muejres con diabetes"), #Nombres de los grupos
        lty = 1) # Line type (box and median)

# Gráficos
## Violín
vioplot::vioplot(Pima.tr2$glu~Pima.tr2$type, # Datos
        col = c("#76EEC6", "#FFE4C4"), # Color
        xlab = "Grupos",  # X-axis label
        ylab = "Concentraciones de glucosa",  # Y-axis label
        main = "Comparación de la glucosa entre \n mujeres de Pima sin y con diabetes", # Title
        names=c("Muejeres sin diabetes", "Muejres con diabetes"))

# Graficos
## Plot means
gplots::plotmeans(Pima.tr2$glu~Pima.tr2$type, # Datos
        ylab = "Concentraciones de glucosa",  # Y-axis label  
        xlab = "Grupos de estudio",
        main = "Comparación de la glucosa entre \n muejeres de Pima sin y con diabetes", # Title
        )

# Evaluación de la homgenidad de varianzas
car::leveneTest(Pima.tr2$glu~Pima.tr2$type)
Levene's Test for Homogeneity of Variance (center = median)
       Df F value  Pr(>F)  
group   1  4.2982 0.03901 *
      298                  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
t.test(Pima.tr2$glu~Pima.tr2$type, var.equal=F)

    Welch Two Sample t-test

data:  Pima.tr2$glu by Pima.tr2$type
t = -9.162, df = 191.43, p-value < 2.2e-16
alternative hypothesis: true difference in means between group No and group Yes is not equal to 0
95 percent confidence interval:
 -36.88061 -23.81400
sample estimates:
 mean in group No mean in group Yes 
         113.0206          143.3679 

Exercise 7 Utilizando la base de datos “Pima.tr” describa si hay diferencias en los niveles de glucosa, la presión arterial entre las mujeres con más de 40 años y las que mujeres con 40 años o menos.

Exercise 8 La base de datos “SLE dataset1” es una base de datos publica que se utilizó una publicación en la que se intentó asociar las concentraciones de adipocinas con la nefritis lúpica y los valores de proteinuria en pacientes con Lupus Eritematoso Sistémico. La base “SLE dataset1” es un libro de Excel con varias hojas:

  1. DATASET PONE-D-17-14360R1: Contiene todos los datos y mediciones de los pacientes
  2. VARIABLES INFORMATION: Contiene una descripción breve de las variables de la hoja anterior. Puede encontrar más información en: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0184056

Utilizando la base de datos SLE dataset1.xls que puede descargar en el siguiente link replique los resultados de la tabla 2 del articulo: Serum levels of adiponectin and leptin as biomarkers of proteinuria in lupus nephritis. La tabla deberá de incluir estadística descriptiva y pruebas de hipótesis tanto para variables cualitativas como cuantitivas. Asuma estadística paramétrica

:::{.callout-note collapse=“true” icon=“false” appearance=“simple” }

Resolución ejercicio Exercise 8

## Importar base
df <- readxl::read_excel("Bases/SLE dataset1.xlsx", sheet = "DATABASE PONE-D-17-14360R1", na=c("-1.00"))

Prueba t para variables dependientes

Un método que se utiliza con frecuencia para averiguar la eficacia de un tratamiento o procedimiento experimental es aquel que hace uso de observaciones relacionadas que resultan de muestras no independientes.

  • Mediciones a través del tiempo
  • Dos mediciones en el mismo sujeto
  • Diseño cruzados

En estos casos la prueba de hipótesis más adecuada es la prueba t de student para muestras pareadas. Dado que se trabaja con la diferencia de las medias, no es necesario realizar prueba de homogeneidad de varainzas. !Es la misma muestra!

La estimación del estadístico t, se basa en el siguiente formula donde:

\[ t= \frac{\bar{d}- \mu d_0}{s_{\bar{d}}} \]

Donde:

  • \(\bar{d}\) es la diferencia de la media muestral
  • \(\mu d_0\) es la diferencia de la media poblacional supuesta
  • \(s_{\bar{d}}\) es la desviación estándar de las diferencias divida entre la raíz de \(n\), es decir, \(\frac{s_d}{\sqrt{n}}\)

Vamos a resolver un ejemplo

Ejercicio práctico para la prueba t student para muestras pareadas

Example 1 Nancy Stearns Burgess condujo un estudio para determinar la perdida de peso, la composición corporal, la distribución de grasa corporal y la tasa metabólica en reposo en individuos obesos antes y después de 12 semanas de tratamiento con dieta muy baja en calorías (DMBC), y comparar la hidrodensitometría con el análisis de impedancia bioeléctrica. Los 17 individuos (nueve mujeres y ocho hombres) que participaron en el estudio eran pacientes externos de un programa de tratamiento con base hospitalaria para la obesidad. Los pesos de las mujeres antes y después del tratamiento de 12 semanas de DMBC se muestran en dos objetos. Se pretende saber si estos datos ofrecen suficiente evidencia que permita concluir que el tratamiento es eficaz para reducir el peso en mujeres obesas.

Se crean dos objetos para ello:

antes<-c(117.3, 111.4,98.6,104.3,105.4,100.4, 81.7,89.5,78.2)
despues<-c(83.3,85.9,75.8,82.9,82.3,77.7,62.7,69.0,63.9)

Tratamos de probar si:

  • Lo que se busca es saber si existe la suficiente evidencia para concluir que el programa de dietas es eficaz.
  • Si es posible rechazar la hipótesis nula que indica que el cambio en la media de la población \(\mu_d\) es cero o positivo.

Podemos graficar, el siguiente código tiene objetivo mostrar todos los argumentos de la función boxplot, usted puede copiar y pegar o hacer un gráfico más sencillo:

boxplot(antes, despues, # Datos
        horizontal = FALSE, # Horizontal or vertical plot
        lwd = 2, # Lines width
        col = c("#76EEC6", "#FFE4C4"), # Color
        xlab = "Grupos",  # X-axis label
        ylab = "Peso",  # Y-axis label
        main = "Comparación del peso antes y después de la intervención", # Title
        border = "black",  # Boxplot border color
        outpch = 25,       # Outliers symbol
        outbg = "green",   # Outliers color
        whiskcol = "blue", # Whisker color
        whisklty = 2,      # Whisker line type
        names=c("Peso antes", "Peso despues"), #Nombres de los grupos
        lty = 1) # Line type (box and median)

Para realizar la prueba t, puede emplear el siguiente código:

t.test(x=antes, y=despues, alternative = "greater", 
       paired = T, var.equal = T)

    Paired t-test

data:  antes and despues
t = 12.74, df = 8, p-value = 6.787e-07
alternative hypothesis: true mean difference is greater than 0
95 percent confidence interval:
 19.29166      Inf
sample estimates:
mean difference 
       22.58889 

Note como el grupo 1 es el peso antes y el grupo 2 es el peso después, por lo tanto la hipótesis que buscamos probar es:

\[H_0= \mu_{antes} >= \mu_{después}\] \[H_a= \mu_{antes} < \mu_{después}\] Si la elección de los grupos fuera a la inversa, es decir, si el grupo 1 fuera el peso después y el grupo 2 fuera el peso antes. Las hipótesis deberían plantearse al revés que la descrita anterioremente y el argumento alternative debería ser less

En el caso que nuestra hipótesis sea a dos colas, en R debe de plantearse:

t.test(x=antes, y=despues, alternative = "two.sided", 
       paired=T, var.equal = T)

    Paired t-test

data:  antes and despues
t = 12.74, df = 8, p-value = 1.357e-06
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
 18.50003 26.67775
sample estimates:
mean difference 
       22.58889 

Note que el único argumento que se debe de cambiar para indicarle a R que la muestra es pareada es: paired=T. Este argumento precisamente, nos permite diferenciar entre una prueba \(t\) para muestras independientes.

Prueba t desde una base datos

Lo primero es organizar los datos del peso antes y peso después en una base de datos:

antes<-c(117.3, 111.4,98.6,104.3,105.4,100.4, 81.7,89.5,78.2)
despues<-c(83.3,85.9,75.8,82.9,82.3,77.7,62.7,69.0,63.9)
# Crear un df para poder utilizar la función como fórmula
Medicion <- rep(x=c("antes", "despues"), each=9, times=1)
Peso <- c(antes, despues)
df <- data.frame(Medicion,Peso)

Para realizar la prueba t para muestras pareadas utilizamos el siguiente código:

t.test(df$Peso~df$Medicion, paired=T)

    Paired t-test

data:  df$Peso by df$Medicion
t = 12.74, df = 8, p-value = 1.357e-06
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
 18.50003 26.67775
sample estimates:
mean difference 
       22.58889 

Ejercicios prueba t pareada

Utilizando las base de datos “Base_Prueba_t_pareada” que se encuentra adjunta a esta a tarea o que puede descargar de la carpeta de bases de datos, resuelva los ejercicios utilizando la función t.test. Además, realice gráficos de caja y bigotes y concluya en cada uno de los ejercicios.

La “Base_Prueba_t_pareada” es una base de datos que contiene la mediciones de adipocinas en pacientes con insuficiencia hepática. Contiene mediciones de estas adipocinas séricas a distintos tiempos: Basales, 3 meses, 6 y 12 meses. Puede descargar la base de datos aquí

Exercise 9 ¿Existe evidencia para demostrar que los pacientes con insuficiencia hepática presentaron algún cambio entre las mediciones basales de leptina (Leptin) y las mediciones de leptina a los 12 meses (Leptin12M)?

  1. Realice los gráficos adecuados
  2. Realice la pruea de hipótesis pertinente para responder la pregunta

Exercise 10 Los investigadores asignaron una intervención para reducir las concentraciones de adiponectina en los pacientes con insuficiencia hepática, para ello realizaron mediciones basales de esta adipocina (Adiponectin) y mediciones a los 6 meses (Adiponectin6M) y a los 12 meses (Adiponectin12M). ¿Pueden concluir los investigadores que se presentó una disminución de las concentraciones séricas de adiponectina?

  1. Realice los gráficos adecuados
  2. Realice la pruea de hipótesis pertinente para responder la pregunta

Exercise 11 Los investigadores a cargo del estudio realizaron la medición de un biomarcador que se asocia a una enfermedad más grave en los pacientes con insuficiencia hepática, se ha validado que a mayores concentraciones de este biomarcador se presenta una enfermedad más grave. ¿Existe evidencia para demostrar que los pacientes empeoraron a los 6 meses y a los 12 meses con respecto a la medición basal?. La variable “Biomarcador” tiene las mediciones basales del biomarcador de interés. Mientras que variables “Biomarcador6M” y “Biomarcador12M” las mediciones a los 6 y 12 meses

  1. Realice los gráficos adecuados
  2. Realice la pruea de hipótesis pertinente para responder la pregunta

Librería ggsataplot

Una de las librerías más potentes para visualizar datos y hacer pruebas de hipótesis es ggstatplot. Esta liberería es es una extensión del paquete ggplot2 para crear gráficos con detalles de pruebas estadísticas incluidas en los propios gráficos ricos en información. Puede consultar un poco más de información aquí

Para instalar la librería utilice el siguiente código:

install.packages("ggstatsplot")

El código que utiliza ggstatplot es código que está basado en tydiverse, por lo que pudiera resultarle un poco diferente, al código clásico de R.

Supongamos que es de nuestro interés comparar la edad entre al pacientes con y sin diabetes de Pyma utilizando la base de datos Pima.tr2, el código para realizar esta prueba t de student de muestras independientes sería:

# Importar baese
library(MASS)
data("Pima.tr2")
ggstatsplot::ggbetweenstats(
  data=Pima.tr2,
  x="type", # el nombre de la variable que quiere colocar en el eje de las x, debe ser un factor y utilizar comillas
  y= "age", # Nombre de la variable cuantitativa en comillas
  type = "parametric" # Para indicar que la prueba que necesitamos es una prueba paramétrica
)

Si el factor tiene más de dos niveles, la función devolverá ANOVA. Note como la información que proporciona incluye: - Valor del estadístico t - Intervalos de confianza - Valor de p - Tamaño del efecto - Estadística bayesiana

Si fuera de nuestro interés realizar una prueba pareada, por ejemplo el peso antes y el peso después, el código sería:

ggstatsplot::ggwithinstats(
  data    = df,
  x       = Medicion,
  y       = Peso,
  title   = "Comparación del peso antes y después"
)

Exercise 12 Resuelva los ejercicios del Exercise 6 al Exercise 11 utilizando la librería ggstatsplot