Prueba de hipótesis para la media de una población

Bioestadística
Posgrados CUCS/UDG

4/26/23

Contenido

  • Prueba de hipótesis para media de una sola población
    • Usando Z-test (Distribución normal con varianza poblacional conocida)

\(Z-test\). Distribución normal y varianza poblacional conocida

Z-test ¿Qué es?

  • Cuando se tiene una población con distribución normal (o aproximada a la normal) y se conoce la varianza es posible emplear el estadístico \(Z\) para la prueba de hipótesis.

  • Se parte del supuesto que \(H_0: \mu= \mu_0\)

  • El estadístico de prueba es:

\[z= \frac{ \bar{x}- \mu_0}{\sigma/ \sqrt{n}}\]

  • Se utiliza relativamente poco ya que requiere de conocer la varianza de la población.

Ejemplo práctico 1. Z-test

Un grupo de investigadores desean conocer la edad media de cierta población. Saben por estudios anteriores, que la edad de los individuos en la población se distribuye normalmente con \(\sigma^2=27\). Para iniciar su estudio se preguntan ¿Si la media de edad de la población es diferente de 30?. Los investigadores quieren realizar su estudio con un 95% de confianza

Ejemplo práctico 1. Z-test

Los investigadores tomaron una muestra 50 sujetos con las siguiente edades:

edades: 19, 29, 41, 18, 55, 24, 52, 41, 37, 41, 31, 50, 40, 39, 46, 44, 54, 42, 47, 36, 50, 26, 39, 51, 41, 37, 35, 49, 44, 19, 35, 36, 47, 30, 47, 30, 30, 22, 34, 45, 24, 25, 22, 43, 47, 39, 55, 55, 50, 39

Se sabe por experiencia que los datos provienen de una población aproximadamente normal.

Ejemplo práctico 1. Z-test. Solución

  1. Pregunta. ¿Qué buscamos?
  2. Datos: Comprender los datos, formular hipótesis y hacer estadística descriptiva
  3. Supuestos: ¿Los datos siguen una distribución normal?
  4. Hipótesis: Formular las hipótesis estadísticas
  5. Estadística de prueba: ¿Qué tipo de prueba voy a utilizar?
  6. Regla de decisión:¿Que voy a considerar como mi valor crítico?¿Cual es mi zona de rechazo o aceptación?

Ejemplo práctico 1. Z-test. Solución

  1. Estadístico de prueba:Determinar el valor de mi estadístico de prueba
  2. Decisión: ¿Acepto o rechazo?
  3. Conclusión
  4. Valor de \(p\)

Ejemplo práctico 1. Z-test

Paso 1. Pregunta

Deseamos conocer si:

¿Si la media de edad de la población es diferente de 30?

Ejemplo práctico 1. Z-test

Paso 2. Datos

  • ¿Qué datos tenemos disponibles?
    • \(\sigma^2=27\)
    • \(n=50\)
    • Población normal
  • ¿Qué características tienen mis datos?
    • Estadística descriptiva

Ejemplo práctico 1. Z-test

Paso 2. Datos

Estadística descriptiva

edades<-c(32, 44, 35, 40, 42, 31, 38, 27, 23, 30, 39, 
          20, 30, 43, 26, 23, 22, 20, 36, 35, 25, 27, 
          27, 43, 22, 30, 26, 27, 32, 41, 42, 30, 43, 
          22, 42, 24, 22, 30, 27, 45, 26, 29, 45, 32, 
          31, 38, 25, 37, 31, 44)# Objeto con las edades
summary(edades)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  20.00   26.00   30.50   32.02   38.75   45.00 

Ejemplo práctico 1. Z-test

Gráficos. Ejemplo 1

hist(edades, main = "Gráfico de las edades. Ejemplo 1")

Ejemplo práctico 1. Z-test

Ejemplo práctico 1. Z-test

plot(density(edades, main = "Gráfico de las edades. Ejemplo 1"))

Ejemplo práctico 1. Z-test

Ejemplo práctico 1. Z-test

Gráficos. Ejemplo 1

boxplot(edades , main = "Gráfico de las edades. Ejemplo 1")

Ejemplo práctico 1. Z-test

Ejemplo práctico 1. Z-test

Paso 3. Supuestos

  • Para poder realizar una prueba de hipótesis debemos apegarnos a ciertos supuestos
  • En este caso podemos suponer que:
    • Los datos vienen de una población con distribución normal. Significa que podemos utilizar estadísticos que se basan en una distribución normal. Esto lo especifica el problema
    • Se conoce el valor de la varianza poblacional por lo tanto se puede emplear el estadístico Z

Ejemplo práctico 1. Z-test

Paso 4. Hipótesis

  • \(H_0: \mu=30\).
  • \(H_A: \mu \neq 30\). Es una hipótesis bilateral, lo único que nos interesa es que la \(\mu\) sea diferente de 30 (ya sea menor o mayor)

Ejemplo práctico 1. Z-test

Paso 5. Estadístico de prueba

  • En este paso debemos de definir con base a los pasos anteriores que estadístico de prueba vamos a necesitar.
  • Nos puede ayudar:
    • ¿Que vamos comparar?
    • ¿Qué vamos a probar?
    • ¿Qué datos conozco de la población?
    • ¿Son datos normales?

Necesitamos Z

Ejemplo práctico 1. Z-test

Paso 6. Regla de decisión

  • En este punto debemos de definir ¿Qué valores consideraremos para aceptar o rechazar nuestra \(H_0\)?
  • Del problema podemos deducir que:
    • Hipótesis bilateral (solo nos interesa que sea diferente de 30)
    • \(\alpha=0.05\). Los investigadores quieren realizar su estudio con un 95% de confianza
      • el \(\alpha=0.05\) es el valor que se utiliza habitualmente

¿Qué es \(\alpha\)?

  • El nivel de significancia, también denotado como alfa o α, es la probabilidad de rechazar la hipótesis nula cuando es verdadera.
  • Cuando se toma la decisión de rechazar o no la Hipótesis Nula podemos acertar o cometer errores. La probabilidad de cometer errores de tipo I es \(\alpha\). Es la probabilidad de rechazar la hipótesis nula cuando es verdadera.

¿Qué es \(\alpha\)?

  • Es la probabilidad de ocurrencia de los valores del estadístico en la región de rechazo cuando la Hipótesis Nula es verdadera.
  • El valor de alfa, también denominado nivel de significación, es definido por el investigador antes de recoger los datos, y la costumbre es hacer alfa=0.05 o alfa=0.01

Ejemplo práctico 1. Z-test

Paso 6. Regla de decisión

  • ¿Qué rechazamos y qué aceptamos?

  • Dado que elegimos \(\alpha=0.05\) y dado que nuestra hipótesis es bilateral buscamos en tablas el valor \(Z\) adecuado.

  • En r lo podemos estimar con la función qnorm

qnorm(0.025)#para la cola superior
[1] -1.959964
qnorm(0.025, lower.tail = F)# para la cola inferior
[1] 1.959964
  • El valor con el que nos vamos a comparar es 1.96 y -1.96

Ejemplo práctico 1. Z-test

Paso 6. Regla de decisión

Ejemplo 1 Para Z-test

Ejemplo 1 Para Z-test

Paso 7. Calcular estadístico con los datos de prueba

  • Para este punto nos basamos en la formula:
\(z= \frac{ \bar{x}- \mu_0}{\sigma/ \sqrt{n}}\)
  • Sustituyendo con los datos del Ejemplo 1
\(z= \frac{ mean(edades)-30}{\sqrt{27/50}}\)

Ejemplo 1 Para Z-test

Paso 7. Calcular estadístico con los datos de prueba

\(z= \frac{ mean(edades)-30}{\sqrt{27/50}}\)
  • Da como resultado: 2.7488718
  • El código en R es:
(mean(edades)-30)/sqrt(27/50)
[1] 2.748872

Ejemplo práctico 1. Z-test

Paso 8. Decisión

Con base en la regla de decisión, se puede rechazar la hipótesis nula porque 2.7489 está en la región de rechazo. Se puede decir que el valor calculado de la prueba estadística tiene un nivel de significación de .05 a dos colas

El valor que estimamos es mayor al valor de referencia de tablas

Ejemplo práctico 1. Z-test

Paso 8. Decisión

plot(density(rnorm(1000000, mean=0, sd=1)), main="Gráfico para la zona de rechazo")
legend(x="topleft", legend = "Zona aceptación lineas rojas y 
       la linea verde estadístico obtenido")
abline(v=1.96, col="red", lw=4)
abline(v=-1.96, col="red", lw=4)
abline(v=2.7489, col="green", lw=4)

Ejemplo práctico 1. Z-test

Paso 8. Decisión

Ejemplo práctico 1. Z-test

Paso 8. Decisión

Ejemplo práctico 1. Z-test

Paso 8. Decisión

y <- (rnorm(10000000, mean=0, sd=1))
den <- density(y)
plot(den,  main="Regla de decisión ejemplo práctico 1", xlab="Valores de Z")
value <- 1.96
polygon(c(den$x[den$x >= value ], value),
        c(den$y[den$x >= value ], 0),
        col = "slateblue1",
        border = 1)
value <- -1.96
polygon(c(den$x[den$x <= value ], value),
        c(den$y[den$x <= value ], 0),
        col = "slateblue1",
        border = 1)
legend(x="topleft", legend = "Zona aceptación zona blanca y 
       la linea verde estadístico obtenido")
abline(v=2.7489, col="green", lw=4)

Ejemplo práctico 1. Z-test

Paso 9. Conclusión

Con un 95% de confianza podemos decir que la media es distinta de 30

Ejemplo práctico 1. Z-test

Paso 10. Valor de p

  • Podemos estimar la probabilidad de encontrar en nuestra población el valor de \(Z\) estimado.
  • Este valor lo podemos obtener de tablas
  • En r lo podemos calcular con la función pnorm
pnorm(2.7489, lower.tail = F)# para el valor de la cola superior.
[1] 0.002989781
pnorm(-2.7489, lower.tail = T)# para la cola inferior
[1] 0.002989781

Ejemplo práctico 1. Z-test

Paso 10. Valor de p

  • Dado que nuestra hipótesis es bilateral debemos de sumar las dos probabilidades
  • Nos da como resultado: 0.0059796
  • Podemos decir que en nuestra población la probabilidad de encontrar una media igual a 30 es de 0.0059796
  • Podemos decir los resultados observados se deben al azar en 0.5979563%

Ejemplo práctico 1. Z-test

Paso 10. Valor de p

Si el valor \(p\) es menor o igual que \(\alpha\), es posible rechazar la hipótesis nula; si el valor p es mayor que \(\alpha\) no es posible rechazar la hipótesis nula.

Ejemplo práctico 2. Z-test

Otro grupo de investigadores decidió replicar el estudio con el siguiente conjunto de datos:

edades2<-c(25, 29, 26, 34, 34, 35, 34, 29, 27, 
           31, 35, 35, 34, 33, 29, 33, 30, 30, 
           26, 33, 27, 26, 30, 25, 28, 32, 27, 
           30, 27, 35, 32, 33, 25, 29, 30, 32, 
           34, 33, 32, 27, 33, 32, 25, 33, 34, 
           27, 29, 34, 32, 32)

Ejemplo práctico 2. Z-test

Pasos del 1 al 6

Todos los pasos del 1 al 5 son iguales al problema anterior

Ejemplo práctico 2. Z-test

Paso 6. Calcular estadístico con los datos de prueba

  • Para este punto nos basamos en la formula:
\(z= \frac{ \bar{x}- \mu_0}{\sigma/ \sqrt{n}}\)
  • Sustituyendo con los datos del Ejemplo 2
\(z= \frac{ mean(edades2)-30}{\sqrt{27/50}}\)
  • Da como resultado: 0.7348469

Ejemplo práctico 2. Z-test

Paso 8. Decisión

Ejemplo práctico 2. Z-test

Paso 8. Decisión

Con base en la regla de decisión, NO existen argumentos para rechazar la \(H_0\) 0.73 está en la región de aceptación.

El valor que estimamos es mayor al valor de referencia de tablas

Ejemplo práctico 2. Z-test

Paso 9. Conclusión

No existen argumentos para decir que la media es distinta de 30 con un 95% de confianza

Ejemplo práctico 2. Z-test

Paso 10. Valor de p

  • Podemos estimar la probabilidad de encontrar en nuestra población el valor de \(z\) estimado.
  • Este valor lo podemos obtener de tablas
  • En r lo podemos calcular con la función pnorm
pnorm(0.74, lower.tail = F)# para el valor de la cola superior. 
[1] 0.22965
pnorm(-0.74)# para la cola inferior
[1] 0.22965

Hipótesis unilateral

  • Si la hipótesis es unilateral no se divide el valor de \(\alpha\)
  • Nuestro criterio de rechazo quedaría en uno de los lados de la curva

Ejemplo práctico 3. Hipótesis unilateral

  • Los investigadores ahora desean saber si la media de la edad es mayor a 30.
  • El criterio de rechazo quedaría:

Ejemplo práctico 3. Hipótesis unilateral

Ejemplo práctico 3. Hipótesis unilateral

  • Ahora el estadístico con el que nos vamos a comparar es: \(z=1.64\) que corresponde a la cola superior con un \(\alpha=0.05\)
  • En R lo podemos calcular de la siguiente manera:
qnorm(0.05, lower.tail = F)
[1] 1.644854

Ejemplo práctico 3. Hipótesis unilateral

Paso 8. Decisión

Ejemplo práctico 3. Hipótesis unilateral

  • Con base en la regla de decisión, podemos rechazar la \(H_0\)

  • Existe evidencia con un 95% de confianza de que la media es mayor que 30

  • El valor de \(p\) quedaría repartido en un solo lado

pnorm(2.7489, lower.tail = F)
[1] 0.002989781

Ejemplo práctico 3. Hipótesis unilateral

  • ¿Y si buscáramos que nuestra media fuera menor de 30?
    • \(H_A: \mu<30\)

Ejemplo práctico 3. Hipótesis unilateral \(H_A: \mu<30\)

¿Cómo hacerlo en R?

install.packages("BSDA")
  • Se utiliza la función:z.test(x, y = NULL, alternative = "two.sided", mu = 0, sigma.x = NULL, sigma.y = NULL, conf.level = 0.95)

¿Cómo hacerlo en R?

Argumentos z.test

  • x
    • numeric vector; NAs and Infs are allowed but will be removed.
  • y
    • numeric vector; NAs and Infs are allowed but will be removed.

¿Cómo hacerlo en R?

Argumentos z.test

  • alternative
    • character string, one of “greater”, “less” or “two.sided”, or the initial letter of each, indicating the specification of the alternative hypothesis.

¿Cómo hacerlo en R?

Argumentos z.test

  • mu
    • a single number representing the value of the mean or difference in means specified by the null hypothesis
  • sigma.x
    • a single number representing the population standard deviation for x

¿Cómo hacerlo en R?

Argumentos z.test

  • sigma.y
    • a single number representing the population standard deviation for y
  • conf.level
    • confidence level for the returned confidence interval, restricted to lie between zero and one

¿Cómo hacerlo en R?

Ejemplo práctico 3. Prueba Z en R.

z.test(edades, alternative = "two.sided", mu=30, sigma.x = sqrt(27))

    One-sample z-Test

data:  edades
z = 2.7489, p-value = 0.00598
alternative hypothesis: true mean is not equal to 30
95 percent confidence interval:
 30.57973 33.46027
sample estimates:
mean of x 
    32.02 

¿Cómo hacerlo en R?

Ejemplo práctico 3. Prueba Z en R.

Si buscamos \(H_A: \mu>30\)

z.test(edades, alternative = "greater", mu=30, sigma.x = sqrt(27))

    One-sample z-Test

data:  edades
z = 2.7489, p-value = 0.00299
alternative hypothesis: true mean is greater than 30
95 percent confidence interval:
 30.81128       NA
sample estimates:
mean of x 
    32.02 

¿Cómo hacerlo en R?

Ejemplo práctico 4. Prueba Z en R.

z.test(edades2, alternative = "two.sided", mu=30, sigma.x = sqrt(27))

    One-sample z-Test

data:  edades2
z = 0.73485, p-value = 0.4624
alternative hypothesis: true mean is not equal to 30
95 percent confidence interval:
 29.09973 31.98027
sample estimates:
mean of x 
    30.54