Diseño Experimental

PRUEBAS NO PARAMÉTRICAS

María Victoria López

Facultad de Ciencias Agrarias
Universidad Nacional de Jujuy
16/10/2024

Cátedra de Bioestadística y Diseño Experimental. Equipo docente responsable. Año 2024.

  • Ing. Agr. Jorge Quiquinto, prof. Asociado, dedicación exclusiva.

  • Ing. Agr. Marta Leaño1, prof. Adjunta, dedicación exclusiva (*).

  • Ing. Agr. Juan Manuel Solís2, Jefe de Trabajos Prácticos, dedicación exclusiva (*).

  • Ing. Agr. Ivone Humacata, Jefe de Trabajos Prácticos, dedicación exclusiva.

  • Srta. Victoria López3, Ayudante de 2da, dedicación simple (*).

  • Sr. Daniel Vilca, Ayudante de 2da, dedicación simple.

    (*) Equipo responsable del curso Diseño Experimental 2024.

Pregunta de investigación

Sí varios grupos \((n>2)\) de muestras difieren entre sí

Prueba estadística

Comparación de las medias de más de dos grupos

Prueba ANOVA (paramétrico): extensión de la prueba t para comparar más de dos grupos

Comparación de las medianas de más de dos grupos

Prueba de suma de rangos de Kruskal-Wallis (no paramétrica): extensión de la prueba de rangos de Wilcoxon para comparar más de dos grupos

Supuestos de las pruebas estadísticas

Los datos se distribuyen normalmente

Las varianzas de los grupos que se van a comparar son homogéneas (iguales)

Antes de utilizar una prueba paramétrica, deben realizarse algunas pruebas preliminares para asegurarse de que se cumplen los supuestos de la prueba

En las situaciones en las que no se cumplen los supuestos, se recomiendan las pruebas no paramétricas

SITUACION

En un estudio de calidad de agua, se desea evaluar si existen diferencias significativas en la materia orgánica total en tres afluentes: Archibarca, Cerro Overo y Rosario del salar de Olaroz, ubicado en el departamento de Susques, a \(270\,km\) al oeste de la ciudad de San Salvador de Jujuy, Argentina. Para ello, en cada sitio de muestreo se tomaron muestras de sedimento (\(500\,mg\)) con un núcleo de PVC (tubo de muestreo para sedimentos blandos) (área \(0,002\,m^2\)) para realizar mediciones indirectas de la materia orgánica total a través del contenido total de carbono orgánico, siguiendo el método propuesto por Nelson y Sommers (1982). A continuación se muestran los resultados obtenidos.

DATOS

afluentes MOT
Archibarca 1.40
Archibarca 2.16
Archibarca 0.74
Archibarca 0.86
Archibarca 1.13
Archibarca 1.75
Archibarca 1.86
Archibarca 1.16
Archibarca 2.36
Archibarca 1.46
Archibarca 0.98
Archibarca 1.14
Cerro Overo 4.14
Cerro Overo 2.25
Cerro Overo 2.16
Cerro Overo 2.45
Cerro Overo 2.56
Cerro Overo 2.36
Cerro Overo 2.78
Cerro Overo 2.69
Cerro Overo 3.16
Cerro Overo 2.48
Cerro Overo 2.63
Cerro Overo 2.59
Rosario 1.10
Rosario 1.05
Rosario 1.15
Rosario 0.60
Rosario 1.11
Rosario 0.63
Rosario 0.89
Rosario 0.75
Rosario 1.03
Rosario 1.06
Rosario 1.09
Rosario 0.55

IMPORTACION DE DATOS

library(readxl)
datos = read_excel(file.choose())
datos
afluentes MOT
Archibarca 1.40
Archibarca 2.16
Archibarca 0.74
Archibarca 0.86
Archibarca 1.13
Archibarca 1.75
Archibarca 1.86
Archibarca 1.16
Archibarca 2.36
Archibarca 1.46
Archibarca 0.98
Archibarca 1.14
Cerro Overo 4.14
Cerro Overo 2.25
Cerro Overo 2.16
Cerro Overo 2.45
Cerro Overo 2.56
Cerro Overo 2.36
Cerro Overo 2.78
Cerro Overo 2.69
Cerro Overo 3.16
Cerro Overo 2.48
Cerro Overo 2.63
Cerro Overo 2.59
Rosario 1.35
Rosario 1.15
Rosario 1.15
Rosario 0.60
Rosario 1.11
Rosario 0.63
Rosario 1.89
Rosario 0.75
Rosario 1.03
Rosario 1.06
Rosario 1.09
Rosario 0.55

NORMALIDAD

modelo = lm(MOT ~ afluentes, data = datos)
shapiro.test(resid(modelo))

    Shapiro-Wilk normality test

data:  resid(modelo)
W = 0.91114, p-value = 0.006981

HOMOCEDASTICIDAD

modelo = lm(MOT ~ afluentes, data = datos)
bartlett.test(resid(modelo),
              datos$afluentes)

    Bartlett test of homogeneity of variances

data:  resid(modelo) and datos$afluentes
Bartlett's K-squared = 1.4399, df = 2, p-value = 0.4868
library(car)
leveneTest(resid(modelo),
           datos$afluentes,
           center = mean)
Levene's Test for Homogeneity of Variance (center = mean)
      Df F value Pr(>F)
group  2  0.7185  0.495
      33               

¿El modelo es válido?

Prueba de Kruskal-Wallis

PRUEBA ESTADISTICA

kruskal.test(datos$MOT, datos$afluentes)

    Kruskal-Wallis rank sum test

data:  datos$MOT and datos$afluentes
Kruskal-Wallis chi-squared = 24.185, df = 2, p-value = 5.601e-06

¿Existen diferencias significativas entre los afluentes?

COMPARACIONES MULTIPLES

pairwise.wilcox.test(x = datos$MOT,
                     g = datos$afluentes,
                     p.adjust.method = "bonferroni",
                     paired = FALSE)

    Pairwise comparisons using Wilcoxon rank sum test with continuity correction 

data:  datos$MOT and datos$afluentes 

            Archibarca Cerro Overo
Cerro Overo 0.00023    -          
Rosario     0.18164    0.00011    

P value adjustment method: bonferroni 

¿Todas las comparaciones múltiples de a pares son significativamente diferentes?

SITUACION

Las propiedades antimicrobianas y antioxidantes del aceite esencial de orégano (AEO) han sido ampliamente revisadas. Su aplicación en los alimentos puede tener un impacto adverso en la percepción sensorial. En un estudio sensorial de calidad de alimentos, se desea evaluar si existen diferencias significativas en el olor de hamburguesas vacunas cocinadas, formuladas bajo tres condiciones: ácido acético al \(1\text{% v/v}\) en agua (control), quitosano puro \(1\text{%}\) (Ch) y quitosano adicionado de \(2\text{%}\) de aceite esencial de orégano (Ch\(+2\)%AEO). Para ello, se conformó un panel de 10 consumidores, quienes evaluaron el olor mediante una escala descriptiva de 5 puntos (1-muy malo, 2-malo, 3-aceptable, 4-bueno, 5-muy bueno). A continuación se muestran los resultados obtenidos.

DATOS

tratamientos bloques olor
control 1 1
ch 1 3
ch+2%AEO 1 3
control 2 1
ch 2 2
ch+2%AEO 2 4
control 3 1
ch 3 2
ch+2%AEO 3 4
control 4 2
ch 4 3
ch+2%AEO 4 5
control 5 1
ch 5 3
ch+2%AEO 5 3
control 6 1
ch 6 3
ch+2%AEO 6 3
control 7 2
ch 7 2
ch+2%AEO 7 3
control 8 2
ch 8 3
ch+2%AEO 8 3
control 9 3
ch 9 3
ch+2%AEO 9 5
control 10 1
ch 10 3
ch+2%AEO 10 3

IMPORTACION DE DATOS

library(readxl)
datos = read_excel(file.choose())
datos
bloques tratamientos olor
1 control 1
2 control 1
3 control 1
4 control 2
5 control 1
6 control 1
7 control 2
8 control 2
9 control 3
10 control 1
1 ch 3
2 ch 2
3 ch 2
4 ch 3
5 ch 3
6 ch 3
7 ch 2
8 ch 3
9 ch 3
10 ch 3
1 ch+2%AEO 3
2 ch+2%AEO 4
3 ch+2%AEO 4
4 ch+2%AEO 5
5 ch+2%AEO 3
6 ch+2%AEO 3
7 ch+2%AEO 3
8 ch+2%AEO 3
9 ch+2%AEO 5
10 ch+2%AEO 3

NORMALIDAD

modelo = lm(olor ~ tratamientos + bloques,
            data = datos)
shapiro.test(resid(modelo))

    Shapiro-Wilk normality test

data:  resid(modelo)
W = 0.86441, p-value = 0.001261

HOMOCEDASTICIDAD

modelo = lm(olor ~ tratamientos + bloques,
            data = datos)
bartlett.test(resid(modelo),
              datos$tratamientos)

    Bartlett test of homogeneity of variances

data:  resid(modelo) and datos$tratamientos
Bartlett's K-squared = 1.1094, df = 2, p-value = 0.5742
library(car)
leveneTest(resid(modelo),
           datos$tratamientos,
           center = mean)
Levene's Test for Homogeneity of Variance (center = mean)
      Df F value  Pr(>F)  
group  2  3.1644 0.05826 .
      27                  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

¿El modelo es válido?

Prueba de Friedman

PRUEBA ESTADÍSTICA

friedman.test(y = datos$olor,
              groups = datos$tratamientos,
              blocks = datos$bloques)

    Friedman rank sum test

data:  datos$olor, datos$tratamientos and datos$bloques
Friedman chi-squared = 16.909, df = 2, p-value = 0.0002129

¿Existen diferencias significativas entre los tratamientos?

COMPARACIONES MULTIPLES

pairwise.wilcox.test(x = datos$olor,
                     g = datos$tratamientos,
                     p.adjust.method = "bonferroni",
                     paired = FALSE)

    Pairwise comparisons using Wilcoxon rank sum test with continuity correction 

data:  datos$olor and datos$tratamientos 

         control ch     
ch       0.00590 -      
ch+2%AEO 0.00078 0.03366

P value adjustment method: bonferroni 

¿Todas las comparaciones múltiples de a pares son significativamente diferentes?

tidyverse, rstatix, ggpubr

Friedman

library(tidyverse)
library(rstatix)
####PRUEBA ESTADÍSTICA####
res.friedman = datos %>%
  friedman_test(olor ~ tratamientos |bloques)
res.friedman
.y. n statistic df p method
olor 10 16.90909 2 0.0002129 Friedman test

####COMPARACIONES MULTIPLES####
pwc_f = datos %>%
  wilcox_test(olor ~ tratamientos,
              p.adjust.method = "bonferroni",
              paired = F)
pwc_f
.y. group1 group2 n1 n2 statistic p p.adj p.adj.signif
olor control ch 10 10 11 0.002000 0.006000 **
olor control ch+2%AEO 10 10 3 0.000262 0.000786 ***
olor ch ch+2%AEO 10 10 21 0.011000 0.034000 *

####REPORTE FINAL####
####ggpubr####
library(ggpubr)
datos %>% 
  ggboxplot(x = "tratamientos",
            y = "olor",
            color = "tratamientos",
            palette = "Dark2",
            add = c("jitter","mean")) + 
  theme(legend.position = "none")

pwc_f = pwc_f %>%
  add_xy_position(x = "tratamientos")

datos %>% 
  ggboxplot(x = "tratamientos",
            y = "olor",
            color = "tratamientos",
            palette = "Dark2",
            add = c("jitter","mean")) +
  theme(legend.position = "none") +
  stat_pvalue_manual(pwc_f,
                     hide.ns = TRUE,
                     bracket.nudge.y = 1.2) +
  labs(subtitle = get_test_label(res.friedman,
                                 type = "expression",
                                 detailed = T),
       caption = get_pwc_label(stat.test = pwc_f, type = "expression"))

Bibliografía

Kassambara, A. Practical Statistics in R for Comparing Groups: Numerical Variables. 2019.

Montgomery, D. Diseño y Análisis de Experimentos. 2012.

Quinn, G. y Keough, M. Experimental Design and Data Analysis for Biologists. 2002.

Glosario (link de interés)

Muchas gracias por su atención