Chapter 4 Modulo Extra: dplyr
dplyr es tal vez el paquete más importante para R. Incluye comandos para la manipulación de datos: limpieza, manejo, wrnagling, filtrado, transformaciones. Lo potente de dplyr esque permite concatenar comandos de tal manera que podemos crear secuencias de instrucciones de manera muy limpia.
A continuación se muestran los comandos más útiles de dplyr:
Comando | Utilidad |
---|---|
select | Permite seleccionar solo algunas variables de todas |
filter | permite filtrar la base de acuerdo a alguna condición |
mutate | permite crear nuevas variables |
%>% | es el famoso “pipe” para concatenar instrucciones |
#En caso de que no lo tengas instalado
#install.packages("dplyr")
library(dplyr)
%>%
datos select(mpg,cyl) %>%
mutate(mpg_per_cyn=mpg/cyl) %>%
filter(mpg_per_cyn > 3)
## mpg cyl mpg_per_cyn
## Mazda RX4 21.0 6 3.50
## Mazda RX4 Wag 21.0 6 3.50
## Datsun 710 22.8 4 5.70
## Hornet 4 Drive 21.4 6 3.57
## Valiant 18.1 6 3.02
## Merc 240D 24.4 4 6.10
## Merc 230 22.8 4 5.70
## Merc 280 19.2 6 3.20
## Fiat 128 32.4 4 8.10
## Honda Civic 30.4 4 7.60
## Toyota Corolla 33.9 4 8.47
## Toyota Corona 21.5 4 5.38
## Fiat X1-9 27.3 4 6.83
## Porsche 914-2 26.0 4 6.50
## Lotus Europa 30.4 4 7.60
## Ferrari Dino 19.7 6 3.28
## Volvo 142E 21.4 4 5.35
Ejercicio:
Selecciona 4 variables interesantes para analizar coches,
Crea 1 variable nueva interesante
Haz un histograma de la nueva variable
Filtra la base de datos de acuerdo a un punto de corte en la nueva variable
Haz un histograma de la nueva variable