Chapitre 8 Templates
8.1 Imports
Ce script R permet d’importer des fichiers volumineux en utilisant fread()
du package data.table
, adapté à un débutant. Ce template permet de spécifier le chemin du fichier, le type de fichier, et le séparateur. Il est optimisé pour importer efficacement des fichiers de grande taille.
Paramètres à modifier :
- modifier le chemin du fichier : Remplacer file_path par le chemin du fichier que vous souhaitez importer ;
- choisir le type de fichier : Spécifiez le type de fichier (options : “csv”, “txt”, ou “excel”) dans file_type ;
- spécifier le séparateur : Si le fichier est de type CSV ou texte, ajustez le séparateur (delimiter), par exemple , pour des fichiers CSV standard ou ; pour des fichiers délimités par des points-virgules ;
- exécuter le script pour importer les données et afficher un aperçu des premières lignes.
# Script R pour importer des fichiers volumineux avec fread()
# Installer les packages si nécessaire
if (!requireNamespace("data.table", quietly = TRUE)) {
install.packages("data.table")
}
if (!requireNamespace("readxl", quietly = TRUE)) {
install.packages("readxl")
}
# Charger les packages nécessaires
library(data.table) # Pour importer des fichiers volumineux avec fread()
library(readxl) # Pour importer des fichiers Excel
# Paramètres à modifier par l'utilisateur
file_path <- "chemin/vers/votre/fichier" # Remplacer par le chemin du fichier
file_type <- "csv" # Choisir parmi "csv", "txt", ou "excel"
delimiter <- "," # Utilisé uniquement si le fichier est de type CSV ou TXT
# Fonction pour importer un fichier en fonction du type avec fread() pour les fichiers volumineux
import_data <- function(file_path, file_type, delimiter = ",") {
if (file_type == "csv" || file_type == "txt") {
# Utilisation de fread pour importer un fichier CSV ou texte volumineux
data <- fread(file = file_path, sep = delimiter)
} else if (file_type == "excel") {
# Importer un fichier Excel (fread ne supporte pas Excel, donc utilisation de read_excel)
data <- read_excel(path = file_path)
} else {
stop("Type de fichier non supporté. Veuillez choisir 'csv', 'txt', ou 'excel'.")
}
return(data)
}
# Importer les données en utilisant les paramètres spécifiés
data <- import_data(file_path, file_type, delimiter)
# Afficher un aperçu des données importées
print(head(data))
8.2 Filtres
Paramètres à modifier :
- remplacer les données d’exemple par le dataframe contenant vos données déjà importées ;
- spécifier les paramètres de filtrage en modifiant les valeurs de filter_column, filter_condition, et filter_value ;
- exécuter le script pour obtenir les données filtrées.
# Script R pour filtrer des données
# Installer les packages si nécessaire
if (!requireNamespace("dplyr", quietly = TRUE)) {
install.packages("dplyr")
}
# Charger le package nécessaire
library(dplyr)
# Exemple de données déjà importées (remplacer par vos données)
# Remarque : Vous devez remplacer cet exemple par votre propre dataset importé
data <- data.frame(
colonne1 = c(1, 2, 3, 4, 5),
colonne2 = c("A", "B", "C", "D", "E")
)
# Paramètres de filtrage à modifier par l'utilisateur
filter_column <- "colonne1" # Spécifier la colonne sur laquelle filtrer
filter_condition <- ">" # Spécifier la condition de filtrage (par exemple, ">", "<", "==", etc.)
filter_value <- 3 # Spécifier la valeur à utiliser pour filtrer
# Fonction pour appliquer un filtre sur les données
filter_data <- function(data, filter_column, filter_condition, filter_value) {
# Créer une expression dynamique pour le filtrage
filter_expression <- paste0(filter_column, filter_condition, filter_value)
# Appliquer le filtre avec dplyr::filter() en évaluant l'expression
filtered_data <- data %>%
filter(eval(parse(text = filter_expression)))
return(filtered_data)
}
# Filtrer les données en utilisant les paramètres spécifiés
filtered_data <- filter_data(data, filter_column, filter_condition, filter_value)
# Afficher les données filtrées
print(filtered_data)
## colonne1 colonne2
## 1 4 D
## 2 5 E
8.3 Agrégations
Paramètres à modifier :
- remplacer les données d’exemple par votre propre dataframe contenant les données déjà importées ;
- spécifier les paramètres de groupement et de résumé en modifiant group_column, summary_column, et summary_function ;
- exécuter le script pour grouper les données et calculer les résumés.
# Script R pour grouper des données et calculer des résumés
# Installer les packages si nécessaire
if (!requireNamespace("dplyr", quietly = TRUE)) {
install.packages("dplyr")
}
# Charger le package nécessaire
library(dplyr)
# Exemple de données déjà importées (remplacer par vos données)
# Remarque : Vous devez remplacer cet exemple par votre propre dataset importé
data <- data.frame(
groupe = c("A", "B", "A", "B", "C"),
valeur = c(10, 20, 30, 40, 50)
)
# Paramètres de groupement et de résumé à modifier par l'utilisateur
group_column <- "groupe" # Spécifier la colonne sur laquelle faire le group_by
summary_column <- "valeur" # Spécifier la colonne sur laquelle effectuer le résumé
summary_function <- "mean" # Spécifier la fonction de résumé à utiliser (e.g., "mean", "sum", "min", "max")
# Fonction pour appliquer un group_by et un résumé sur les données
group_and_summarize <- function(data, group_column, summary_column, summary_function) {
# Créer une expression dynamique pour la fonction de résumé
summary_expr <- paste0(summary_function, "(", summary_column, ")")
# Appliquer le group_by et la fonction de résumé
summarized_data <- data %>%
group_by_at(group_column) %>%
summarize(result = eval(parse(text = summary_expr)))
return(summarized_data)
}
# Grouper les données et calculer le résumé en utilisant les paramètres spécifiés
summarized_data <- group_and_summarize(data, group_column, summary_column, summary_function)
# Afficher les données résumées
print(summarized_data)
## # A tibble: 3 × 2
## groupe result
## <chr> <dbl>
## 1 A 20
## 2 B 30
## 3 C 50