Chapitre 8 Templates

8.1 Imports

Ce script R permet d’importer des fichiers volumineux en utilisant fread() du package data.table, adapté à un débutant. Ce template permet de spécifier le chemin du fichier, le type de fichier, et le séparateur. Il est optimisé pour importer efficacement des fichiers de grande taille.

Paramètres à modifier :

  • modifier le chemin du fichier : Remplacer file_path par le chemin du fichier que vous souhaitez importer ;
  • choisir le type de fichier : Spécifiez le type de fichier (options : “csv”, “txt”, ou “excel”) dans file_type ;
  • spécifier le séparateur : Si le fichier est de type CSV ou texte, ajustez le séparateur (delimiter), par exemple , pour des fichiers CSV standard ou ; pour des fichiers délimités par des points-virgules ;
  • exécuter le script pour importer les données et afficher un aperçu des premières lignes.
# Script R pour importer des fichiers volumineux avec fread()

# Installer les packages si nécessaire
if (!requireNamespace("data.table", quietly = TRUE)) {
  install.packages("data.table")
}
if (!requireNamespace("readxl", quietly = TRUE)) {
  install.packages("readxl")
}

# Charger les packages nécessaires
library(data.table)  # Pour importer des fichiers volumineux avec fread()
library(readxl)      # Pour importer des fichiers Excel

# Paramètres à modifier par l'utilisateur
file_path <- "chemin/vers/votre/fichier"  # Remplacer par le chemin du fichier
file_type <- "csv"  # Choisir parmi "csv", "txt", ou "excel"
delimiter <- ","    # Utilisé uniquement si le fichier est de type CSV ou TXT

# Fonction pour importer un fichier en fonction du type avec fread() pour les fichiers volumineux
import_data <- function(file_path, file_type, delimiter = ",") {
  if (file_type == "csv" || file_type == "txt") {
    # Utilisation de fread pour importer un fichier CSV ou texte volumineux
    data <- fread(file = file_path, sep = delimiter)
  } else if (file_type == "excel") {
    # Importer un fichier Excel (fread ne supporte pas Excel, donc utilisation de read_excel)
    data <- read_excel(path = file_path)
  } else {
    stop("Type de fichier non supporté. Veuillez choisir 'csv', 'txt', ou 'excel'.")
  }
  return(data)
}

# Importer les données en utilisant les paramètres spécifiés
data <- import_data(file_path, file_type, delimiter)

# Afficher un aperçu des données importées
print(head(data))

8.2 Filtres

Paramètres à modifier :

  • remplacer les données d’exemple par le dataframe contenant vos données déjà importées ;
  • spécifier les paramètres de filtrage en modifiant les valeurs de filter_column, filter_condition, et filter_value ;
  • exécuter le script pour obtenir les données filtrées.
# Script R pour filtrer des données

# Installer les packages si nécessaire
if (!requireNamespace("dplyr", quietly = TRUE)) {
  install.packages("dplyr")
}

# Charger le package nécessaire
library(dplyr)

# Exemple de données déjà importées (remplacer par vos données)
# Remarque : Vous devez remplacer cet exemple par votre propre dataset importé
data <- data.frame(
  colonne1 = c(1, 2, 3, 4, 5),
  colonne2 = c("A", "B", "C", "D", "E")
)

# Paramètres de filtrage à modifier par l'utilisateur
filter_column <- "colonne1"  # Spécifier la colonne sur laquelle filtrer
filter_condition <- ">"  # Spécifier la condition de filtrage (par exemple, ">", "<", "==", etc.)
filter_value <- 3  # Spécifier la valeur à utiliser pour filtrer

# Fonction pour appliquer un filtre sur les données
filter_data <- function(data, filter_column, filter_condition, filter_value) {
  # Créer une expression dynamique pour le filtrage
  filter_expression <- paste0(filter_column, filter_condition, filter_value)
  
  # Appliquer le filtre avec dplyr::filter() en évaluant l'expression
  filtered_data <- data %>%
    filter(eval(parse(text = filter_expression)))
  
  return(filtered_data)
}

# Filtrer les données en utilisant les paramètres spécifiés
filtered_data <- filter_data(data, filter_column, filter_condition, filter_value)

# Afficher les données filtrées
print(filtered_data)
##   colonne1 colonne2
## 1        4        D
## 2        5        E

8.3 Agrégations

Paramètres à modifier :

  • remplacer les données d’exemple par votre propre dataframe contenant les données déjà importées ;
  • spécifier les paramètres de groupement et de résumé en modifiant group_column, summary_column, et summary_function ;
  • exécuter le script pour grouper les données et calculer les résumés.
# Script R pour grouper des données et calculer des résumés

# Installer les packages si nécessaire
if (!requireNamespace("dplyr", quietly = TRUE)) {
  install.packages("dplyr")
}

# Charger le package nécessaire
library(dplyr)

# Exemple de données déjà importées (remplacer par vos données)
# Remarque : Vous devez remplacer cet exemple par votre propre dataset importé
data <- data.frame(
  groupe = c("A", "B", "A", "B", "C"),
  valeur = c(10, 20, 30, 40, 50)
)

# Paramètres de groupement et de résumé à modifier par l'utilisateur
group_column <- "groupe"   # Spécifier la colonne sur laquelle faire le group_by
summary_column <- "valeur" # Spécifier la colonne sur laquelle effectuer le résumé
summary_function <- "mean" # Spécifier la fonction de résumé à utiliser (e.g., "mean", "sum", "min", "max")

# Fonction pour appliquer un group_by et un résumé sur les données
group_and_summarize <- function(data, group_column, summary_column, summary_function) {
  # Créer une expression dynamique pour la fonction de résumé
  summary_expr <- paste0(summary_function, "(", summary_column, ")")
  
  # Appliquer le group_by et la fonction de résumé
  summarized_data <- data %>%
    group_by_at(group_column) %>%
    summarize(result = eval(parse(text = summary_expr)))
  
  return(summarized_data)
}

# Grouper les données et calculer le résumé en utilisant les paramètres spécifiés
summarized_data <- group_and_summarize(data, group_column, summary_column, summary_function)

# Afficher les données résumées
print(summarized_data)
## # A tibble: 3 × 2
##   groupe result
##   <chr>   <dbl>
## 1 A          20
## 2 B          30
## 3 C          50