From 37fef5f429500d518fd4e5fbcdda96ea0f662d19 Mon Sep 17 00:00:00 2001 From: Aristide Chauveau Date: Wed, 21 Jun 2023 16:25:45 +0200 Subject: [PATCH] =?UTF-8?q?Ajustements=20sur=20l'importation=20et=20la=20l?= =?UTF-8?q?ecture=20des=20donn=C3=A9es.=20Changement=20du=20nom=20du=20fic?= =?UTF-8?q?hier=20de=20donn=C3=A9es.?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- module3/exo1/analyse-syndrome-grippal.Rmd | 29 ++++++++++--------- ...cidence-PAY-3.csv => syndrome-grippal.csv} | 0 2 files changed, 16 insertions(+), 13 deletions(-) rename module3/exo1/{incidence-PAY-3.csv => syndrome-grippal.csv} (100%) diff --git a/module3/exo1/analyse-syndrome-grippal.Rmd b/module3/exo1/analyse-syndrome-grippal.Rmd index 2ab2de7..f522ba1 100644 --- a/module3/exo1/analyse-syndrome-grippal.Rmd +++ b/module3/exo1/analyse-syndrome-grippal.Rmd @@ -26,6 +26,17 @@ Les données de l'incidence du syndrome grippal sont disponibles du site Web du data_url <- "http://www.sentiweb.fr/datasets/incidence-PAY-3.csv" ``` +Nous souhaitons travailler sur un fichier enregistré localement pour assurer une analyse reproductible (protection contre une suppression ou modification des données, de l'URL, du Réseau Sentinelles...). +Nous vérifions tout d'abord si un fichier local existe. Si c'est le cas, nous allons travailler à partir de ce fichier, sinon nous téléchargeons les données. + +```{r} +data_file = "syndrome-grippal.csv" + +if(!file.exists(data_file)) { + download.file(data_url, data_file) +} +``` + Voici l'explication des colonnes donnée sur le [sur le site d'origine](https://ns.sentiweb.fr/incidence/csv-schema-v1.json): | Nom de colonne | Libellé de colonne | @@ -41,21 +52,13 @@ Voici l'explication des colonnes donnée sur le [sur le site d'origine](https:// | `geo_insee` | Code de la zone géographique concernée (Code INSEE) http://www.insee.fr/fr/methodes/nomenclatures/cog/ | | `geo_name` | Libellé de la zone géographique (ce libellé peut être modifié sans préavis) | -### Téléchargement - -On souhaite travailler sur un fichier local préalablement téléchargé, pour assurer une analyse reproductible. -On commence par tester si un fichier local existe. Si c'est le cas, on travaille à partir de ce fichier, sinon on en crée un à partir des données téléchargées. +### Lecture La première ligne du fichier CSV est un commentaire, que nous ignorons en précisant `skip=1`. - ```{r} -# On regarde dans le dossier local si le fichier existe, sinon on le télécharge -if(!file.exists("./incidence-PAY-3.csv")) { - download.file(data_url, "./incidence-PAY-3.csv") -} - -# Importation du fichier -data <- read.csv("incidence-PAY-3.csv", skip=1) +data <- read.csv(data_file, skip=1) ``` + + Regardons ce que nous avons obtenu: ```{r} head(data) @@ -76,7 +79,7 @@ class(data$inc) La classe de la colonne `inc` est un facteur mais devrait être un entier, cela est dû à la ligne avec des donénes manquantes qui contient un "-" pour cette colonne. Solution : importer de nouveau les données en indiquant que le tiret est à considérer comme une valeur manquante. ```{r} -data <- read.csv("incidence-PAY-3.csv", skip=1, na.strings = "-") +data <- read.csv(data_file, skip=1, na.strings = "-") ``` On vérifie de nouveau les classes des colonnes d'intérêt : diff --git a/module3/exo1/incidence-PAY-3.csv b/module3/exo1/syndrome-grippal.csv similarity index 100% rename from module3/exo1/incidence-PAY-3.csv rename to module3/exo1/syndrome-grippal.csv -- 2.18.1