Modifications pour travailler à partir du fichier de données en local s'il...

Modifications pour travailler à partir du fichier de données en local s'il existe, et le télécharger au préalable sinon.

Modifications pour travailler à partir du fichier de données en local s'il...
Modifications pour travailler à partir du fichier de données en local s'il existe, et le télécharger au préalable sinon.
d705d7e7 · Aristide Chauveau · 58f29eb3 · d705d7e7 · d705d7e7
Commit d705d7e7 authored Jun 21, 2023 by Aristide Chauveau
Expand all Show whitespace changes
Inline Side-by-side

Showing with 2043 additions and 4 deletions

analyse-syndrome-grippal.Rmd module3/exo1/analyse-syndrome-grippal.Rmd +25 -4

incidence-PAY-3.csv module3/exo1/incidence-PAY-3.csv +2018 -0

No files found.
--- a/module3/exo1/analyse-syndrome-grippal.Rmd
+++ b/module3/exo1/analyse-syndrome-grippal.Rmd
@@ -23,7 +23,7 @@ knitr::opts_chunk$set(echo = TRUE)

 Les données de l'incidence du syndrome grippal sont disponibles du site Web du [Réseau Sentinelles](http://www.sentiweb.fr/). Nous les récupérons sous forme d'un fichier en format CSV dont chaque ligne correspond à une semaine de la période demandée. Nous téléchargeons toujours le jeu de données complet, qui commence en 1984 et se termine avec une semaine récente. L'URL est:
 ```{r}
-data_url = "http://www.sentiweb.fr/datasets/incidence-PAY-3.csv"
+data_url <- "http://www.sentiweb.fr/datasets/incidence-PAY-3.csv"
 ```

 Voici l'explication des colonnes donnée sur le [sur le site d'origine](https://ns.sentiweb.fr/incidence/csv-schema-v1.json):
@@ -41,12 +41,21 @@ Voici l'explication des colonnes donnée sur le [sur le site d'origine](https://
 | `geo_insee`  | Code de la zone géographique concernée (Code INSEE) http://www.insee.fr/fr/methodes/nomenclatures/cog/                            |
 | `geo_name`   | Libellé de la zone géographique (ce libellé peut être modifié sans préavis)                                                       |

-La première ligne du fichier CSV est un commentaire, que nous ignorons en précisant `skip=1`.
 ### Téléchargement
+
+On souhaite travailler sur un fichier local préalablement téléchargé, pour assurer une analyse reproductible.
+On commence par tester si un fichier local existe. Si c'est le cas, on travaille à partir de ce fichier, sinon on en crée un à partir des données téléchargées.
+La première ligne du fichier CSV est un commentaire, que nous ignorons en précisant `skip=1`.
+
 ```{r}
-data = read.csv(data_url, skip=1)
-```
+# On regarde dans le dossier local si le fichier existe, sinon on le télécharge
+if(!file.exists("./incidence-PAY-3.csv")) {
+  download.file(data_url, "./incidence-PAY-3.csv")
+}

+# Importation du fichier
+data <- read.csv("incidence-PAY-3.csv", skip=1)
+```
 Regardons ce que nous avons obtenu:
 ```{r}
 head(data)
@@ -64,6 +73,18 @@ Les deux colonnes qui nous intéressent sont `week` et `inc`. Vérifions leurs c
 class(data$week)
 class(data$inc)
 ```
+La classe de la colonne `inc` est un facteur mais devrait être un entier, cela est dû à la ligne avec des donénes manquantes qui contient un "-" pour cette colonne. Solution : importer de nouveau les données en indiquant que le tiret est à considérer comme une valeur manquante.
+
+```{r}
+data <- read.csv("incidence-PAY-3.csv", skip=1, na.strings = "-")
+```
+
+On vérifie de nouveau les classes des colonnes d'intérêt :
+```{r}
+class(data$week)
+class(data$inc)
+```
+
 Ce sont des entiers, tout va bien !

 ### Conversion des numéros de semaine

--- a/module3/exo1/incidence-PAY-3.csv
+++ b/module3/exo1/incidence-PAY-3.csv