Commit d705d7e7 authored by Aristide Chauveau's avatar Aristide Chauveau

Modifications pour travailler à partir du fichier de données en local s'il...

Modifications pour travailler à partir du fichier de données en local s'il existe, et le télécharger au préalable sinon.
parent 58f29eb3
......@@ -23,7 +23,7 @@ knitr::opts_chunk$set(echo = TRUE)
Les données de l'incidence du syndrome grippal sont disponibles du site Web du [Réseau Sentinelles](http://www.sentiweb.fr/). Nous les récupérons sous forme d'un fichier en format CSV dont chaque ligne correspond à une semaine de la période demandée. Nous téléchargeons toujours le jeu de données complet, qui commence en 1984 et se termine avec une semaine récente. L'URL est:
```{r}
data_url = "http://www.sentiweb.fr/datasets/incidence-PAY-3.csv"
data_url <- "http://www.sentiweb.fr/datasets/incidence-PAY-3.csv"
```
Voici l'explication des colonnes donnée sur le [sur le site d'origine](https://ns.sentiweb.fr/incidence/csv-schema-v1.json):
......@@ -41,12 +41,21 @@ Voici l'explication des colonnes donnée sur le [sur le site d'origine](https://
| `geo_insee` | Code de la zone géographique concernée (Code INSEE) http://www.insee.fr/fr/methodes/nomenclatures/cog/ |
| `geo_name` | Libellé de la zone géographique (ce libellé peut être modifié sans préavis) |
La première ligne du fichier CSV est un commentaire, que nous ignorons en précisant `skip=1`.
### Téléchargement
On souhaite travailler sur un fichier local préalablement téléchargé, pour assurer une analyse reproductible.
On commence par tester si un fichier local existe. Si c'est le cas, on travaille à partir de ce fichier, sinon on en crée un à partir des données téléchargées.
La première ligne du fichier CSV est un commentaire, que nous ignorons en précisant `skip=1`.
```{r}
data = read.csv(data_url, skip=1)
```
# On regarde dans le dossier local si le fichier existe, sinon on le télécharge
if(!file.exists("./incidence-PAY-3.csv")) {
download.file(data_url, "./incidence-PAY-3.csv")
}
# Importation du fichier
data <- read.csv("incidence-PAY-3.csv", skip=1)
```
Regardons ce que nous avons obtenu:
```{r}
head(data)
......@@ -64,6 +73,18 @@ Les deux colonnes qui nous intéressent sont `week` et `inc`. Vérifions leurs c
class(data$week)
class(data$inc)
```
La classe de la colonne `inc` est un facteur mais devrait être un entier, cela est dû à la ligne avec des donénes manquantes qui contient un "-" pour cette colonne. Solution : importer de nouveau les données en indiquant que le tiret est à considérer comme une valeur manquante.
```{r}
data <- read.csv("incidence-PAY-3.csv", skip=1, na.strings = "-")
```
On vérifie de nouveau les classes des colonnes d'intérêt :
```{r}
class(data$week)
class(data$inc)
```
Ce sont des entiers, tout va bien !
### Conversion des numéros de semaine
......
This diff is collapsed.
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment