Commit 37fef5f4 authored by Aristide Chauveau's avatar Aristide Chauveau

Ajustements sur l'importation et la lecture des données. Changement du nom du fichier de données.

parent d705d7e7
...@@ -26,6 +26,17 @@ Les données de l'incidence du syndrome grippal sont disponibles du site Web du ...@@ -26,6 +26,17 @@ Les données de l'incidence du syndrome grippal sont disponibles du site Web du
data_url <- "http://www.sentiweb.fr/datasets/incidence-PAY-3.csv" data_url <- "http://www.sentiweb.fr/datasets/incidence-PAY-3.csv"
``` ```
Nous souhaitons travailler sur un fichier enregistré localement pour assurer une analyse reproductible (protection contre une suppression ou modification des données, de l'URL, du Réseau Sentinelles...).
Nous vérifions tout d'abord si un fichier local existe. Si c'est le cas, nous allons travailler à partir de ce fichier, sinon nous téléchargeons les données.
```{r}
data_file = "syndrome-grippal.csv"
if(!file.exists(data_file)) {
download.file(data_url, data_file)
}
```
Voici l'explication des colonnes donnée sur le [sur le site d'origine](https://ns.sentiweb.fr/incidence/csv-schema-v1.json): Voici l'explication des colonnes donnée sur le [sur le site d'origine](https://ns.sentiweb.fr/incidence/csv-schema-v1.json):
| Nom de colonne | Libellé de colonne | | Nom de colonne | Libellé de colonne |
...@@ -41,21 +52,13 @@ Voici l'explication des colonnes donnée sur le [sur le site d'origine](https:// ...@@ -41,21 +52,13 @@ Voici l'explication des colonnes donnée sur le [sur le site d'origine](https://
| `geo_insee` | Code de la zone géographique concernée (Code INSEE) http://www.insee.fr/fr/methodes/nomenclatures/cog/ | | `geo_insee` | Code de la zone géographique concernée (Code INSEE) http://www.insee.fr/fr/methodes/nomenclatures/cog/ |
| `geo_name` | Libellé de la zone géographique (ce libellé peut être modifié sans préavis) | | `geo_name` | Libellé de la zone géographique (ce libellé peut être modifié sans préavis) |
### Téléchargement ### Lecture
On souhaite travailler sur un fichier local préalablement téléchargé, pour assurer une analyse reproductible.
On commence par tester si un fichier local existe. Si c'est le cas, on travaille à partir de ce fichier, sinon on en crée un à partir des données téléchargées.
La première ligne du fichier CSV est un commentaire, que nous ignorons en précisant `skip=1`. La première ligne du fichier CSV est un commentaire, que nous ignorons en précisant `skip=1`.
```{r} ```{r}
# On regarde dans le dossier local si le fichier existe, sinon on le télécharge data <- read.csv(data_file, skip=1)
if(!file.exists("./incidence-PAY-3.csv")) {
download.file(data_url, "./incidence-PAY-3.csv")
}
# Importation du fichier
data <- read.csv("incidence-PAY-3.csv", skip=1)
``` ```
Regardons ce que nous avons obtenu: Regardons ce que nous avons obtenu:
```{r} ```{r}
head(data) head(data)
...@@ -76,7 +79,7 @@ class(data$inc) ...@@ -76,7 +79,7 @@ class(data$inc)
La classe de la colonne `inc` est un facteur mais devrait être un entier, cela est dû à la ligne avec des donénes manquantes qui contient un "-" pour cette colonne. Solution : importer de nouveau les données en indiquant que le tiret est à considérer comme une valeur manquante. La classe de la colonne `inc` est un facteur mais devrait être un entier, cela est dû à la ligne avec des donénes manquantes qui contient un "-" pour cette colonne. Solution : importer de nouveau les données en indiquant que le tiret est à considérer comme une valeur manquante.
```{r} ```{r}
data <- read.csv("incidence-PAY-3.csv", skip=1, na.strings = "-") data <- read.csv(data_file, skip=1, na.strings = "-")
``` ```
On vérifie de nouveau les classes des colonnes d'intérêt : On vérifie de nouveau les classes des colonnes d'intérêt :
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment