Commit 1df62ace authored by aaaaaa's avatar aaaaaa

Import data, check missing values

parent 5602c220
......@@ -11,5 +11,68 @@ knitr::opts_chunk$set(echo = TRUE)
```
## Introduction
Les données de l'incidence de la varicelle sont disponibles du site Web du [Réseau Sentinelles](http://www.sentiweb.fr/).
Celles-ci sont disponibles au format CSV. Chaque ligne du fichier correspond à une semaine de la période demandée (les premières données datent de l'année 1991, les dernières sont celles d'une semaine récente).
L'URL du fichier est la suivante :
```{r}
data_url <- "http://www.sentiweb.fr/datasets/incidence-PAY-7.csv"
```
Chargement des librairies utilisées dans cette étude :
```{r message=FALSE}
library(tidyverse) # Manipulation de données, graphiques, ...
library(knitr)
library(kableExtra)
```
## Téléchargement des données
Nous téléchargeons le fichier de données en local (si celui-ci n'existe pas). Ceci afin de nous prémunir contre un éventuel problème de connexion à ce fichier.
```{r}
dest_file <- "./varicelle_incidence.csv"
if(!file.exists(dest_file)) {
download.file(url = data_url, destfile = dest_file, method = "auto")
}
```
Puis nous chargeons les données depuis le fichier local (a première ligne du fichier étant un commentaire).
```{r}
varicelle <- read_csv(dest_file, skip = 1)
```
Les données obtenues sont de la forme :
```{r}
head(varicelle) %>%
kable() %>%
kable_styling(bootstrap_options = "striped", full_width = F, position = "left")
```
**Description du format du fichier :**
- `week` : Semaine calendaire (ISO 8601)
- `indicator` : Code de l'indicateur de surveillance
- `inc` : Estimation de l'incidence de consultations en nombre de cas
- `inc_low` : Estimation de la borne inférieure de l'IC95% du nombre de cas de consultation
- `inc_up` : Estimation de la borne supérieure de l'IC95% du nombre de cas de consultation
- `inc100` : Estimation du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants)
- `inc100_low` : Estimation de la borne inférieure de l'IC95% du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants)
- `inc100_up` : Estimation de la borne supérieure de l'IC95% du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants)
- `geo_insee` : Code de la zone géographique concernée (Code INSEE) http://www.insee.fr/fr/methodes/nomenclatures/cog/
- `geo_name` : Libellé de la zone géographique (ce libellé peut être modifié sans préavis)
&nbsp;
Dans un premier temps, vérifions s'il y a des données manquantes.
```{r}
varicelle[rowSums(is.na(varicelle)) > 0, ]
```
Il semble que le fichier soit complet.
## Formattage des données
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment