From 1df62acea64f14ff6f5da4026713a16195878c97 Mon Sep 17 00:00:00 2001 From: aaaaaa Date: Thu, 4 Jun 2020 18:00:36 +0200 Subject: [PATCH] Import data, check missing values --- module3/exo2/exercice_fr.Rmd | 63 ++++++++++++++++++++++++++++++++++++ 1 file changed, 63 insertions(+) diff --git a/module3/exo2/exercice_fr.Rmd b/module3/exo2/exercice_fr.Rmd index b574111..a9e8d53 100644 --- a/module3/exo2/exercice_fr.Rmd +++ b/module3/exo2/exercice_fr.Rmd @@ -11,5 +11,68 @@ knitr::opts_chunk$set(echo = TRUE) ``` +## Introduction +Les données de l'incidence de la varicelle sont disponibles du site Web du [Réseau Sentinelles](http://www.sentiweb.fr/). +Celles-ci sont disponibles au format CSV. Chaque ligne du fichier correspond à une semaine de la période demandée (les premières données datent de l'année 1991, les dernières sont celles d'une semaine récente). + +L'URL du fichier est la suivante : +```{r} +data_url <- "http://www.sentiweb.fr/datasets/incidence-PAY-7.csv" +``` + +Chargement des librairies utilisées dans cette étude : +```{r message=FALSE} +library(tidyverse) # Manipulation de données, graphiques, ... +library(knitr) +library(kableExtra) +``` + + +## Téléchargement des données + +Nous téléchargeons le fichier de données en local (si celui-ci n'existe pas). Ceci afin de nous prémunir contre un éventuel problème de connexion à ce fichier. +```{r} +dest_file <- "./varicelle_incidence.csv" +if(!file.exists(dest_file)) { + download.file(url = data_url, destfile = dest_file, method = "auto") +} +``` + +Puis nous chargeons les données depuis le fichier local (a première ligne du fichier étant un commentaire). +```{r} +varicelle <- read_csv(dest_file, skip = 1) +``` + +Les données obtenues sont de la forme : +```{r} +head(varicelle) %>% + kable() %>% + kable_styling(bootstrap_options = "striped", full_width = F, position = "left") +``` + +**Description du format du fichier :** + +- `week` : Semaine calendaire (ISO 8601) +- `indicator` : Code de l'indicateur de surveillance +- `inc` : Estimation de l'incidence de consultations en nombre de cas +- `inc_low` : Estimation de la borne inférieure de l'IC95% du nombre de cas de consultation +- `inc_up` : Estimation de la borne supérieure de l'IC95% du nombre de cas de consultation +- `inc100` : Estimation du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants) +- `inc100_low` : Estimation de la borne inférieure de l'IC95% du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants) +- `inc100_up` : Estimation de la borne supérieure de l'IC95% du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants) +- `geo_insee` : Code de la zone géographique concernée (Code INSEE) http://www.insee.fr/fr/methodes/nomenclatures/cog/ +- `geo_name` : Libellé de la zone géographique (ce libellé peut être modifié sans préavis) + +  + +Dans un premier temps, vérifions s'il y a des données manquantes. +```{r} +varicelle[rowSums(is.na(varicelle)) > 0, ] +``` + +Il semble que le fichier soit complet. + + +## Formattage des données -- 2.18.1