--- title: "Analyse de l'incidence de la varicelle" author: "aaaaaaaaa" date: "2020-06-04" output: html_document --- ```{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE) ``` ## Introduction Les données de l'incidence de la varicelle sont disponibles du site Web du [Réseau Sentinelles](http://www.sentiweb.fr/). Celles-ci sont disponibles au format CSV. Chaque ligne du fichier correspond à une semaine de la période demandée (les premières données datent de l'année 1991, les dernières sont celles d'une semaine récente). L'URL du fichier est la suivante : ```{r} data_url <- "http://www.sentiweb.fr/datasets/incidence-PAY-7.csv" ``` Chargement des librairies utilisées dans cette étude : ```{r message=FALSE} library(tidyverse) # Manipulation de données, graphiques, ... library(knitr) library(kableExtra) ``` ## Téléchargement des données Nous téléchargeons le fichier de données en local (si celui-ci n'existe pas). Ceci afin de nous prémunir contre un éventuel problème de connexion à ce fichier. ```{r} dest_file <- "./varicelle_incidence.csv" if(!file.exists(dest_file)) { download.file(url = data_url, destfile = dest_file, method = "auto") } ``` Puis nous chargeons les données depuis le fichier local (a première ligne du fichier étant un commentaire). ```{r} varicelle <- read_csv(dest_file, skip = 1) ``` Les données obtenues sont de la forme : ```{r} head(varicelle) %>% kable() %>% kable_styling(bootstrap_options = "striped", full_width = F, position = "left") ``` **Description du format du fichier :** - `week` : Semaine calendaire (ISO 8601) - `indicator` : Code de l'indicateur de surveillance - `inc` : Estimation de l'incidence de consultations en nombre de cas - `inc_low` : Estimation de la borne inférieure de l'IC95% du nombre de cas de consultation - `inc_up` : Estimation de la borne supérieure de l'IC95% du nombre de cas de consultation - `inc100` : Estimation du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants) - `inc100_low` : Estimation de la borne inférieure de l'IC95% du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants) - `inc100_up` : Estimation de la borne supérieure de l'IC95% du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants) - `geo_insee` : Code de la zone géographique concernée (Code INSEE) http://www.insee.fr/fr/methodes/nomenclatures/cog/ - `geo_name` : Libellé de la zone géographique (ce libellé peut être modifié sans préavis)   Dans un premier temps, vérifions s'il y a des données manquantes. ```{r} varicelle[rowSums(is.na(varicelle)) > 0, ] ``` Il semble que le fichier soit complet. ## Formattage des données