From f8d74ceb2fef2dbf239b6069dfbb6bdc2ab821da Mon Sep 17 00:00:00 2001 From: aaaaaa Date: Fri, 5 Jun 2020 15:16:59 +0200 Subject: [PATCH] =?UTF-8?q?modif=20intro=20(date=20d=C3=A9but=20=C3=A9tude?= =?UTF-8?q?)=20ajout=20transformation=20dates=20et=20visualisation?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- module3/exo2/exercice_fr.Rmd | 69 +++++++++++++++++++++++++++++++++++- 1 file changed, 68 insertions(+), 1 deletion(-) diff --git a/module3/exo2/exercice_fr.Rmd b/module3/exo2/exercice_fr.Rmd index a9e8d53..474843b 100644 --- a/module3/exo2/exercice_fr.Rmd +++ b/module3/exo2/exercice_fr.Rmd @@ -14,7 +14,7 @@ knitr::opts_chunk$set(echo = TRUE) ## Introduction Les données de l'incidence de la varicelle sont disponibles du site Web du [Réseau Sentinelles](http://www.sentiweb.fr/). -Celles-ci sont disponibles au format CSV. Chaque ligne du fichier correspond à une semaine de la période demandée (les premières données datent de l'année 1991, les dernières sont celles d'une semaine récente). +Celles-ci sont disponibles au format CSV. Chaque ligne du fichier correspond à une semaine de la période demandée (les premières données datent de la fin de l'année 1990, les dernières sont celles d'une semaine récente). L'URL du fichier est la suivante : ```{r} @@ -26,9 +26,11 @@ Chargement des librairies utilisées dans cette étude : library(tidyverse) # Manipulation de données, graphiques, ... library(knitr) library(kableExtra) +library(parsedate) ``` + ## Téléchargement des données Nous téléchargeons le fichier de données en local (si celui-ci n'existe pas). Ceci afin de nous prémunir contre un éventuel problème de connexion à ce fichier. @@ -76,3 +78,68 @@ Il semble que le fichier soit complet. ## Formattage des données +### Transformation des données "date" + +Le format des dates est particulier dans ce fichier : il est sous une forme numérique 'aaaass' , où 'a' et 's' représentent l'année et la semaine de la mesure respectivement (selon la norme ISO 8601). +```{r} +head(varicelle$week) +tail(varicelle$week) +``` + +La librairie `parsedate` permet de gérer ce type de format, en modifiant légérement la valeur de la date sous la forme 'aaaa-Wss'. +```{r} +varicelle <- varicelle %>% + # ajout du caractère "W" à la valeur de date, puis extraction en format "date" + mutate(temp_week = str_replace(string = week, pattern = "(\\d{4})(\\d{2})", replacement = "\\1-W\\2"), + iso_week = parse_iso_8601(temp_week)) %>% + select(-temp_week) + +varicelle %>% + select(week, iso_week) %>% + head() +``` + +On peut vérifier la classe de cette nouvelle donnée : +```{r} +class(varicelle$iso_week) +``` + +Enfin, on peut trier les données afin de les avoir en ordre chronologique. +```{r} +varicelle <- varicelle %>% + arrange(iso_week) +``` + +### Visualisation + +Une première analyse de l'incidence de la varicelle peut être faite visuellement. +```{r} +ggplot(varicelle, aes(x = iso_week, y = inc)) + + geom_line(col = "blue", alpha = 0.6) + + labs(title = "Incidence de la varicelle", + x = "Semaine", y = "Incidence") + + theme_bw() +``` + +Il semble y avoir une certaine saisonnalité. On peut zoomer sur les dernières années pour avoir un meilleur aperçu. +```{r} +varicelle %>% + filter(row_number() >= length(week) - 200) %>% + ggplot(aes(x = iso_week, y = inc)) + + geom_line(col = "blue", alpha = 0.6) + + labs(title = "Incidence de la varicelle", + x = "Semaine", y = "Incidence") + + scale_x_datetime(date_breaks = "6 months", date_labels = "%Y-%m") + + theme_bw() +``` + +Les pics d'incidence semblent avoir lieu au mois d'avril chaque année, alors que les creux sont plutôt présents vers le mois d'août. + + +## Analyse de l'incidence + + + + + + -- 2.18.1