Commit f8d74ceb authored by aaaaaa's avatar aaaaaa

modif intro (date début étude)

ajout transformation dates et visualisation
parent 1df62ace
......@@ -14,7 +14,7 @@ knitr::opts_chunk$set(echo = TRUE)
## Introduction
Les données de l'incidence de la varicelle sont disponibles du site Web du [Réseau Sentinelles](http://www.sentiweb.fr/).
Celles-ci sont disponibles au format CSV. Chaque ligne du fichier correspond à une semaine de la période demandée (les premières données datent de l'année 1991, les dernières sont celles d'une semaine récente).
Celles-ci sont disponibles au format CSV. Chaque ligne du fichier correspond à une semaine de la période demandée (les premières données datent de la fin de l'année 1990, les dernières sont celles d'une semaine récente).
L'URL du fichier est la suivante :
```{r}
......@@ -26,9 +26,11 @@ Chargement des librairies utilisées dans cette étude :
library(tidyverse) # Manipulation de données, graphiques, ...
library(knitr)
library(kableExtra)
library(parsedate)
```
## Téléchargement des données
Nous téléchargeons le fichier de données en local (si celui-ci n'existe pas). Ceci afin de nous prémunir contre un éventuel problème de connexion à ce fichier.
......@@ -76,3 +78,68 @@ Il semble que le fichier soit complet.
## Formattage des données
### Transformation des données "date"
Le format des dates est particulier dans ce fichier : il est sous une forme numérique 'aaaass' , où 'a' et 's' représentent l'année et la semaine de la mesure respectivement (selon la norme ISO 8601).
```{r}
head(varicelle$week)
tail(varicelle$week)
```
La librairie `parsedate` permet de gérer ce type de format, en modifiant légérement la valeur de la date sous la forme 'aaaa-Wss'.
```{r}
varicelle <- varicelle %>%
# ajout du caractère "W" à la valeur de date, puis extraction en format "date"
mutate(temp_week = str_replace(string = week, pattern = "(\\d{4})(\\d{2})", replacement = "\\1-W\\2"),
iso_week = parse_iso_8601(temp_week)) %>%
select(-temp_week)
varicelle %>%
select(week, iso_week) %>%
head()
```
On peut vérifier la classe de cette nouvelle donnée :
```{r}
class(varicelle$iso_week)
```
Enfin, on peut trier les données afin de les avoir en ordre chronologique.
```{r}
varicelle <- varicelle %>%
arrange(iso_week)
```
### Visualisation
Une première analyse de l'incidence de la varicelle peut être faite visuellement.
```{r}
ggplot(varicelle, aes(x = iso_week, y = inc)) +
geom_line(col = "blue", alpha = 0.6) +
labs(title = "Incidence de la varicelle",
x = "Semaine", y = "Incidence") +
theme_bw()
```
Il semble y avoir une certaine saisonnalité. On peut zoomer sur les dernières années pour avoir un meilleur aperçu.
```{r}
varicelle %>%
filter(row_number() >= length(week) - 200) %>%
ggplot(aes(x = iso_week, y = inc)) +
geom_line(col = "blue", alpha = 0.6) +
labs(title = "Incidence de la varicelle",
x = "Semaine", y = "Incidence") +
scale_x_datetime(date_breaks = "6 months", date_labels = "%Y-%m") +
theme_bw()
```
Les pics d'incidence semblent avoir lieu au mois d'avril chaque année, alors que les creux sont plutôt présents vers le mois d'août.
## Analyse de l'incidence
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment