formatting improvements (done by Rstudio)

bb161d5a · Dorian Goepp · 07c52fb4 · bb161d5a
Commit bb161d5a authored Nov 23, 2022 by Dorian Goepp
Show whitespace changes
Inline Side-by-side

Showing with 25 additions and 11 deletions

analyse-syndrome-grippal.Rmd module3/exo1/analyse-syndrome-grippal.Rmd +25 -11

No files found.
--- a/module3/exo1/analyse-syndrome-grippal.Rmd
+++ b/module3/exo1/analyse-syndrome-grippal.Rmd
@@ -22,6 +22,7 @@ knitr::opts_chunk$set(echo = TRUE)
 ## Préparation des données
 Les données de l'incidence du syndrome grippal sont disponibles du site Web du [Réseau Sentinelles](http://www.sentiweb.fr/). Nous les récupérons sous forme d'un fichier en format CSV dont chaque ligne correspond à une semaine de la période demandée. Nous téléchargeons toujours le jeu de données complet, qui commence en 1984 et se termine avec une semaine récente. L'URL est:
 ```{r}
 data_url = "http://www.sentiweb.fr/datasets/incidence-PAY-3.csv"
 ```
@@ -29,7 +30,7 @@ data_url = "http://www.sentiweb.fr/datasets/incidence-PAY-3.csv"
 Voici l'explication des colonnes donnée sur le [sur le site d'origine](https://ns.sentiweb.fr/incidence/csv-schema-v1.json):
 | Nom de colonne | Libellé de colonne                                                                                                                |
-|----------------+-----------------------------------------------------------------------------------------------------------------------------------|
+|-----------------|-------------------------------------------------------|
 | `week`         | Semaine calendaire (ISO 8601)                                                                                                     |
 | `indicator`    | Code de l'indicateur de surveillance                                                                                              |
 | `inc`          | Estimation de l'incidence de consultations en nombre de cas                                                                       |
@@ -38,32 +39,37 @@ Voici l'explication des colonnes donnée sur le [sur le site d'origine](https://
 | `inc100`       | Estimation du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants)                                   |
 | `inc100_low`   | Estimation de la borne inférieure de l'IC95% du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants) |
 | `inc100_up`    | Estimation de la borne supérieure de l'IC95% du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants) |
-| `geo_insee`  | Code de la zone géographique concernée (Code INSEE) http://www.insee.fr/fr/methodes/nomenclatures/cog/                            |
+| `geo_insee`    | Code de la zone géographique concernée (Code INSEE) <http://www.insee.fr/fr/methodes/nomenclatures/cog/>                          |
 | `geo_name`     | Libellé de la zone géographique (ce libellé peut être modifié sans préavis)                                                       |
 La première ligne du fichier CSV est un commentaire, que nous ignorons en précisant `skip=1`.
 ### Téléchargement
 ```{r}
 data = read.csv(data_url, skip=1)
 ```
 Regardons ce que nous avons obtenu:
 ```{r}
 head(data)
 tail(data)
 ```
 Y a-t-il des points manquants dans nos données ?
 ```{r}
 na_records = apply(data, 1, function (x) any(is.na(x)))
 data[na_records,]
 ```
 Les deux colonnes qui nous intéressent sont `week` et `inc`. Vérifions leurs classes:
 ```{r}
 class(data$week)
 class(data$inc)
 ```
 Ce sont des entiers, tout va bien !
 ### Conversion des numéros de semaine
@@ -85,21 +91,25 @@ convert_week = function(w) {
 ```
 Nous appliquons cette fonction à tous les points, créant une nouvelle colonne `date` dans notre jeu de données:
 ```{r}
 data$date = as.Date(convert_week(data$week))
 ```
 Vérifions qu'elle est de classe `Date`:
 ```{r}
 class(data$date)
 ```
 Les points sont dans l'ordre chronologique inverse, il est donc utile de les trier:
 ```{r}
 data = data[order(data$date),]
 ```
 C'est l'occasion pour faire une vérification: nos dates doivent être séparées d'exactement sept jours:
 ```{r}
 all(diff(data$date) == 7)
 ```
@@ -107,11 +117,13 @@ all(diff(data$date) == 7)
 ### Inspection
 Regardons enfin à quoi ressemblent nos données !
 ```{r}
 plot(data$date, data$inc, type="l", xlab="Date", ylab="Incidence hebdomadaire")
 ```
 Un zoom sur les dernières années montre mieux la localisation des pics en hiver. Le creux des incidences se trouve en été.
 ```{r}
 with(tail(data, 200), plot(date, inc, type="l", xlab="Date", ylab="Incidence hebdomadaire"))
 ```
@@ -146,6 +158,7 @@ head(inc_annuelle)
 ### Inspection
 Voici les incidences annuelles en graphique:
 ```{r}
 plot(inc_annuelle, type="p", xlab="Année", ylab="Incidence annuelle")
 ```
@@ -153,6 +166,7 @@ plot(inc_annuelle, type="p", xlab="Année", ylab="Incidence annuelle")
 ### Identification des épidémies les plus fortes
 Une liste triée par ordre décroissant d'incidence annuelle permet de plus facilement repérer les valeurs les plus élevées:
 ```{r}
 head(inc_annuelle[order(-inc_annuelle$incidence),])
 ```