Update analyse-syndrome-grippal_fr.Rmd

parent c322c8cc
--- ---
title: "Analyse de l'incidence du syndrôme grippal" title: "Analyse de l'incidence du syndrôme grippal"
author: "Konrad Hinsen" author: "Benhamouche Sofiane"
output: output:
pdf_document: pdf_document:
toc: true
html_document:
toc: true
theme: journal
documentclass: article
classoption: a4paper
header-includes:
- \usepackage[french]{babel}
- \usepackage[upright]{fourier}
- \hypersetup{colorlinks=true,pagebackref=true}
--- ---
```{r setup, include=FALSE} ```{r setup, include=FALSE}
...@@ -56,13 +46,13 @@ head(data) ...@@ -56,13 +46,13 @@ head(data)
tail(data) tail(data)
``` ```
Y a-t-il des points manquants dans nos données ? les points manquants
```{r} ```{r}
na_records = apply(data, 1, function (x) any(is.na(x))) na_records = apply(data, 1, function (x) any(is.na(x)))
data[na_records,] data[na_records,]
``` ```
Les deux colonnes qui nous intéressent sont `week` et `inc`. Vérifions leurs classes: Les colonnes q `week` et `inc`
```{r} ```{r}
class(data$week) class(data$week)
class(data$inc) class(data$inc)
...@@ -87,7 +77,6 @@ convert_week = function(w) { ...@@ -87,7 +77,6 @@ convert_week = function(w) {
} }
``` ```
Nous appliquons cette fonction à tous les points, créant une nouvelle colonne `date` dans notre jeu de données:
```{r} ```{r}
data$date = as.Date(convert_week(data$week)) data$date = as.Date(convert_week(data$week))
``` ```
...@@ -123,8 +112,7 @@ with(tail(data, 200), plot(date, inc, type="l", xlab="Date", ylab="Incidence heb ...@@ -123,8 +112,7 @@ with(tail(data, 200), plot(date, inc, type="l", xlab="Date", ylab="Incidence heb
### Calcul ### Calcul
Étant donné que le pic de l'épidémie se situe en hiver, à cheval entre deux années civiles, nous définissons la période de référence entre deux minima de l'incidence, du 1er août de l'année $N$ au 1er août de l'année $N+1$. Nous mettons l'année $N+1$ comme étiquette sur cette année décalée, car le pic de l'épidémie est toujours au début de l'année $N+1$. Comme l'incidence de syndrome grippal est très faible en été, cette modification ne risque pas de fausser nos conclusions. Étant donné que le pic de l'épidémie se situe en hiver, à cheval entre deux années civiles,
L'argument `na.rm=True` dans la sommation précise qu'il faut supprimer les points manquants. Ce choix est raisonnable car il n'y a qu'un seul point manquant, dont l'impact ne peut pas être très fort.
```{r} ```{r}
pic_annuel = function(annee) { pic_annuel = function(annee) {
debut = paste0(annee-1,"-08-01") debut = paste0(annee-1,"-08-01")
...@@ -146,21 +134,11 @@ inc_annuelle = data.frame(annee = annees, ...@@ -146,21 +134,11 @@ inc_annuelle = data.frame(annee = annees,
head(inc_annuelle) head(inc_annuelle)
``` ```
### Inspection ##Inspection
Voici les incidences annuelles en graphique: Voici les incidences annuelles en graphique:
```{r} ```{r}
plot(inc_annuelle, type="p", xlab="Année", ylab="Incidence annuelle") plot(inc_annuelle, type="p", xlab="Année", ylab="Incidence annuelle")
``` ```
### Identification des épidémies les plus fortes
Une liste triée par ordre décroissant d'incidence annuelle permet de plus facilement repérer les valeurs les plus élevées:
```{r}
head(inc_annuelle[order(-inc_annuelle$incidence),])
```
Enfin, un histogramme montre bien que les épidémies fortes, qui touchent environ 10% de la population française, sont assez rares: il y en eu trois au cours des 35 dernières années.
```{r}
hist(inc_annuelle$incidence, breaks=10, xlab="Incidence annuelle", ylab="Nb d'observations", main="")
``` ```
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment