--- title: "Analyse de l'incidence du syndrôle grippal" author : "Clair Ch" date : "13/04/2020" output: html_document --- ```{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE) ``` # importer les données Je télécharge les données du site sentinelles en ignorant la première ligne qui contient les commentaires ```{r} data_url<-"http://www.sentiweb.fr/datasets/incidence-PAY-3.csv" data<-read.csv(data_url, skip=1) head(data) ``` les colonnes qui nous intéressent sont "week" (1ère colonne, attention les données sont dans l'ordre chronologique inverse) et "inc" (3ème colonne, incidence du syndrome grippal) est-ce qu'il y a des points manquants ? ```{r} lignes_na<-apply(data,1,function(x) any(is.na(x))) data[lignes_na,] ``` Il manque les données de l'année 1989 semaine 19 Vérifier le type de données des colonnes qui nous intéressent ```{r} class(data$week) class(data$inc) ``` Ce sont bien des entiers, tout va bien # vérification et inspection des données ## conversion des dates conversion des dates grâce à la bibliothèque parsedate : 199501 en 1995-01-02 UT (date du lundi) ```{r} library(parsedate) convert_week<-function(w){ ws<-paste(w)#convertir en chaine de caracteres iso<-paste0(substring(ws,1,4),"-W",substring(ws,5,6))#1995-W01 as.character(parse_iso_8601(iso))#1995-01-02 UT } ``` mettre les dates à la norme iso dans une nouvelle colonne date ```{r} data$date<-as.Date(convert_week(data$week)) ``` on vérifie que c'est bien de classe date ```{r} class(data$date) ``` mettre les données dans l'ordre chronologique ```{r} data<-data[order(data$date),] ``` vérification ```{r} head(data) ``` vérification que les données ont bien été faites toutes les semaines (toutes les 7 jours) ```{r} all(diff(data$date)==7) ``` ## inspection regardons à quoi ressemblent les données ```{r} with(data,plot(date,inc,type="l")) ``` zoom sur les 200 derniers points (4 ans) ```{r} with(tail(data,200),plot(date,inc,type="l")) ``` on voit un pic en début d'année (hiver) # questions et réponses Les questions que l'on se pose : 1. dans quelle année y avait-il les épidémies les plus fortes ? 2. quelle est la fréquence d'épidémies faibles, moyennes, et fortes ? On veut regarder les données par années, mais conserver le pic d'épidémie (qui chevauche une année civile) : on prendra les données du 1er août d'une année au 1er août de l'année d'après ## Incidence annuelle ### Calcul Étant donné que le pic de l'épidémie se situe en hiver, à cheval entre deux années civiles, nous définissons la période de référence entre deux minima de l'incidence, du 1er août de l'année $N$ au 1er août de l'année $N+1$. Nous mettons l'année $N+1$ comme étiquette sur cette année décalée, car le pic de l'épidémie est toujours au début de l'année $N+1$. Comme l'incidence de syndrome grippal est très faible en été, cette modification ne risque pas de fausser nos conclusions. L'argument `na.rm=True` dans la sommation précise qu'il faut supprimer les points manquants. Ce choix est raisonnable car il n'y a qu'un seul point manquant, dont l'impact ne peut pas être très fort. ```{r} pic_annuel<-function(annee){ debut<-paste0(annee-1, "-08-01") fin<-paste0(annee,"-08-01") semaines<-data$date>debut & data$date