--- title: "Varicelle" author: "Jerome Riera" date: "2024-08-31" output: html_document --- ```{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE) ``` ## Import des données Les données ont été téléchargées en local sur l'ordinateur nous les importons maintenant dans Rstudio ```{r} dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE) ``` Nous visualisons le tableau de données afin d'observer si il y a des données manquantes ```{r} View(dataV) ``` Nous supprimons la premiere ligne qui est inutile ```{r} dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE, skip =1) ``` on vérifie ```{r} View(dataV) ``` ```{r} head(dataV) ``` ```{r} tail(dataV) ``` Nous allons modifier le format de date à l'aide de la bibliothèque `parsedate` ```{r} library(parsedate) convert_week = function(date){ ws=paste(date) iso=paste0(substring(ws, 1, 4), "-W", substring(ws, 5, 6)) as.character(parse_iso_8601(iso)) } ``` Création d'une nouvelle colonne avec les dates au bon format ```{r} dataV$date = as.Date(sapply(dataV$week, convert_week)) ``` ```{r} class(dataV$date) class(dataV$inc) ``` On visualise les données sous forme d'un graphique ```{r} plot(dataV$date,dataV$inc, type='l') ``` Nous zoomons pour un idée plus précise ```{r} with(tail(dataV, 200), plot(date, inc, type='l')) ``` Nous voyons que les pic d'épidémie se situent plutôt en milieu d'année. ## Réponses aux questions ### Quelles sont les années où l'incidence est la plus élevée ? Nous allons modifier nos données pour qu'elles soient basées sur des périodes annuelles commençant au premier Septembre ```{r} pic_annuel = function(annee){ debut=paste0(annee-1,"-09-01") fin=paste0(annee,"-09-01") semaines=dataV$date > debut & dataV$date <= fin sum(dataV$inc[semaines], na.rm = TRUE) } ``` N'ayant pas les données complètes des années 1990 et 2024 nous ne prendrons en compte les données que de 1991 à 2023 ```{r} annees= 1991:2023 ``` Nous créons un nouveau tableau 'incidence_annuelle' avec les colonnes 'annee' et 'incidence' en appliquant la fontion pic_annuelcrée juste avant. ```{r} incidence_annuelle = data.frame(annee=annees, incidence = sapply(annees, pic_annuel)) ``` ```{r} head(incidence_annuelle) ``` Visualisons les données ```{r} plot(incidence_annuelle, type='p') ``` Nous voyons trois années légèrement superieures aux autres. Ordonnons le tablreau d'incidence afin de vérifier cela. ```{r} head(incidence_annuelle[order(-incidence_annuelle$incidence),]) ``` Le tableau nous informe que ce sont les annéees **2009, 1992 et 2010** qui ont les incidences les plus élevées. ```{r} tail(incidence_annuelle[order(-incidence_annuelle$incidence),]) ``` L'incidence la plus basse est enregistrée en **2020** ### Fréquence des épidémies la réalisation d'un histogramme va nous permettre de visualiser la fréquence des épidémies de varicelle. ```{r} hist(incidence_annuelle$incidence, breaks = 10) ```