From bdc0bac9d9f77395d208c9b9e8f470dba1fdd2cf Mon Sep 17 00:00:00 2001 From: 2f72555a2613970ebb90637b2e23f177 <2f72555a2613970ebb90637b2e23f177@app-learninglab.inria.fr> Date: Sat, 31 Aug 2024 09:38:14 +0000 Subject: [PATCH] uploaded varicelle exercise --- module3/exo3/varicelle.Rmd | 136 +++++++++++++++++++++++++++++++++++++ 1 file changed, 136 insertions(+) create mode 100644 module3/exo3/varicelle.Rmd diff --git a/module3/exo3/varicelle.Rmd b/module3/exo3/varicelle.Rmd new file mode 100644 index 0000000..33b2732 --- /dev/null +++ b/module3/exo3/varicelle.Rmd @@ -0,0 +1,136 @@ +--- +title: "Varicelle" +author: "Jerome Riera" +date: "2024-08-31" +output: html_document +--- + +```{r setup, include=FALSE} +knitr::opts_chunk$set(echo = TRUE) +``` + +## Import des données + +Les données ont été téléchargées en local sur l'ordinateur nous les importons maintenant dans Rstudio + +```{r} +dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE) +``` + +Nous visualisons le tableau de données afin d'observer si il y a des données manquantes +```{r} +View(dataV) +``` +Nous supprimons la premiere ligne qui est inutile +```{r} +dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE, skip =1) +``` + +on vérifie +```{r} +View(dataV) +``` + +```{r} +head(dataV) +``` + +```{r} +tail(dataV) +``` + +Nous allons modifier le format de date à l'aide de la bibliothèque `parsedate` + +```{r} +library(parsedate) +convert_week = function(date){ + ws=paste(date) + iso=paste0(substring(ws, 1, 4), "-W", substring(ws, 5, 6)) + as.character(parse_iso_8601(iso)) +} +``` + +Création d'une nouvelle colonne avec les dates au bon format + +```{r} +dataV$date = as.Date(sapply(dataV$week, convert_week)) +``` + +```{r} +class(dataV$date) +class(dataV$inc) +``` + +On visualise les données sous forme d'un graphique + +```{r} +plot(dataV$date,dataV$inc, type='l') +``` + +Nous zoomons pour un idée plus précise + +```{r} +with(tail(dataV, 200), plot(date, inc, type='l')) +``` + +Nous voyons que les pic d'épidémie se situent plutôt en milieu d'année. + +## Réponses aux questions +### Quelles sont les années où l'incidence est la plus élevée ? + +Nous allons modifier nos données pour qu'elles soient basées sur des périodes annuelles commençant au premier Septembre + +```{r} +pic_annuel = function(annee){ + debut=paste0(annee-1,"-09-01") + fin=paste0(annee,"-09-01") + semaines=dataV$date > debut & dataV$date <= fin + sum(dataV$inc[semaines], na.rm = TRUE) +} +``` + +N'ayant pas les données complètes des années 1990 et 2024 nous ne prendrons en compte les données que de 1991 à 2023 + +```{r} +annees= 1991:2023 +``` + +Nous créons un nouveau tableau 'incidence_annuelle' avec les colonnes 'annee' et 'incidence' en appliquant la fontion pic_annuelcrée juste avant. + +```{r} +incidence_annuelle = data.frame(annee=annees, + incidence = sapply(annees, pic_annuel)) + +``` + +```{r} +head(incidence_annuelle) +``` + +Visualisons les données + +```{r} +plot(incidence_annuelle, type='p') +``` + +Nous voyons trois années légèrement superieures aux autres. Ordonnons le tablreau d'incidence afin de vérifier cela. + +```{r} +head(incidence_annuelle[order(-incidence_annuelle$incidence),]) +``` + +Le tableau nous informe que ce sont les annéees **2009, 1992 et 2010** qui ont les incidences les plus élevées. + +```{r} +tail(incidence_annuelle[order(-incidence_annuelle$incidence),]) +``` +L'incidence la plus basse est enregistrée en **2020** + +### Fréquence des épidémies + +la réalisation d'un histogramme va nous permettre de visualiser la fréquence des épidémies de varicelle. +```{r} +hist(incidence_annuelle$incidence, breaks = 10) +``` + + -- 2.18.1