uploaded varicelle exercise

bdc0bac9 · 2f72555a2613970ebb90637b2e23f177 · 8aea8f84 · bdc0bac9
Commit bdc0bac9 authored Aug 31, 2024 by 2f72555a2613970ebb90637b2e23f177
Hide whitespace changes
Inline Side-by-side

Showing with 136 additions and 0 deletions

varicelle.Rmd module3/exo3/varicelle.Rmd +136 -0

No files found.
--- a/module3/exo3/varicelle.Rmd
+++ b/module3/exo3/varicelle.Rmd
+---
+title: "Varicelle"
+author: "Jerome Riera"
+date: "2024-08-31"
+output: html_document
+---
+```{r setup, include=FALSE}
+knitr::opts_chunk$set(echo = TRUE)
+```
+## Import des données
+Les données ont été téléchargées en local sur l'ordinateur nous les importons maintenant dans Rstudio
+```{r}
+dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE)
+```
+Nous visualisons le tableau de données afin d'observer si il y a des données manquantes
+```{r}
+View(dataV)
+```
+Nous supprimons la premiere ligne qui est inutile
+```{r}
+dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE, skip =1)
+```
+on vérifie
+```{r}
+View(dataV)
+```
+```{r}
+head(dataV)
+```
+```{r}
+tail(dataV)
+```
+Nous allons modifier le  format de date à l'aide de la bibliothèque `parsedate`
+```{r}
+library(parsedate)
+convert_week = function(date){
+  ws=paste(date)
+  iso=paste0(substring(ws, 1, 4), "-W", substring(ws, 5, 6))
+  as.character(parse_iso_8601(iso))
+}
+```
+Création d'une nouvelle colonne avec les dates au bon format
+```{r}
+dataV$date = as.Date(sapply(dataV$week, convert_week))
+```
+```{r}
+class(dataV$date)
+class(dataV$inc)
+```
+On visualise les données sous forme d'un graphique
+```{r}
+plot(dataV$date,dataV$inc, type='l')
+```
+Nous zoomons pour un idée plus précise
+```{r}
+with(tail(dataV, 200), plot(date, inc, type='l'))
+```
+Nous voyons que les pic d'épidémie se situent plutôt en milieu d'année.
+## Réponses aux questions
+### Quelles sont les années où l'incidence est la plus élevée ?
+Nous allons modifier nos données pour qu'elles soient basées sur des périodes annuelles commençant au premier Septembre
+```{r}
+pic_annuel = function(annee){
+  debut=paste0(annee-1,"-09-01")
+  fin=paste0(annee,"-09-01")
+  semaines=dataV$date > debut & dataV$date <= fin
+  sum(dataV$inc[semaines], na.rm = TRUE)
+}
+```
+N'ayant pas les données complètes des années 1990 et 2024 nous ne prendrons en compte les données que de 1991 à 2023
+```{r}
+annees= 1991:2023
+```
+Nous créons un nouveau tableau 'incidence_annuelle' avec les colonnes 'annee' et 'incidence' en appliquant la fontion pic_annuelcrée juste avant.
+```{r}
+incidence_annuelle = data.frame(annee=annees,
+                                incidence = sapply(annees, pic_annuel))
+```
+```{r}
+head(incidence_annuelle)
+```
+Visualisons les données
+```{r}
+plot(incidence_annuelle, type='p')
+```
+Nous voyons trois années légèrement superieures aux autres. Ordonnons le tablreau d'incidence afin de vérifier cela.
+```{r}
+head(incidence_annuelle[order(-incidence_annuelle$incidence),])
+```
+Le tableau nous informe que ce sont les annéees **2009, 1992 et 2010** qui ont les incidences les plus élevées.
+```{r}
+tail(incidence_annuelle[order(-incidence_annuelle$incidence),])
+```
+L'incidence la plus basse est enregistrée en **2020**
+### Fréquence des épidémies
+la réalisation d'un histogramme va nous permettre de visualiser la fréquence des épidémies de varicelle.
+```{r}
+hist(incidence_annuelle$incidence, breaks = 10)
+```