uploaded varicelle exercise

parent 8aea8f84
---
title: "Varicelle"
author: "Jerome Riera"
date: "2024-08-31"
output: html_document
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
## Import des données
Les données ont été téléchargées en local sur l'ordinateur nous les importons maintenant dans Rstudio
```{r}
dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE)
```
Nous visualisons le tableau de données afin d'observer si il y a des données manquantes
```{r}
View(dataV)
```
Nous supprimons la premiere ligne qui est inutile
```{r}
dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE, skip =1)
```
on vérifie
```{r}
View(dataV)
```
```{r}
head(dataV)
```
```{r}
tail(dataV)
```
Nous allons modifier le format de date à l'aide de la bibliothèque `parsedate`
```{r}
library(parsedate)
convert_week = function(date){
ws=paste(date)
iso=paste0(substring(ws, 1, 4), "-W", substring(ws, 5, 6))
as.character(parse_iso_8601(iso))
}
```
Création d'une nouvelle colonne avec les dates au bon format
```{r}
dataV$date = as.Date(sapply(dataV$week, convert_week))
```
```{r}
class(dataV$date)
class(dataV$inc)
```
On visualise les données sous forme d'un graphique
```{r}
plot(dataV$date,dataV$inc, type='l')
```
Nous zoomons pour un idée plus précise
```{r}
with(tail(dataV, 200), plot(date, inc, type='l'))
```
Nous voyons que les pic d'épidémie se situent plutôt en milieu d'année.
## Réponses aux questions
### Quelles sont les années où l'incidence est la plus élevée ?
Nous allons modifier nos données pour qu'elles soient basées sur des périodes annuelles commençant au premier Septembre
```{r}
pic_annuel = function(annee){
debut=paste0(annee-1,"-09-01")
fin=paste0(annee,"-09-01")
semaines=dataV$date > debut & dataV$date <= fin
sum(dataV$inc[semaines], na.rm = TRUE)
}
```
N'ayant pas les données complètes des années 1990 et 2024 nous ne prendrons en compte les données que de 1991 à 2023
```{r}
annees= 1991:2023
```
Nous créons un nouveau tableau 'incidence_annuelle' avec les colonnes 'annee' et 'incidence' en appliquant la fontion pic_annuelcrée juste avant.
```{r}
incidence_annuelle = data.frame(annee=annees,
incidence = sapply(annees, pic_annuel))
```
```{r}
head(incidence_annuelle)
```
Visualisons les données
```{r}
plot(incidence_annuelle, type='p')
```
Nous voyons trois années légèrement superieures aux autres. Ordonnons le tablreau d'incidence afin de vérifier cela.
```{r}
head(incidence_annuelle[order(-incidence_annuelle$incidence),])
```
Le tableau nous informe que ce sont les annéees **2009, 1992 et 2010** qui ont les incidences les plus élevées.
```{r}
tail(incidence_annuelle[order(-incidence_annuelle$incidence),])
```
L'incidence la plus basse est enregistrée en **2020**
### Fréquence des épidémies
la réalisation d'un histogramme va nous permettre de visualiser la fréquence des épidémies de varicelle.
```{r}
hist(incidence_annuelle$incidence, breaks = 10)
```
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment