Les données ont été téléchargées en local sur l’ordinateur nous les importons maintenant dans Rstudio
dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE)
Nous visualisons le tableau de données afin d’observer si il y a des données manquantes
View(dataV)
Nous supprimons la premiere ligne qui est inutile
dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE, skip =1)
on vérifie
View(dataV)
head(dataV)
## week indicator inc inc_low inc_up inc100 inc100_low inc100_up geo_insee
## 1 202434 7 2831 415 5247 4 0 8 FR
## 2 202433 7 1955 511 3399 3 1 5 FR
## 3 202432 7 4399 1944 6854 7 3 11 FR
## 4 202431 7 4500 2213 6787 7 4 10 FR
## 5 202430 7 7004 4278 9730 11 7 15 FR
## 6 202429 7 9270 6303 12237 14 10 18 FR
## geo_name
## 1 France
## 2 France
## 3 France
## 4 France
## 5 France
## 6 France
tail(dataV)
## week indicator inc inc_low inc_up inc100 inc100_low inc100_up
## 1755 199102 7 16277 11046 21508 29 20 38
## 1756 199101 7 15565 10271 20859 27 18 36
## 1757 199052 7 19375 13295 25455 34 23 45
## 1758 199051 7 19080 13807 24353 34 25 43
## 1759 199050 7 11079 6660 15498 20 12 28
## 1760 199049 7 1143 0 2610 2 0 5
## geo_insee geo_name
## 1755 FR France
## 1756 FR France
## 1757 FR France
## 1758 FR France
## 1759 FR France
## 1760 FR France
Nous allons modifier le format de date à l’aide de la bibliothèque
parsedate
library(parsedate)
convert_week = function(date){
ws=paste(date)
iso=paste0(substring(ws, 1, 4), "-W", substring(ws, 5, 6))
as.character(parse_iso_8601(iso))
}
Création d’une nouvelle colonne avec les dates au bon format
dataV$date = as.Date(sapply(dataV$week, convert_week))
class(dataV$date)
## [1] "Date"
class(dataV$inc)
## [1] "integer"
On visualise les données sous forme d’un graphique
plot(dataV$date,dataV$inc, type='l')
Nous zoomons pour un idée plus précise
with(tail(dataV, 200), plot(date, inc, type='l'))
Nous voyons que les pic d’épidémie se situent plutôt en milieu d’année.
Nous allons modifier nos données pour qu’elles soient basées sur des périodes annuelles commençant au premier Septembre
pic_annuel = function(annee){
debut=paste0(annee-1,"-09-01")
fin=paste0(annee,"-09-01")
semaines=dataV$date > debut & dataV$date <= fin
sum(dataV$inc[semaines], na.rm = TRUE)
}
N’ayant pas les données complètes des années 1990 et 2024 nous ne prendrons en compte les données que de 1991 à 2023
annees= 1991:2023
Nous créons un nouveau tableau ‘incidence_annuelle’ avec les colonnes ‘annee’ et ‘incidence’ en appliquant la fontion pic_annuelcrée juste avant.
incidence_annuelle = data.frame(annee=annees,
incidence = sapply(annees, pic_annuel))
head(incidence_annuelle)
## annee incidence
## 1 1991 553895
## 2 1992 834935
## 3 1993 642921
## 4 1994 662750
## 5 1995 651333
## 6 1996 564994
Visualisons les données
plot(incidence_annuelle, type='p')
Nous voyons trois années légèrement superieures aux autres. Ordonnons le tablreau d’incidence afin de vérifier cela.
head(incidence_annuelle[order(-incidence_annuelle$incidence),])
## annee incidence
## 19 2009 841233
## 2 1992 834935
## 20 2010 834077
## 26 2016 779816
## 14 2004 778914
## 13 2003 760765
Le tableau nous informe que ce sont les annéees 2009, 1992 et 2010 qui ont les incidences les plus élevées.
tail(incidence_annuelle[order(-incidence_annuelle$incidence),])
## annee incidence
## 27 2017 552906
## 28 2018 539765
## 12 2002 515343
## 31 2021 377933
## 33 2023 365607
## 30 2020 221183
L’incidence la plus basse est enregistrée en 2020
la réalisation d’un histogramme va nous permettre de visualiser la fréquence des épidémies de varicelle.
hist(incidence_annuelle$incidence, breaks = 10)