diff --git a/module3/exo3/varicelle.html b/module3/exo3/varicelle.html new file mode 100644 index 0000000000000000000000000000000000000000..2b51c2d348a9b9926965f061a182b26b86c3d81a --- /dev/null +++ b/module3/exo3/varicelle.html @@ -0,0 +1,534 @@ + + + + +
+ + + + + + + + + + +Les données ont été téléchargées en local sur l’ordinateur nous les +importons maintenant dans Rstudio
+dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE)
+Nous visualisons le tableau de données afin d’observer si il y a des +données manquantes
+View(dataV)
+Nous supprimons la premiere ligne qui est inutile
+dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE, skip =1)
+on vérifie
+View(dataV)
+head(dataV)
+## week indicator inc inc_low inc_up inc100 inc100_low inc100_up geo_insee
+## 1 202434 7 2831 415 5247 4 0 8 FR
+## 2 202433 7 1955 511 3399 3 1 5 FR
+## 3 202432 7 4399 1944 6854 7 3 11 FR
+## 4 202431 7 4500 2213 6787 7 4 10 FR
+## 5 202430 7 7004 4278 9730 11 7 15 FR
+## 6 202429 7 9270 6303 12237 14 10 18 FR
+## geo_name
+## 1 France
+## 2 France
+## 3 France
+## 4 France
+## 5 France
+## 6 France
+tail(dataV)
+## week indicator inc inc_low inc_up inc100 inc100_low inc100_up
+## 1755 199102 7 16277 11046 21508 29 20 38
+## 1756 199101 7 15565 10271 20859 27 18 36
+## 1757 199052 7 19375 13295 25455 34 23 45
+## 1758 199051 7 19080 13807 24353 34 25 43
+## 1759 199050 7 11079 6660 15498 20 12 28
+## 1760 199049 7 1143 0 2610 2 0 5
+## geo_insee geo_name
+## 1755 FR France
+## 1756 FR France
+## 1757 FR France
+## 1758 FR France
+## 1759 FR France
+## 1760 FR France
+Nous allons modifier le format de date à l’aide de la bibliothèque
+parsedate
library(parsedate)
+convert_week = function(date){
+ ws=paste(date)
+ iso=paste0(substring(ws, 1, 4), "-W", substring(ws, 5, 6))
+ as.character(parse_iso_8601(iso))
+}
+Création d’une nouvelle colonne avec les dates au bon format
+dataV$date = as.Date(sapply(dataV$week, convert_week))
+class(dataV$date)
+## [1] "Date"
+class(dataV$inc)
+## [1] "integer"
+On visualise les données sous forme d’un graphique
+plot(dataV$date,dataV$inc, type='l')
+Nous zoomons pour un idée plus précise
+with(tail(dataV, 200), plot(date, inc, type='l'))
+Nous voyons que les pic d’épidémie se situent plutôt en milieu +d’année.
+Nous allons modifier nos données pour qu’elles soient basées sur des +périodes annuelles commençant au premier Septembre
+pic_annuel = function(annee){
+ debut=paste0(annee-1,"-09-01")
+ fin=paste0(annee,"-09-01")
+ semaines=dataV$date > debut & dataV$date <= fin
+ sum(dataV$inc[semaines], na.rm = TRUE)
+}
+N’ayant pas les données complètes des années 1990 et 2024 nous ne +prendrons en compte les données que de 1991 à 2023
+annees= 1991:2023
+Nous créons un nouveau tableau ‘incidence_annuelle’ avec les colonnes +‘annee’ et ‘incidence’ en appliquant la fontion pic_annuelcrée juste +avant.
+incidence_annuelle = data.frame(annee=annees,
+ incidence = sapply(annees, pic_annuel))
+head(incidence_annuelle)
+## annee incidence
+## 1 1991 553895
+## 2 1992 834935
+## 3 1993 642921
+## 4 1994 662750
+## 5 1995 651333
+## 6 1996 564994
+Visualisons les données
+plot(incidence_annuelle, type='p')
+Nous voyons trois années légèrement superieures aux autres. Ordonnons +le tablreau d’incidence afin de vérifier cela.
+head(incidence_annuelle[order(-incidence_annuelle$incidence),])
+## annee incidence
+## 19 2009 841233
+## 2 1992 834935
+## 20 2010 834077
+## 26 2016 779816
+## 14 2004 778914
+## 13 2003 760765
+Le tableau nous informe que ce sont les annéees 2009, 1992 et +2010 qui ont les incidences les plus élevées.
+tail(incidence_annuelle[order(-incidence_annuelle$incidence),])
+## annee incidence
+## 27 2017 552906
+## 28 2018 539765
+## 12 2002 515343
+## 31 2021 377933
+## 33 2023 365607
+## 30 2020 221183
+L’incidence la plus basse est enregistrée en +2020
+la réalisation d’un histogramme va nous permettre de visualiser la +fréquence des épidémies de varicelle.
+hist(incidence_annuelle$incidence, breaks = 10)
+