From 7eb2bd31b33f774c93d6ed10c2fd9850f23054c2 Mon Sep 17 00:00:00 2001 From: 2f72555a2613970ebb90637b2e23f177 <2f72555a2613970ebb90637b2e23f177@app-learninglab.inria.fr> Date: Sat, 31 Aug 2024 09:42:27 +0000 Subject: [PATCH] Upload .html file of the varicelle exercise --- module3/exo3/varicelle.html | 534 ++++++++++++++++++++++++++++++++++++ 1 file changed, 534 insertions(+) create mode 100644 module3/exo3/varicelle.html diff --git a/module3/exo3/varicelle.html b/module3/exo3/varicelle.html new file mode 100644 index 0000000..2b51c2d --- /dev/null +++ b/module3/exo3/varicelle.html @@ -0,0 +1,534 @@ + + + + + + + + + + + + + + + +Varicelle + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + +
+

Import des données

+

Les données ont été téléchargées en local sur l’ordinateur nous les +importons maintenant dans Rstudio

+
dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE)
+

Nous visualisons le tableau de données afin d’observer si il y a des +données manquantes

+
View(dataV)
+

Nous supprimons la premiere ligne qui est inutile

+
dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE, skip =1)
+

on vérifie

+
View(dataV)
+
head(dataV)
+
##     week indicator  inc inc_low inc_up inc100 inc100_low inc100_up geo_insee
+## 1 202434         7 2831     415   5247      4          0         8        FR
+## 2 202433         7 1955     511   3399      3          1         5        FR
+## 3 202432         7 4399    1944   6854      7          3        11        FR
+## 4 202431         7 4500    2213   6787      7          4        10        FR
+## 5 202430         7 7004    4278   9730     11          7        15        FR
+## 6 202429         7 9270    6303  12237     14         10        18        FR
+##   geo_name
+## 1   France
+## 2   France
+## 3   France
+## 4   France
+## 5   France
+## 6   France
+
tail(dataV)
+
##        week indicator   inc inc_low inc_up inc100 inc100_low inc100_up
+## 1755 199102         7 16277   11046  21508     29         20        38
+## 1756 199101         7 15565   10271  20859     27         18        36
+## 1757 199052         7 19375   13295  25455     34         23        45
+## 1758 199051         7 19080   13807  24353     34         25        43
+## 1759 199050         7 11079    6660  15498     20         12        28
+## 1760 199049         7  1143       0   2610      2          0         5
+##      geo_insee geo_name
+## 1755        FR   France
+## 1756        FR   France
+## 1757        FR   France
+## 1758        FR   France
+## 1759        FR   France
+## 1760        FR   France
+

Nous allons modifier le format de date à l’aide de la bibliothèque +parsedate

+
library(parsedate)
+convert_week = function(date){
+  ws=paste(date)
+  iso=paste0(substring(ws, 1, 4), "-W", substring(ws, 5, 6))
+  as.character(parse_iso_8601(iso))
+}
+

Création d’une nouvelle colonne avec les dates au bon format

+
dataV$date = as.Date(sapply(dataV$week, convert_week))
+
class(dataV$date)
+
## [1] "Date"
+
class(dataV$inc)
+
## [1] "integer"
+

On visualise les données sous forme d’un graphique

+
plot(dataV$date,dataV$inc, type='l')
+

+

Nous zoomons pour un idée plus précise

+
with(tail(dataV, 200), plot(date, inc, type='l'))
+

+

Nous voyons que les pic d’épidémie se situent plutôt en milieu +d’année.

+
+
+

Réponses aux questions

+
+

Quelles sont les années où l’incidence est la plus élevée ?

+

Nous allons modifier nos données pour qu’elles soient basées sur des +périodes annuelles commençant au premier Septembre

+
pic_annuel = function(annee){
+  debut=paste0(annee-1,"-09-01")
+  fin=paste0(annee,"-09-01")
+  semaines=dataV$date > debut & dataV$date <= fin
+  sum(dataV$inc[semaines], na.rm = TRUE)
+}
+

N’ayant pas les données complètes des années 1990 et 2024 nous ne +prendrons en compte les données que de 1991 à 2023

+
annees= 1991:2023
+

Nous créons un nouveau tableau ‘incidence_annuelle’ avec les colonnes +‘annee’ et ‘incidence’ en appliquant la fontion pic_annuelcrée juste +avant.

+
incidence_annuelle = data.frame(annee=annees,
+                                incidence = sapply(annees, pic_annuel))
+
head(incidence_annuelle)
+
##   annee incidence
+## 1  1991    553895
+## 2  1992    834935
+## 3  1993    642921
+## 4  1994    662750
+## 5  1995    651333
+## 6  1996    564994
+

Visualisons les données

+
plot(incidence_annuelle, type='p')
+

+

Nous voyons trois années légèrement superieures aux autres. Ordonnons +le tablreau d’incidence afin de vérifier cela.

+
head(incidence_annuelle[order(-incidence_annuelle$incidence),])
+
##    annee incidence
+## 19  2009    841233
+## 2   1992    834935
+## 20  2010    834077
+## 26  2016    779816
+## 14  2004    778914
+## 13  2003    760765
+

Le tableau nous informe que ce sont les annéees 2009, 1992 et +2010 qui ont les incidences les plus élevées.

+
tail(incidence_annuelle[order(-incidence_annuelle$incidence),])
+
##    annee incidence
+## 27  2017    552906
+## 28  2018    539765
+## 12  2002    515343
+## 31  2021    377933
+## 33  2023    365607
+## 30  2020    221183
+

L’incidence la plus basse est enregistrée en +2020

+
+
+

Fréquence des épidémies

+

la réalisation d’un histogramme va nous permettre de visualiser la +fréquence des épidémies de varicelle.

+
hist(incidence_annuelle$incidence, breaks = 10)
+

+
+
+ + + + +
+ + + + + + + + + + + + + + + -- 2.18.1