Import des données

Les données ont été téléchargées en local sur l’ordinateur nous les importons maintenant dans Rstudio

dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE)

Nous visualisons le tableau de données afin d’observer si il y a des données manquantes

View(dataV)

Nous supprimons la premiere ligne qui est inutile

dataV<-read.csv("/Users/jeromeriera/Library/Mobile Documents/com~apple~CloudDocs/Thèse/MOOC RR/mooc rr/module3/exo3/inc-7-PAY.csv", header = TRUE, skip =1)

on vérifie

View(dataV)
head(dataV)
##     week indicator  inc inc_low inc_up inc100 inc100_low inc100_up geo_insee
## 1 202434         7 2831     415   5247      4          0         8        FR
## 2 202433         7 1955     511   3399      3          1         5        FR
## 3 202432         7 4399    1944   6854      7          3        11        FR
## 4 202431         7 4500    2213   6787      7          4        10        FR
## 5 202430         7 7004    4278   9730     11          7        15        FR
## 6 202429         7 9270    6303  12237     14         10        18        FR
##   geo_name
## 1   France
## 2   France
## 3   France
## 4   France
## 5   France
## 6   France
tail(dataV)
##        week indicator   inc inc_low inc_up inc100 inc100_low inc100_up
## 1755 199102         7 16277   11046  21508     29         20        38
## 1756 199101         7 15565   10271  20859     27         18        36
## 1757 199052         7 19375   13295  25455     34         23        45
## 1758 199051         7 19080   13807  24353     34         25        43
## 1759 199050         7 11079    6660  15498     20         12        28
## 1760 199049         7  1143       0   2610      2          0         5
##      geo_insee geo_name
## 1755        FR   France
## 1756        FR   France
## 1757        FR   France
## 1758        FR   France
## 1759        FR   France
## 1760        FR   France

Nous allons modifier le format de date à l’aide de la bibliothèque parsedate

library(parsedate)
convert_week = function(date){
  ws=paste(date)
  iso=paste0(substring(ws, 1, 4), "-W", substring(ws, 5, 6))
  as.character(parse_iso_8601(iso))
}

Création d’une nouvelle colonne avec les dates au bon format

dataV$date = as.Date(sapply(dataV$week, convert_week))
class(dataV$date)
## [1] "Date"
class(dataV$inc)
## [1] "integer"

On visualise les données sous forme d’un graphique

plot(dataV$date,dataV$inc, type='l')

Nous zoomons pour un idée plus précise

with(tail(dataV, 200), plot(date, inc, type='l'))

Nous voyons que les pic d’épidémie se situent plutôt en milieu d’année.

Réponses aux questions

Quelles sont les années où l’incidence est la plus élevée ?

Nous allons modifier nos données pour qu’elles soient basées sur des périodes annuelles commençant au premier Septembre

pic_annuel = function(annee){
  debut=paste0(annee-1,"-09-01")
  fin=paste0(annee,"-09-01")
  semaines=dataV$date > debut & dataV$date <= fin
  sum(dataV$inc[semaines], na.rm = TRUE)
}

N’ayant pas les données complètes des années 1990 et 2024 nous ne prendrons en compte les données que de 1991 à 2023

annees= 1991:2023

Nous créons un nouveau tableau ‘incidence_annuelle’ avec les colonnes ‘annee’ et ‘incidence’ en appliquant la fontion pic_annuelcrée juste avant.

incidence_annuelle = data.frame(annee=annees,
                                incidence = sapply(annees, pic_annuel))
head(incidence_annuelle)
##   annee incidence
## 1  1991    553895
## 2  1992    834935
## 3  1993    642921
## 4  1994    662750
## 5  1995    651333
## 6  1996    564994

Visualisons les données

plot(incidence_annuelle, type='p')

Nous voyons trois années légèrement superieures aux autres. Ordonnons le tablreau d’incidence afin de vérifier cela.

head(incidence_annuelle[order(-incidence_annuelle$incidence),])
##    annee incidence
## 19  2009    841233
## 2   1992    834935
## 20  2010    834077
## 26  2016    779816
## 14  2004    778914
## 13  2003    760765

Le tableau nous informe que ce sont les annéees 2009, 1992 et 2010 qui ont les incidences les plus élevées.

tail(incidence_annuelle[order(-incidence_annuelle$incidence),])
##    annee incidence
## 27  2017    552906
## 28  2018    539765
## 12  2002    515343
## 31  2021    377933
## 33  2023    365607
## 30  2020    221183

L’incidence la plus basse est enregistrée en 2020

Fréquence des épidémies

la réalisation d’un histogramme va nous permettre de visualiser la fréquence des épidémies de varicelle.

hist(incidence_annuelle$incidence, breaks = 10)