--- title: "Analyse de l'incidence de la varicelle" author: "Clément Car" date: "01-04-2020" output: html_document --- ```{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE) ``` Tout d'abord, nous allons récupérer les données sur le site du réseau Sentinelles. ```{r} data_url = "https://www.sentiweb.fr/datasets/incidence-PAY-7.csv" data = read.csv(data_url, skip=1) head(data) tail(data) na_records = apply(data, 1, function(x) any (is.na(x))) data[na_records,] ``` Il n'y a donc pas de donnée manquante ```{r} class(data$week) class(data$inc) ``` Les données des semaines et des incidences sont bien reconnues comme étant des entiers. ```{r} library(parsedate) ``` Changeons la date des semaines pour obtenir d'abord une date en ISO 8601, puis pour la convertir en classe "Date" ```{r} convert_week = function(w) { ws = paste(w) iso = paste0(substring(ws, 1, 4), "-W", substring(ws, 5,6)) as.character(parse_iso_8601(iso)) } ``` Maintenant, nous allons appliquer cette fonction aux dates de notre jeu de données ```{r} data$date = as.Date(convert_week(data$week)) class(data$date) data = data[order(data$date),] all(diff(data$date)==7) ``` Regardons maintenant nos données. ```{r} with(data, plot(date, inc, type="l")) with(tail(data, 100),plot(date, inc, type="l")) ``` ## L'incidence annuelle ###Calcul Nous choisissons le 1er septembre comme début de chaque période annuelle.Et nous enlevons l'année 1990 qui ne début qu'en fin d'année. ```{r} pic_annuel = function(annee) { debut = paste0(annee-1,"-09-01") fin = paste0(annee,"-09-01") semaines = data$date > debut & data$date <= fin sum(data$inc[semaines], na.rm=TRUE) } annees = 1991:2019 inc_annuelle = data.frame(annee=annees, incidence = sapply(annees, pic_annuel)) head(inc_annuelle) plot (inc_annuelle, type="p") ``` Une liste triée par ordre décroissant d'incidence annuelle permet de trouver rapidement les années les plus touchées par la varicelle. ```{r} head(inc_annuelle[order(-inc_annuelle$incidence),]) ``` C'est donc en 2009, 1992 et 2010 qu'il y a eu le plus d'incidences de varicelles. Un histogramme permet de montrer la répartition des données : ```{r} hist(inc_annuelle$incidence, breaks=15) ```