Commit a1aa6b9e authored by Martin DAVY's avatar Martin DAVY

suivi du cours du module 3

parent 38e99afb
This source diff could not be displayed because it is too large. You can view the blob instead.
---
title: "Analyse de l'incidence de syndromes grippaux"
author: "Martin DAVY"
date: "14/12/2021"
output: html_document
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
# Chargement des données directement depuis la source
```{r}
data_url = "https://www.sentiweb.fr/datasets/incidence-PAY-3.csv"
data = read.csv(data_url, skip=1)
```
```{r}
# visualisation des premiere et derniere valeur du tableau
head(data)
```
```{r}
tail(data)
```
```{r}
lignes_na = apply(data, 1, function(x) any(is.na(x)))
data[lignes_na,]
```
# Vérification des type de données
```{r}
class(data$week)
```
```{r}
class(data$inc)
```
# Gestion des données manquantes
A cause des données manquantes dans le tutoriel de la formation la colonne "inc"
est considérée comme un facteur alors que c'est un entier.
Pour corriger ca il suffit de relire la fichier en spécifiant que le caractére '-'
est un NA
```{r}
data = read.csv(data_url, skip = 1, na.strings = "-")
class(data$inc)
```
## vérification et inspection
```{r}
library(parsedate)
```
```{r}
convert_week = function(date){
ws = paste(date)
iso = paste0(substring(ws, 1, 4), "-W", substring(ws, 5, 6))
as.character(parse_iso_8601(iso))
}
```
```{r}
data$date = as.Date(sapply(data$week, convert_week))
```
```{r}
class(data$date)
```
```{r}
data = data[order(data$date), ]
```
```{r}
head(data)
```
Il faut que l'écart entre chaque ligne soit de 7 jours
```{r}
all(diff(data$date) == 7)
```
```{r}
with(data, plot(date, inc, type = "l"))
```
```{r}
with(tail(data, 200), plot(date, inc, type = "l"))
```
# Questions réponses
## 1. Dans quelle années y avait-il les épidémies les plus fortes ?
Une année sera d'aout de l'année n-1 à aout de l'année n-1 car le début d'un année civile à une forte incidence de grippe
```{r}
pic_annuel = function(annee)
{
debut = paste0(annee-1, "-08-01")
fin = paste0(annee, "-08-01")
semaines = data$date > debut & data$date <= fin
sum(data$inc[semaines], na.rm = TRUE)
}
```
Nous commençons à partir de l'année 1986 car l'année 1985 à une semaine sans valeur
```{r}
annees = 1986:2017
```
```{r}
incidence_annuelle = data.frame(annee = annees,
incidence = sapply(annees, pic_annuel))
```
```{r}
head(incidence_annuelle)
```
```{r}
plot(incidence_annuelle, type = "p")
```
```{r}
head(incidence_annuelle[order(-incidence_annuelle$incidence),])
```
## 2. Quelle est la fréquence d'épidémies faibles, moyennes, et fortes ?
```{r}
hist(incidence_annuelle$incidence, breaks = 10)
```
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment