# Incidence de la varicelle

## Chargement des données

In [32]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import isoweek

On commence par récupérer les données depuis le site [Réseau Sentinelles](https://www.sentiweb.fr/france/fr/?) en naviguant dans le menu de gauche: `Surveillance continue`-> `Bases de données` puis `Accès aux données`. On sélectionne `Varicelle (1991 - en cours)` dans le menu déroulant intitulé `Maladie/Indicateur` puis, dans l'onglet `Télécharger` on prend soin de télécharger les données au format CSV afin de déterminer l'URL permettant d'accéder à ces données. Celle-ci est stockée sous la forme d'une chaîne de caractères dans la variable suivante:

In [33]:
data_url = "https://www.sentiweb.fr/datasets/incidence-PAY-7.csv"

La lecture des données brutes donne:

In [34]:
raw_data = pd.read_csv(data_url, encoding = 'iso-8859-1', skiprows=1)
raw_data

Unnamed: 0,week,indicator,inc,inc_low,inc_up,inc100,inc100_low,inc100_up,geo_insee,geo_name
0,202203,7,14299,10896,17702,22,17,27,FR,France
1,202202,7,8506,6034,10978,13,9,17,FR,France
2,202201,7,13793,10597,16989,21,16,26,FR,France
3,202152,7,13239,9611,16867,20,15,25,FR,France
4,202151,7,13326,9629,17023,20,14,26,FR,France
5,202150,7,14128,10312,17944,21,15,27,FR,France
6,202149,7,13674,10369,16979,21,16,26,FR,France
7,202148,7,11549,8503,14595,17,12,22,FR,France
8,202147,7,11419,8376,14462,17,12,22,FR,France
9,202146,7,8216,5724,10708,12,8,16,FR,France


## Reformatage des données

Dans un premier temps, on vérifie s'il n'y a pas de lignes manquantes dans le tableau ci-dessus:

In [35]:
missing_lines = raw_data[raw_data.isnull().any(axis=1)]
missing_lines

Unnamed: 0,week,indicator,inc,inc_low,inc_up,inc100,inc100_low,inc100_up,geo_insee,geo_name


On voit que la variable `missing_lines` est vide, ce qui indique que le jeux de données ne souffre pas de "trous". On copie le jeu de données dans une nouvelle variable, qui est celle sur laquelle les traitements seront effectués:

In [36]:
data = raw_data

Ensuite, on reformule la numérotation des semaines. En effet, dans le tableau ci-dessus, les semaines sont numérotées avec six chiffres: les quatres premiers chiffres correspondent à l'année, et les deux derniers au numéro de la semaine, ce qui donne l'impression à `pandas` qu'il s'agit d'un entier alors que ce n'est pas le cas. De plus, une telle numérotation ne peut pas être interprétée par `pandas`, il faut donc la reformuler. Cela est réalisé avec la librairie `isoweek`. On écrit une fonction `conversionDate`qui sera appliquée à l'ensemble de la première colonne du jeu de données:

In [40]:
def conversionDate(dateInt):
    
    dateStr = str(dateInt)
    annee = int(dateStr[:4])
    semaine = int(dateStr[4:])
    s = isoweek.Week(annee, semaine)
    return pd.Period(s.day(0), 'W')

In [41]:
data["period"] = data["week"].apply(conversionDate)
data

Unnamed: 0,week,indicator,inc,inc_low,inc_up,inc100,inc100_low,inc100_up,geo_insee,geo_name,period
0,202203,7,14299,10896,17702,22,17,27,FR,France,2022-01-17/2022-01-23
1,202202,7,8506,6034,10978,13,9,17,FR,France,2022-01-10/2022-01-16
2,202201,7,13793,10597,16989,21,16,26,FR,France,2022-01-03/2022-01-09
3,202152,7,13239,9611,16867,20,15,25,FR,France,2021-12-27/2022-01-02
4,202151,7,13326,9629,17023,20,14,26,FR,France,2021-12-20/2021-12-26
5,202150,7,14128,10312,17944,21,15,27,FR,France,2021-12-13/2021-12-19
6,202149,7,13674,10369,16979,21,16,26,FR,France,2021-12-06/2021-12-12
7,202148,7,11549,8503,14595,17,12,22,FR,France,2021-11-29/2021-12-05
8,202147,7,11419,8376,14462,17,12,22,FR,France,2021-11-22/2021-11-28
9,202146,7,8216,5724,10708,12,8,16,FR,France,2021-11-15/2021-11-21


Ensuite, on définit la colonne nouvellement créée comme le nouvel index de nos données:

In [43]:
data = data.set_index("period")

Puis on trie les données par ordre chronologique:

In [46]:
data = data.sort_index()