In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import os
import pandas as pd
import isoweek
import urllib.request

Le but de cette analyse est de s'intéresser à l'incidence de la varicelle en France Métropolitaine depuis 1991, à l'aide des données disponibles sur le site du [Réseau Sentinelles](https://www.sentiweb.fr/france/fr/?).

On ne télécharge les données que si le fichier n'est pas déjà présent en local.

In [3]:
data_url = "https://www.sentiweb.fr/datasets/incidence-PAY-7.csv"
data_file = "varicelle.csv"

if not os.path.isfile(data_file):
    urllib.request.urlretrieve(data_url, data_file)

In [4]:
raw_data = pd.read_csv(data_file, skiprows=1)
raw_data

Unnamed: 0,week,indicator,inc,inc_low,inc_up,inc100,inc100_low,inc100_up,geo_insee,geo_name
0,202014,7,4624,2602,6646,7,4,10,FR,France
1,202013,7,7371,5268,9474,11,8,14,FR,France
2,202012,7,8123,5790,10456,12,8,16,FR,France
3,202011,7,10198,7568,12828,15,11,19,FR,France
4,202010,7,9011,6691,11331,14,10,18,FR,France
5,202009,7,13631,10544,16718,21,16,26,FR,France
6,202008,7,10424,7708,13140,16,12,20,FR,France
7,202007,7,8959,6574,11344,14,10,18,FR,France
8,202006,7,9264,6925,11603,14,10,18,FR,France
9,202005,7,8505,6314,10696,13,10,16,FR,France


Contrairement aux données sur les syndrômes grippaux, celles-ci ne contiennent aucune ligne vide :

In [11]:
raw_data[raw_data.isnull().any(axis=1)]

Unnamed: 0,week,indicator,inc,inc_low,inc_up,inc100,inc100_low,inc100_up,geo_insee,geo_name


In [12]:
data = raw_data

Nos données utilisent une convention inhabituelle: le numéro de
semaine est collé à l'année, donnant l'impression qu'il s'agit
de nombre entier. C'est comme ça que Pandas les interprète.
  
Un deuxième problème est que Pandas ne comprend pas les numéros de
semaine.  Il faut lui fournir les dates de début et de fin de
semaine. Nous utilisons pour cela la bibliothèque `isoweek`.

Comme la conversion des semaines est devenu assez complexe, nous
écrivons une petite fonction Python pour cela. Ensuite, nous
l'appliquons à tous les points de nos donnés. Les résultats vont
dans une nouvelle colonne 'period'.

In [13]:
def convert_week(year_and_week_int):
    year_and_week_str = str(year_and_week_int)
    year = int(year_and_week_str[:4])
    week = int(year_and_week_str[4:])
    w = isoweek.Week(year, week)
    return pd.Period(w.day(0), 'W')

data['period'] = [convert_week(yw) for yw in data['week']]

In [14]:
data

Unnamed: 0,week,indicator,inc,inc_low,inc_up,inc100,inc100_low,inc100_up,geo_insee,geo_name,period
0,202014,7,4624,2602,6646,7,4,10,FR,France,2020-03-30/2020-04-05
1,202013,7,7371,5268,9474,11,8,14,FR,France,2020-03-23/2020-03-29
2,202012,7,8123,5790,10456,12,8,16,FR,France,2020-03-16/2020-03-22
3,202011,7,10198,7568,12828,15,11,19,FR,France,2020-03-09/2020-03-15
4,202010,7,9011,6691,11331,14,10,18,FR,France,2020-03-02/2020-03-08
5,202009,7,13631,10544,16718,21,16,26,FR,France,2020-02-24/2020-03-01
6,202008,7,10424,7708,13140,16,12,20,FR,France,2020-02-17/2020-02-23
7,202007,7,8959,6574,11344,14,10,18,FR,France,2020-02-10/2020-02-16
8,202006,7,9264,6925,11603,14,10,18,FR,France,2020-02-03/2020-02-09
9,202005,7,8505,6314,10696,13,10,16,FR,France,2020-01-27/2020-02-02
