# Incidence de la varicelle

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import isoweek

In [2]:
data_url = "http://www.sentiweb.fr/datasets/incidence-PAY-7.csv"

La première ligne du fichier CSV est un commentaire, que nous ignorons en précisant $skiprow=1$

In [4]:
raw_data = pd.read_csv(data_url, skiprows=1)
raw_data

Unnamed: 0,week,indicator,inc,inc_low,inc_up,inc100,inc100_low,inc100_up,geo_insee,geo_name
0,202019,7,159,0,490,0,0,1,FR,France
1,202018,7,824,85,1563,1,0,2,FR,France
2,202017,7,272,0,658,0,0,1,FR,France
3,202016,7,758,78,1438,1,0,2,FR,France
4,202015,7,1918,675,3161,3,1,5,FR,France
5,202014,7,3879,2227,5531,6,3,9,FR,France
6,202013,7,7326,5236,9416,11,8,14,FR,France
7,202012,7,8123,5790,10456,12,8,16,FR,France
8,202011,7,10198,7568,12828,15,11,19,FR,France
9,202010,7,9011,6691,11331,14,10,18,FR,France


 Y a-t-il des points manquants dans ce jeux de données ?

In [7]:
raw_data[raw_data.isnull().any(axis=1)]

data = raw_data

Il n'y a pas des points manquants, donc on peut continuer l'analyse

Nos données utilisent une convention inhabituelle: le numéro de semaine est collé à l'année, donnant l'impression qu'il s'agit
de nombre entier. C'est comme ça que Pandas les interprète.

Un deuxième problème est que Pandas ne comprend pas les numéros de semaine.  Il faut lui fournir les dates de début et de fin de semaine. Nous utilisons pour cela la bibliothèque `isoweek`.

Comme la conversion des semaines est devenu assez complexe, nous écrivons une petite fonction Python pour cela. Ensuite, nous
l'appliquons à tous les points de nos donnés. Les résultats vont dans une nouvelle colonne 'period'.

In [8]:
def convert_week(year_and_week_int):
    year_and_week_str = str(year_and_week_int)
    year = int(year_and_week_str[:4])
    week = int(year_and_week_str[4:])
    w = isoweek.Week(year, week)
    return pd.Period(w.day(0), 'W')

data['period'] = [convert_week(yw) for yw in data['week']]

Il restent deux petites modifications à faire.

Premièrement, nous définissons les périodes d'observation comme nouvel index de notre jeux de données. Ceci en fait une suite chronologique, ce qui sera pratique par la suite.

Deuxièmement, nous trions les points par période, dans le sens chronologique.