# Analyse sur l'incidence de la varicelle

In [1]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import isoweek

## Phase 1 : chargement des données
On télécharge d'[ici](https://www.sentiweb.fr/france/fr/?page=table).
J'ai choisi de ne prendre que sentinelle (sans IQVIA), au niveau national, et de renommer ce "inc-7-PAY.csv" en "varicelle.csv".

In [3]:
url = 'https://www.sentiweb.fr/datasets/all/inc-7-PAY.csv'

In [5]:
try:
    raw_data = pd.read_csv('./varicelle.csv',index=True)
except:
    raw_data = pd.read_csv(url, skiprows=1)
    raw_data.to_csv('./varicelle.csv')
raw_data.head()

Unnamed: 0,week,indicator,inc,inc_low,inc_up,inc100,inc100_low,inc100_up,geo_insee,geo_name
0,202452,7,4952,1940,7964,7,2,12,FR,France
1,202451,7,4705,2265,7145,7,3,11,FR,France
2,202450,7,7363,4438,10288,11,7,15,FR,France
3,202449,7,6077,3631,8523,9,5,13,FR,France
4,202448,7,4189,1454,6924,6,2,10,FR,France


Pour la signification des colonnes, il faut vérifier le schéma csv, [ici](https://ns.sentiweb.fr/incidence/csv-schema-v1.json).
À retenir : les incertitudes se font à 95%.
La colonne "inc100" représente les incidences pour 100 000 habitants.

On vérifie s'il y a des données manquantes : visiblement non.

In [9]:
raw_data.isnull().any(axis=1).sum()

0

## Pré-traitement des données
Il faut adapter le format des semaines, qui n'est pas lisible en l'état.

In [10]:
def convert_week(ynw_int):
    '''Prend un entier représentant l'année et le numéro de semaine
    et renvoie  un objet adapté à pandas.'''
    ynw_str = str(ynw_int)
    y = int(ynw_str[:4])
    w = int(ynw_str[4:])
    week = isoweek.Week(y,w)
    return pd.Period(week.day(0),'W')