# Analyse de l'incidence de la varicelle

In [14]:
import isoweek
import pandas as pd

Les données sont téléchargées en local, on peut donc les lire grâce à la bibliothèque pandas

In [8]:
data_path = "inc-7-PAY.csv"

raw_data = pd.read_csv(data_path, skiprows=1)
raw_data

Unnamed: 0,week,indicator,inc,inc_low,inc_up,inc100,inc100_low,inc100_up,geo_insee,geo_name
0,202443,7,2701,725,4677,4,1,7,FR,France
1,202442,7,2659,1260,4058,4,2,6,FR,France
2,202441,7,2035,381,3689,3,1,5,FR,France
3,202440,7,2125,725,3525,3,1,5,FR,France
4,202439,7,2898,1333,4463,4,2,6,FR,France
5,202438,7,751,0,1513,1,0,2,FR,France
6,202437,7,916,28,1804,1,0,2,FR,France
7,202436,7,2235,870,3600,3,1,5,FR,France
8,202435,7,1620,285,2955,2,0,4,FR,France
9,202434,7,2560,622,4498,4,1,7,FR,France


Regardons si certaines lignes sont vides

In [9]:
raw_data[raw_data.isnull().any(axis=1)]

Unnamed: 0,week,indicator,inc,inc_low,inc_up,inc100,inc100_low,inc100_up,geo_insee,geo_name


Il n'y a pas de données manquantes

On convertit maintenant les dates

In [20]:
def convert_week(year_and_week_int):
    year_and_week_str = str(year_and_week_int)
    year = int(year_and_week_str[:4])
    week = int(year_and_week_str[4:])
    w = isoweek.Week(year, week)
    return pd.Period(w.day(0), 'W')

raw_data['period'] = [convert_week(yw) for yw in raw_data['week']]

Trions les données par ordre chronologique

In [21]:
sorted_data = raw_data.set_index('period').sort_index()

In [23]:
sorted_data.head()

Unnamed: 0_level_0,week,indicator,inc,inc_low,inc_up,inc100,inc100_low,inc100_up,geo_insee,geo_name
period,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1990-12-03/1990-12-09,199049,7,1143,0,2610,2,0,5,FR,France
1990-12-10/1990-12-16,199050,7,11079,6660,15498,20,12,28,FR,France
1990-12-17/1990-12-23,199051,7,19080,13807,24353,34,25,43,FR,France
1990-12-24/1990-12-30,199052,7,19375,13295,25455,34,23,45,FR,France
1990-12-31/1991-01-06,199101,7,15565,10271,20859,27,18,36,FR,France


Nous vérifions maintenant la cohérence des données, il ne doit pas y avoir d'écart d'une période à une autre

In [22]:
periods = sorted_data.index
for p1, p2 in zip(periods[:-1], periods[1:]):
    delta = p2.to_timestamp() - p1.end_time
    if delta > pd.Timedelta('1s'):
        print(p1, p2)

Rien ne s'affiche, les périodes semblent cohérentes.

Les données commencent en décembre 1990. Comme notre date référence est le 1er septembre, nous commençons l'analyse en septembre 1991

In [26]:
first_septembre_week = [pd.Period(pd.Timestamp(y, 9, 1), 'W')
                     for y in range(1991,
                                    sorted_data.index[-1].year)]

Nous calculons maintenant l'incidence chaque année en vérifiant qu'il y ait toujours 51 ou 52 semaines par années

In [27]:
year = []
yearly_incidence = []
for week1, week2 in zip(first_septembre_week[:-1],
                        first_septembre_week[1:]):
    one_year = sorted_data['inc'][week1:week2-1]
    assert abs(len(one_year)-52) < 2
    yearly_incidence.append(one_year.sum())
    year.append(week2.year)
yearly_incidence = pd.Series(data=yearly_incidence, index=year)

Nous cherchons maintenant les années durant lesquelles l'épidémie était la plus forte et la plus faible, c'est à dire les années durant lesquelles l'incidence était respectivement la plus élevée et la plus petite.

In [34]:
yearly_incidence.idxmax()

2009

In [35]:
yearly_incidence.idxmin()

2020

L'épidémie était la plus forte en 2009 et la plus faible en 2020