### Étude des épidémies de varicelle

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import isoweek

Les données d'étude des épidémies de varicelle sont disponibles sur le site Web du Réseau Sentinelles. Nous les récupérons sous forme d'un fichier en format CSV dont chaque ligne correspond à une semaine de la période demandée. Nous téléchargeons toujours le jeu de données complet, qui commence en 1990 et se termine avec une semaine récente.

In [2]:
data_url = "https://www.sentiweb.fr/datasets/all/inc-7-PAY.csv"

La première ligne du fichier CSV est un commentaire, que nous ignorons en précisant `skiprows=1`. Pour les autres lignes, les données sont (de gauche à droite) :
- date au format YYYYWW (année, numéro de la semaine)
- code de l'indicateur de surveillance
- estimation de l'incidence de consultations en nombre de cas 
- estimation de la borne inférieure de l'IC95% du nombre de cas de consultation
- estimation de la borne supérieure de l'IC95% du nombre de cas de consultation
- estimation du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants)
- estimation de la borne inférieure de l'IC95% du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants)
- estimation de la borne supérieure de l'IC95% du taux d'incidence du nombre de cas de consultation (en cas pour 100,000 habitants)
- code de la zone géographique concernée (Code INSEE) http://www.insee.fr/fr/methodes/nomenclatures/cog/
- libellé de la zone géographique (ce libellé peut être modifié sans préavis) 

In [3]:
raw_data = pd.read_csv(data_url, encoding = 'iso-8859-1', skiprows=1)
raw_data

Unnamed: 0,week,indicator,inc,inc_low,inc_up,inc100,inc100_low,inc100_up,geo_insee,geo_name
0,202506,7,3721,2061,5381,6,4,8,FR,France
1,202505,7,2087,1056,3118,3,1,5,FR,France
2,202504,7,6895,4466,9324,10,6,14,FR,France
3,202503,7,2462,1161,3763,4,2,6,FR,France
4,202502,7,5966,2757,9175,9,4,14,FR,France
5,202501,7,6059,2451,9667,9,4,14,FR,France
6,202452,7,4356,1776,6936,7,3,11,FR,France
7,202451,7,4670,2239,7101,7,3,11,FR,France
8,202450,7,7363,4438,10288,11,7,15,FR,France
9,202449,7,6077,3631,8523,9,5,13,FR,France


Il ne semble pas y avoir de donnée manquante dans ce document.

Nous corrigeons le format des données qui ne correspondent pas tout à fait à la norme iso8859-1.

In [4]:
 def convert_week(year_and_week_int):
    year_and_week_str = str(year_and_week_int)
    year = int(year_and_week_str[:4])
    week = int(year_and_week_str[4:])
    w = isoweek.Week(year, week)
    return pd.Period(w.day(0), 'W')

raw_data['period'] = [convert_week(yw) for yw in raw_data['week']]
raw_data

Unnamed: 0,week,indicator,inc,inc_low,inc_up,inc100,inc100_low,inc100_up,geo_insee,geo_name,period
0,202506,7,3721,2061,5381,6,4,8,FR,France,2025-02-03/2025-02-09
1,202505,7,2087,1056,3118,3,1,5,FR,France,2025-01-27/2025-02-02
2,202504,7,6895,4466,9324,10,6,14,FR,France,2025-01-20/2025-01-26
3,202503,7,2462,1161,3763,4,2,6,FR,France,2025-01-13/2025-01-19
4,202502,7,5966,2757,9175,9,4,14,FR,France,2025-01-06/2025-01-12
5,202501,7,6059,2451,9667,9,4,14,FR,France,2024-12-30/2025-01-05
6,202452,7,4356,1776,6936,7,3,11,FR,France,2024-12-23/2024-12-29
7,202451,7,4670,2239,7101,7,3,11,FR,France,2024-12-16/2024-12-22
8,202450,7,7363,4438,10288,11,7,15,FR,France,2024-12-09/2024-12-15
9,202449,7,6077,3631,8523,9,5,13,FR,France,2024-12-02/2024-12-08


Nous supprimons la colonne week et utilisons period comme nouvel index de notre jeu de données, et trions les données dans l'ordre chronologique avec.

In [5]:
sorted_data = raw_data.set_index('period').sort_index()
sorted_data.pop("week")
sorted_data

Unnamed: 0_level_0,indicator,inc,inc_low,inc_up,inc100,inc100_low,inc100_up,geo_insee,geo_name
period,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1990-12-03/1990-12-09,7,1143,0,2610,2,0,5,FR,France
1990-12-10/1990-12-16,7,11079,6660,15498,20,12,28,FR,France
1990-12-17/1990-12-23,7,19080,13807,24353,34,25,43,FR,France
1990-12-24/1990-12-30,7,19375,13295,25455,34,23,45,FR,France
1990-12-31/1991-01-06,7,15565,10271,20859,27,18,36,FR,France
1991-01-07/1991-01-13,7,16277,11046,21508,29,20,38,FR,France
1991-01-14/1991-01-20,7,15387,10484,20290,27,18,36,FR,France
1991-01-21/1991-01-27,7,7913,4563,11263,14,8,20,FR,France
1991-01-28/1991-02-03,7,10442,6544,14340,18,11,25,FR,France
1991-02-04/1991-02-10,7,10877,7013,14741,19,12,26,FR,France


Nous regroupons les données par an en considérant le début de l'année à la première semaine de Septembre pour limiter au plus les erreurs.

In [18]:
first_september_week = [pd.Period(pd.Timestamp(y, 9, 1), 'W') for y in range(1991, sorted_data.index[-1].year)]
year = []
yearly_incidence = []
for week1, week2 in zip(first_september_week[:-1], first_september_week[1:]):
    one_year = sorted_data['inc'][week1:week2-1]
    assert abs(len(one_year)-52) < 2
    yearly_incidence.append(one_year.sum())
    year.append(week2.year)
yearly_incidence = pd.Series(data=yearly_incidence, index=year)
yearly_incidence.sort_values()

2020    221186
2023    366227
2021    376290
2024    479258
2002    516689
2018    542312
2017    551041
1996    564901
2019    584066
2015    604382
2000    617597
2001    619041
2012    624573
2005    628464
2006    632833
2022    641397
2011    642368
1993    643387
1995    652478
1994    661409
1998    677775
1997    683434
2014    685769
2013    698332
2007    717352
2008    749478
1999    756456
2003    758363
2004    777388
2016    782114
2010    829911
1992    832939
2009    842373
dtype: int64