# Sujet 7 : Autour du SARS-CoV-2 (Covid-19)


## Consignes :

### Prérequis

Techniques de présentation graphique. Cet exercice peut être réalisé indifféremment en R ou en Python.

### Sujet

Le but est ici de reproduire des graphes semblables à ceux du South China Morning Post (SCMP), sur la page The Coronavirus Pandemic et qui montrent pour différents pays le nombre cumulé (c'est-à-dire le nombre total de cas depuis le début de l'épidémie) de personnes atteintes de la maladie à coronavirus 2019.

Les données que nous utiliserons dans un premier temps sont compilées par le Johns Hopkins University Center for Systems Science and Engineering (JHU CSSE) et sont mises à disposition sur GitHub. C'est plus particulièrement sur les données time_series_covid19_confirmed_global.csv (des suites chronologiques au format csv) disponibles à l'adresse : https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv, que nous allons nous concentrer.

Vous commencerez par télécharger les données pour créer un graphe montrant l’évolution du nombre de cas cumulé au cours du temps pour les pays suivants : la Belgique (Belgium), la Chine - toutes les provinces sauf Hong-Kong (China), Hong Kong (China, Hong-Kong), la France métropolitaine (France), l’Allemagne (Germany), l’Iran (Iran), l’Italie (Italy), le Japon (Japan), la Corée du Sud (Korea, South), la Hollande sans les colonies (Netherlands), le Portugal (Portugal), l’Espagne (Spain), le Royaume-Unis sans les colonies (United Kingdom), les États-Unis (US).

Le nom entre parenthèses est le nom du « pays » tel qu’il apparaît dans le fichier time_series_covid19_confirmed_global.csv. Les données de la Chine apparaissent par province et nous avons séparé Hong-Kong, non pour prendre parti dans les différences entre cette province et l'état chinois, mais parce que c'est ainsi qu'apparaissent les données sur le site du SCMP. Les données pour la France, la Hollande et le Royaume-Uni excluent les territoires d'outre-mer et autres « résidus coloniaux ».

Ensuite vous ferez un graphe avec la date en abscisse et le nombre cumulé de cas à cette date en ordonnée. Nous vous proposons de faire deux versions de ce graphe, une avec une échelle linéaire et une avec une échelle logarithmique.

### Question subsidiaire à faire quand on sera sorti du « merdier »

Vous pourrez également utiliser les données de décès (timeseriescovid19deathsglobal.csv) et refaire les courbes, mais là encore, faites attention lors de l'interprétation. Ces courbes, même si elles paraissent effrayantes, doivent être comparées à la mortalité « normale ». Pour la France des données sont disponibles sur le site de l'INSEE : https://www.insee.fr/fr/information/4470857, ainsi que dans les « Points hebdomadaires » de surveillance de la mortalité diffusés par Santé publique France, comme celui de la semaine 12 (le site étant très mal conçu pour quiconque souhaite une information spécifique, le plus simple est de passer par un moteur de recherche généraliste…).

Pour atténuer les effets dus aux méthodes de comptage, etc., vous pourrez, une fois l'épidémie terminée, prendre les données du nombre total de décès et les normaliser pour 1000 habitants du pays concerné. Vous irez ensuite chercher les données sur le nombre de lits d'hôpital pour 1000 habitants sur le site de l'OCDE et vous pourrez corréler les deux (c'est-à-dire, faire un graphe avec le nombre de lits en abscisse et le nombre de décès en ordonnée)…

---

# Pour commencer

Nous allons tout d'abord importer les outils necéssaires pour réaliser ce travail.



In [1]:
%matplotlib inline

import os
import urllib.request

import matplotlib.pyplot as plt
import pandas as pd
import isoweek

Nous pouvons maintenant télécharger les [données](https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv) si elles ne sont pas déjà téléchargés.

In [2]:
# URL des données
data_url = "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"

# Nom du fichier csv
data_file = "data_covid.csv"

# Téléchargement des données si elles ne sont pas déjà présentes dans le répertoire
if not os.path.exists(data_file):
    urllib.request.urlretrieve(data_url, data_file)

# Affichage des données
raw_data = pd.read_csv(data_file)
raw_data

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/23/21,2/24/21,2/25/21,2/26/21,2/27/21,2/28/21,3/1/21,3/2/21,3/3/21,3/4/21
0,,Afghanistan,33.939110,67.709953,0,0,0,0,0,0,...,55646,55664,55680,55696,55707,55714,55733,55759,55770,55775
1,,Albania,41.153300,20.168300,0,0,0,0,0,0,...,102306,103327,104313,105229,106215,107167,107931,108823,109674,110521
2,,Algeria,28.033900,1.659600,0,0,0,0,0,0,...,112279,112461,112622,112805,112960,113092,113255,113430,113593,113761
3,,Andorra,42.506300,1.521800,0,0,0,0,0,0,...,10739,10775,10799,10822,10849,10866,10889,10908,10948,10976
4,,Angola,-11.202700,17.873900,0,0,0,0,0,0,...,20584,20640,20695,20759,20782,20807,20854,20882,20923,20981
5,,Antigua and Barbuda,17.060800,-61.796400,0,0,0,0,0,0,...,636,646,701,701,726,730,769,769,769,813
6,,Argentina,-38.416100,-63.616700,0,0,0,0,0,0,...,2077228,2085411,2093645,2098728,2104197,2107365,2112023,2118676,2126531,2133963
7,,Armenia,40.069100,45.038200,0,0,0,0,0,0,...,170672,170945,171227,171510,171793,172058,172216,172456,172816,173307
8,Australian Capital Territory,Australia,-35.473500,149.012400,0,0,0,0,0,0,...,118,118,118,118,118,118,118,120,120,120
9,New South Wales,Australia,-33.868800,151.209300,0,0,0,0,3,4,...,5155,5162,5166,5172,5177,5180,5183,5189,5193,5205


Ces données sont organisés sur 274 lignes pour chaque pays et (pour le moment) 412 colonnes présentant la province, le pays, les latitudes et longitudes suivi du nombre de cas par jour du 22 Janvier 2020 au 4 Mars 2021 au moment de l'écriture de ce rapport.

Filtrons les données en choisant les colonnes des dates la regex `\d{1,2}\/\d{1,2}\/\d{2}` sélectionne les colonnes dont le nom commence par :
un ou deux chiffres suivi d'un "/", deux fois, puis se terminent par deux chiffres
c'est à dire les colonnes des dates (vous pouvez inverser la regex avec `[^\d{1,2}\/\d{1,2}\/\d{2}]` pour constater que la commande fait bien l'inverse et nous rend des données avec des NaN)

In [3]:
raw_data[raw_data.filter(regex="\d{1,2}\/\d{1,2}\/\d{2}").isnull().any(axis=1)]

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/23/21,2/24/21,2/25/21,2/26/21,2/27/21,2/28/21,3/1/21,3/2/21,3/3/21,3/4/21


Le tableau en sortie est bien vide, il ne manque donc aucune donnée importante.

Listons les pays que nous allons analyser, ils sont tous représentés dans les données par le nom du pays dans la colonne `Country/Region` et `Nan` dans la colonne `Province/State` sauf dans le cas de la Chine ou nous allons devoir faire une somme de toutes les provinces d'un coté et de récupérer Hong-Knog de l'autre.

In [12]:
countries = [ 
        "Belgium",
        "France",
        "Germany",
        "Iran",
        "Italy",
        "Japan",
        "Korea, South",
        "Netherlands",
        "Portugal",
        "Spain",
        "United Kingdom",
        "US",
#         "China",
#         "China, Hong-Kong",
]

Enregistrons les lignes consernées dans un nouveau tableau :

In [28]:
data = []
for country in countries:
    new_row = raw_data[(raw_data['Country/Region']==country) & (raw_data['Province/State'].isnull())].values.tolist()
    print(new_row)
dataf = pd.DataFrame(data, columns=raw_data.columns)

[[nan, 'France', 46.2276, 2.2137, 0, 0, 2, 3, 3, 3, 4, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 11, 11, 11, 11, 11, 11, 11, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 14, 18, 38, 57, 100, 130, 191, 212, 285, 423, 613, 938, 1115, 1401, 1773, 2281, 2281, 3661, 4469, 4499, 6633, 7652, 9043, 10871, 12612, 14282, 16533, 19856, 22054, 24967, 28856, 32609, 37162, 39761, 44029, 51579, 56362, 58404, 63588, 46483, 47299, 49934, 46400, 50242, 54003, 55538, 56972, 107712, 110836, 128272, 131476, 144035, 145896, 149683, 150752, 153197, 155821, 157603, 155881, 158653, 160295, 160907, 164592, 167650, 166193, 167326, 167846, 168637, 168887, 169405, 170467, 174596, 175218, 175743, 176132, 176338, 176651, 177330, 177790, 178353, 178837, 179140, 179250, 179650, 180143, 180499, 180752, 181444, 181969, 181410, 181684, 181880, 182018, 185300, 185842, 187608, 187817, 187986, 187265, 184015, 188286, 188808, 189330, 189621, 189782, 190266, 190743, 191040, 191679, 192043, 192317, 192369, 192915, 193256, 193576, 194121, 19453

In [29]:
dataf

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/23/21,2/24/21,2/25/21,2/26/21,2/27/21,2/28/21,3/1/21,3/2/21,3/3/21,3/4/21
