# Sujet 7 : Autour du SARS-CoV-2 (Covid-19)


## Consignes :

### Prérequis

Techniques de présentation graphique. Cet exercice peut être réalisé indifféremment en R ou en Python.

### Sujet

Le but est ici de reproduire des graphes semblables à ceux du South China Morning Post (SCMP), sur la page The Coronavirus Pandemic et qui montrent pour différents pays le nombre cumulé (c'est-à-dire le nombre total de cas depuis le début de l'épidémie) de personnes atteintes de la maladie à coronavirus 2019.

Les données que nous utiliserons dans un premier temps sont compilées par le Johns Hopkins University Center for Systems Science and Engineering (JHU CSSE) et sont mises à disposition sur GitHub. C'est plus particulièrement sur les données time_series_covid19_confirmed_global.csv (des suites chronologiques au format csv) disponibles à l'adresse : https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv, que nous allons nous concentrer.

Vous commencerez par télécharger les données pour créer un graphe montrant l’évolution du nombre de cas cumulé au cours du temps pour les pays suivants : la Belgique (Belgium), la Chine - toutes les provinces sauf Hong-Kong (China), Hong Kong (China, Hong-Kong), la France métropolitaine (France), l’Allemagne (Germany), l’Iran (Iran), l’Italie (Italy), le Japon (Japan), la Corée du Sud (Korea, South), la Hollande sans les colonies (Netherlands), le Portugal (Portugal), l’Espagne (Spain), le Royaume-Unis sans les colonies (United Kingdom), les États-Unis (US).

Le nom entre parenthèses est le nom du « pays » tel qu’il apparaît dans le fichier time_series_covid19_confirmed_global.csv. Les données de la Chine apparaissent par province et nous avons séparé Hong-Kong, non pour prendre parti dans les différences entre cette province et l'état chinois, mais parce que c'est ainsi qu'apparaissent les données sur le site du SCMP. Les données pour la France, la Hollande et le Royaume-Uni excluent les territoires d'outre-mer et autres « résidus coloniaux ».

Ensuite vous ferez un graphe avec la date en abscisse et le nombre cumulé de cas à cette date en ordonnée. Nous vous proposons de faire deux versions de ce graphe, une avec une échelle linéaire et une avec une échelle logarithmique.

### Question subsidiaire à faire quand on sera sorti du « merdier »

Vous pourrez également utiliser les données de décès (timeseriescovid19deathsglobal.csv) et refaire les courbes, mais là encore, faites attention lors de l'interprétation. Ces courbes, même si elles paraissent effrayantes, doivent être comparées à la mortalité « normale ». Pour la France des données sont disponibles sur le site de l'INSEE : https://www.insee.fr/fr/information/4470857, ainsi que dans les « Points hebdomadaires » de surveillance de la mortalité diffusés par Santé publique France, comme celui de la semaine 12 (le site étant très mal conçu pour quiconque souhaite une information spécifique, le plus simple est de passer par un moteur de recherche généraliste…).

Pour atténuer les effets dus aux méthodes de comptage, etc., vous pourrez, une fois l'épidémie terminée, prendre les données du nombre total de décès et les normaliser pour 1000 habitants du pays concerné. Vous irez ensuite chercher les données sur le nombre de lits d'hôpital pour 1000 habitants sur le site de l'OCDE et vous pourrez corréler les deux (c'est-à-dire, faire un graphe avec le nombre de lits en abscisse et le nombre de décès en ordonnée)…

---

# Pour commencer

Nous allons tout d'abord importer les outils necéssaires pour réaliser ce travail.



In [1]:
%matplotlib inline

# pour la vérification de la présence des données
import os
# pour télécharger les données
import urllib.request

# pour l'affichage des graphiques
import matplotlib.pyplot as plt
# pour le traitement des données
import pandas as pd

Nous pouvons maintenant télécharger les [données](https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv) si elles ne sont pas déjà téléchargés.

In [2]:
# URL des données
data_url = "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"

# Nom du fichier csv
data_file = "data_covid.csv"

# Téléchargement des données si elles ne sont pas déjà présentes dans le répertoire
if not os.path.exists(data_file):
    urllib.request.urlretrieve(data_url, data_file)

# Affichage des données
raw_data = pd.read_csv(data_file)
raw_data.head()

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/23/21,2/24/21,2/25/21,2/26/21,2/27/21,2/28/21,3/1/21,3/2/21,3/3/21,3/4/21
0,,Afghanistan,33.93911,67.709953,0,0,0,0,0,0,...,55646,55664,55680,55696,55707,55714,55733,55759,55770,55775
1,,Albania,41.1533,20.1683,0,0,0,0,0,0,...,102306,103327,104313,105229,106215,107167,107931,108823,109674,110521
2,,Algeria,28.0339,1.6596,0,0,0,0,0,0,...,112279,112461,112622,112805,112960,113092,113255,113430,113593,113761
3,,Andorra,42.5063,1.5218,0,0,0,0,0,0,...,10739,10775,10799,10822,10849,10866,10889,10908,10948,10976
4,,Angola,-11.2027,17.8739,0,0,0,0,0,0,...,20584,20640,20695,20759,20782,20807,20854,20882,20923,20981


Ces données sont organisés sur 274 lignes pour chaque pays et (pour le moment) 412 colonnes présentant la province, le pays, les latitudes et longitudes suivi du nombre de cas par jour du 22 Janvier 2020 au 4 Mars 2021 au moment de l'écriture de ce rapport.

Pour vérifier qu'aucune date pour aucun pays est manquante, filtrons les données en choisant les colonnes des dates avec la regex `\d{1,2}\/\d{1,2}\/\d{2}` qui sélectionne les colonnes dont le nom commence par :
un ou deux chiffres suivi d'un "/", deux fois, puis se terminent par deux chiffres
c'est à dire les colonnes des dates (vous pouvez inverser la regex avec `[^\d{1,2}\/\d{1,2}\/\d{2}]` pour constater que la commande fait bien l'inverse et nous rend des données avec des NaN)

In [3]:
raw_data[raw_data.filter(regex="\d{1,2}\/\d{1,2}\/\d{2}").isnull().any(axis=1)]

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/23/21,2/24/21,2/25/21,2/26/21,2/27/21,2/28/21,3/1/21,3/2/21,3/3/21,3/4/21


Le tableau en sortie est bien vide, il ne manque donc aucune donnée sur le nombre de cas par jour.

Listons les pays que nous allons analyser, ils sont tous représentés dans les données par le nom du pays dans la colonne `Country/Region` et `Nan` dans la colonne `Province/State` sauf dans le cas de la Chine ou nous allons devoir faire une somme de toutes les provinces d'un coté et de récupérer Hong-Kong de l'autre.

In [4]:
countries = [ 
        "Belgium",
        "France",
        "Germany",
        "Iran",
        "Italy",
        "Japan",
        "Korea, South",
        "Netherlands",
        "Portugal",
        "Spain",
        "United Kingdom",
        "US",
]

Enregistrons les lignes consernées dans un nouveau tableau en ajoutant la Chine (nous utiliserons les coordonnées de Beijing pour la longitude et latitude de la Chine, même si l'information ne sera pas réutilisée pour le moment plus tard) :

In [5]:
data_list = []
# récupération des données pour tous les pays sauf la Chine
for country in countries:
    data_list.append(raw_data[(raw_data['Province/State'].isnull()) & (raw_data['Country/Region']==country)].values.tolist()[0])
# récupération des données pour Hong-Kong
data_list.append(raw_data[(raw_data['Province/State'] == "Hong Kong") & (raw_data['Country/Region']== "China")].values.tolist()[0])
# récupération des données pour le reste de la Chine en sommant les différentes colonnes
data_china = raw_data[(raw_data['Province/State'] != "Hong Kong") & (raw_data['Country/Region']== "China")].sum().values.tolist()
# mise à jour des premières colonnes des données de la Chine avec les coordonées de Beijing et ajout à la liste
data_china[0] = pd.np.NaN
data_china[1] = "China"
data_china[2] = 40.1824
data_china[3] = 116.4142
data_list.append(data_china)
# création du nouveau tableau avec toutes les données des pays recherchés
data = pd.DataFrame(data_list, columns=raw_data.columns)

In [6]:
data

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/23/21,2/24/21,2/25/21,2/26/21,2/27/21,2/28/21,3/1/21,3/2/21,3/3/21,3/4/21
0,,Belgium,50.8333,4.469936,0,0,0,0,0,0,...,757696,760809,763885,766654,769414,771511,772294,774344,777608,780251
1,,France,46.2276,2.2137,0,0,2,3,3,3,...,3608271,3639501,3664050,3689034,3712474,3732426,3736390,3759247,3785326,3810605
2,,Germany,51.165691,10.451526,0,0,0,0,0,1,...,2405263,2416037,2427069,2436506,2444177,2450295,2455569,2462061,2472913,2484306
3,,Iran,32.427908,53.688046,0,0,0,0,0,0,...,1590605,1598875,1607081,1615184,1623159,1631169,1639679,1648174,1656699,1665103
4,,Italy,41.87194,12.56738,0,0,0,0,0,0,...,2832162,2848564,2868435,2888923,2907825,2925265,2938371,2955434,2976274,2999119
5,,Japan,36.204824,138.252924,2,2,2,2,4,4,...,426828,427732,428816,429873,431093,432090,432778,433700,434944,436093
6,,"Korea, South",35.907757,127.766922,1,1,2,2,3,4,...,88120,88516,88922,89321,89676,90031,90372,90816,91240,91638
7,,Netherlands,52.1326,5.2913,0,0,0,0,0,0,...,1064598,1068960,1073971,1079084,1084021,1088690,1092452,1096433,1101430,1105544
8,,Portugal,39.3999,-8.2245,0,0,0,0,0,0,...,799106,800586,801746,802773,803844,804562,804956,805647,806626,807456
9,,Spain,40.463667,-3.74922,0,0,0,0,0,0,...,3161432,3170644,3180212,3188553,3188553,3188553,3204531,3130184,3136321,3142358


Nous obtenons ainsi notre tableau avec 14 lignes contenant les informations que nous voulons afficher. Nous allons maintenant générer les graphiques.