Module 3 exo 1 (local csv copy)

92f36c42 · Julien EMMANUEL · 5b7436d1 · 92f36c42 · 92f36c42
Commit 92f36c42 authored Jun 16, 2020 by Julien EMMANUEL
Expand all Show whitespace changes
Inline Side-by-side

Showing with 1870 additions and 3 deletions

analyse-syndrome-grippal.org module3/exo1/analyse-syndrome-grippal.org +22 -3

data.csv module3/exo1/data.csv +1848 -0

No files found.
--- a/module3/exo1/analyse-syndrome-grippal.org
+++ b/module3/exo1/analyse-syndrome-grippal.org
@@ -64,13 +64,25 @@ Voici l'explication des colonnes donnée sur [[https://ns.sentiweb.fr/incidence/
 L'indication d'une semaine calendaire en format [[https://en.wikipedia.org/wiki/ISO_8601][ISO-8601]] est populaire en Europe, mais peu utilisée aux Etats-Unis. Ceci explique peut-être que peu de logiciels savent gérer ce format. Le langage Python le fait depuis la version 3.6. Nous utilisons donc ce langage pour la préparation de nos données, ce qui a l'avantage de ne nécessiter aucune bibliothèque supplémentaire. (Note: nous expliquerons dans le module 4 pourquoi il est avantageux pour la réproductibilité de se limiter à un minimum de bibliothèques.)
 ** Téléchargement
+Pour nous protéger contre une éventuelle disparition ou modification du serveur du Réseau Sentinelles, nous faisons une copie locale de ce jeux de données que nous préservons avec notre analyse. Il est inutile et même risqué de télécharger les données à chaque exécution, car dans le cas d'une panne nous pourrions remplacer nos données par un fichier défectueux. Pour cette raison, nous téléchargeons les données seulement si la copie locale n'existe pas.
 Après avoir téléchargé les données, nous commençons par l'extraction des données qui nous intéressent. D'abord nous découpons le contenu du fichier en lignes, dont nous jetons la première qui ne contient qu'un commentaire. Les autres lignes sont découpées en colonnes.
 #+BEGIN_SRC python :results silent :var data_url=data-url
-from urllib.request import urlopen
+# Nécessaire pour télécharger le CSV
+from urllib.request import urlretrieve
+# Nécessaire pour tester l'existence du fichier local
+from os import path
-data = urlopen(data_url).read()
+# Chemin de la copie locale
-lines = data.decode('latin-1').strip().split('\n')
+local_data_file = "data.csv"
+# Téléchargement du CSV uniquement si une copie 
+# locale n'existe pas déjà
+if not path.exists(local_data_file):
+   urlretrieve(data_url, local_data_file)
+data = open(local_data_file, "r", encoding="latin-1").read()
+lines = data.strip().split('\n')
 data_lines = lines[1:]
 table = [line.split(',') for line in data_lines]
 #+END_SRC
@@ -80,6 +92,13 @@ Regardons ce que nous avons obtenu:
 table[:5]
 #+END_SRC
+#+RESULTS:
+|   week | indicator |    inc | inc_low |  inc_up | inc100 | inc100_low | inc100_up | geo_insee | geo_name |
+| 202011 |         3 | 101704 |  93652 | 109756 |    154 |       142 |      166 | FR       | France  |
+| 202010 |         3 | 104977 |  96650 | 113304 |    159 |       146 |      172 | FR       | France  |
+| 202009 |         3 | 110696 | 102066 | 119326 |    168 |       155 |      181 | FR       | France  |
+| 202008 |         3 | 143753 | 133984 | 153522 |    218 |       203 |      233 | FR       | France  |
 ** Recherche de données manquantes
 Il y a malheureusement beaucoup de façon d'indiquer l'absence d'un point de données. Nous testons ici seulement pour la présence de champs vides. Il faudrait aussi rechercher des valeurs non-numériques dans les colonnes à priori numériques. Nous ne le faisons pas ici, mais une vérification ultérieure capterait des telles anomalies.

--- a/module3/exo1/data.csv
+++ b/module3/exo1/data.csv