From ade901785c64d7e4efe7f46675b7f6742e77c142 Mon Sep 17 00:00:00 2001 From: ZackOSX Date: Sun, 19 Jul 2020 13:31:57 -0400 Subject: [PATCH] =?UTF-8?q?2e=20sauvegarde=20apr=C3=A8s=20correction?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- module3/exo1/analyse-syndrome-grippal.org | 23 +++++++++++++++++------ 1 file changed, 17 insertions(+), 6 deletions(-) diff --git a/module3/exo1/analyse-syndrome-grippal.org b/module3/exo1/analyse-syndrome-grippal.org index ad89092..5b8921c 100644 --- a/module3/exo1/analyse-syndrome-grippal.org +++ b/module3/exo1/analyse-syndrome-grippal.org @@ -64,26 +64,37 @@ Voici l'explication des colonnes donnée sur [[https://ns.sentiweb.fr/incidence/ L'indication d'une semaine calendaire en format [[https://en.wikipedia.org/wiki/ISO_8601][ISO-8601]] est populaire en Europe, mais peu utilisée aux Etats-Unis. Ceci explique peut-être que peu de logiciels savent gérer ce format. Le langage Python le fait depuis la version 3.6. Nous utilisons donc ce langage pour la préparation de nos données, ce qui a l'avantage de ne nécessiter aucune bibliothèque supplémentaire. (Note: nous expliquerons dans le module 4 pourquoi il est avantageux pour la réproductibilité de se limiter à un minimum de bibliothèques.) ** Téléchargement -Après avoir téléchargé les données, nous commençons par l'extraction des données qui nous intéressent. D'abord nous découpons le contenu du fichier en lignes, dont nous jetons la première qui ne contient qu'un commentaire. Les autres lignes sont découpées en colonnes. +Après avoir téléchargé les données, nous commençons par l'extraction + des données qui nous intéressent. + D'abord nous découpons le contenu du fichier en lignes, dont nous + jetons la première qui ne contient qu'un commentaire. Les autres + lignes sont découpées en colonnes. +Pour nous protéger contre une éventuelle disparition ou modification + du serveur du Réseau Sentinelles, nous faisons une copie locale de ce + jeux de données que nous préservons avec notre analyse. Il est + inutile et même risquée de télécharger les données à chaque + exécution, +car dans le cas d'une panne nous pourrions remplacer nos données par un fichier défectueux. Pour cette raison, nous téléchargeons les données seulement si la copie locale n'existe pas. #+BEGIN_SRC python :results output :var data_url=data-url import urllib.request import os.path -if not os.path.isfile('incidence-PAY-3.csv'): - urllib.request.urlretrieve(data_url, 'incidence-PAY-3.csv') +data_file = "syndrome-grippal.csv" + +if not os.path.isfile(data_file): + urllib.request.urlretrieve(data_url, data_file) print('données téléchargées') ## open file -data = open("incidence-PAY-3.csv", "r",encoding="latin-1").read() -lines = data.strip().split('\n') +data = open(data_file, "rb").read() +lines = data.decode('latin-1').strip().split('\n') data_lines = lines[1:] table = [line.split(',') for line in data_lines] table[:5] #+END_SRC #+RESULTS: -: données téléchargées Regardons ce que nous avons obtenu: #+BEGIN_SRC python :results value -- 2.18.1