diff --git a/module3/exo1/analyse-syndrome-grippal.org b/module3/exo1/analyse-syndrome-grippal.org index 1720b70df3a93009c79592b68d1dcf57a53f6341..5bcee220d58fc99ec72fdaf84322c071ce177d61 100644 --- a/module3/exo1/analyse-syndrome-grippal.org +++ b/module3/exo1/analyse-syndrome-grippal.org @@ -46,6 +46,9 @@ Les données de l'incidence du syndrome grippal sont disponibles du site Web du #+NAME: data-url http://www.sentiweb.fr/datasets/incidence-PAY-3.csv +#+NAME: data-path +incidence-PAY-3.csv + Voici l'explication des colonnes donnée sur [[https://ns.sentiweb.fr/incidence/csv-schema-v1.json][le site d'origine:]] | Nom de colonne | Libellé de colonne | @@ -66,13 +69,20 @@ L'indication d'une semaine calendaire en format [[https://en.wikipedia.org/wiki/ ** Téléchargement Après avoir téléchargé les données, nous commençons par l'extraction des données qui nous intéressent. D'abord nous découpons le contenu du fichier en lignes, dont nous jetons la première qui ne contient qu'un commentaire. Les autres lignes sont découpées en colonnes. -#+BEGIN_SRC python :results silent :var data_url=data-url -from urllib.request import urlopen +#+BEGIN_SRC python :results silent :var data_url=data-url :var data_path=data-path + from pathlib import Path + import requests + + data_path = Path(data_path) + if not data_path.exists(): + data = requests.get(data_url).text + data_path.write_text(data) + else: + data = data_path.read_text() -data = urlopen(data_url).read() -lines = data.decode('latin-1').strip().split('\n') -data_lines = lines[1:] -table = [line.split(',') for line in data_lines] + lines = data.strip().split('\n') + data_lines = lines[1:] + table = [line.split(',') for line in data_lines] #+END_SRC Regardons ce que nous avons obtenu: