From b5a096c80d2fa06fa27551587a7b37903f7378a3 Mon Sep 17 00:00:00 2001 From: Hubert Leterme Date: Tue, 23 Feb 2021 19:48:30 +0100 Subject: [PATCH] Logbook --- module2/exo4/journal.ipynb | 52 +++++++++++++++++++++++++++++++++++++- 1 file changed, 51 insertions(+), 1 deletion(-) diff --git a/module2/exo4/journal.ipynb b/module2/exo4/journal.ipynb index 409dc39..dff77c5 100644 --- a/module2/exo4/journal.ipynb +++ b/module2/exo4/journal.ipynb @@ -138,6 +138,56 @@ "\n", "Jupyter: lecture directe du ficheir JSOM un peu délicate. A l'inverse, ficheirs Rmd ou Org plus faciles à lire pour un être humain. Rédiger un article de bout en bout avec RStudio ou Org mode de plus en plus souvent faits; possible mais plus compliqué avec Jupyter.\n" ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Module 3\n", + "\n", + "### 1. Une analyse réplicable, c'est quoi?\n", + "\n", + "Analyse de données traditionnelles: résultats, méthodologie et conclusion\n", + "Analyse réplicable: remplace méthodo par détail du code, + explication détaillée. Plus d'efforts, mais analyse plus facile à:\n", + "- refaire\n", + "- modifier\n", + "- vérifier\n", + "\n", + "### 2. Etude de cas: syndromes grippaux\n", + "\n", + "Réseau Sentinelles (médecins généralistes)\n", + "Données au format CSV. Année et semaine au format ISO. Anomalie fréquente: semaines pour lesquelles il n'y a pas de données. Pour garder la réplicabilité, il ne faut pas supprimer les lignes concernées. Toutes les modifications doivent se faire dans du code.\n", + "\n", + "### 3. Importer les données\n", + "\n", + "Possibilité de masquer le titre dans Jupyter.\n", + "\n", + "Ne pas oublier `%matplotlib inline`.\n", + "\n", + "`pd.read_csv(, skiprows=1)` Pour l'URL, voir dans le document téléchargé.\n", + "\n", + "Identifier la ligne sans données avec `isnull`. Supprimer la ligne avec `dropna`, et ajouter un commentaire pour le justifier. Ne pas oublier `.copy()`.\n", + "\n", + "### 4. Vérification et inspection\n", + "\n", + "Utiliser `isoweek.Week(year, week)`. Puis `pd.Period`.\n", + "\n", + "`set_index` pour utiliser une colonne comme indice.\n", + "\n", + "Les données sont sous forme de chaîne de caractère car il y avait une ligne avec des tirets. Convertir les données.\n", + "\n", + "Utiliser à la fois l'inspection visuelle et le code de validation.\n", + "\n", + "### 5. Questions et réponses\n", + "\n", + "Afin de minimiser les biais, choisir comme point de départ de l'année les creux de l'épidémie.\n", + "\n", + "**Attention!** Pandas ne respecte pas la convention de slice très utilisée en Python. Il faut donc écrire `[a:b-1]`.\n", + "\n", + "Séries temporelles avec Pandas: `Series`.\n", + "\n", + "Toutes les étapes de traitement des données doivent être fournies sous forme exécutable. C'est à ce niveau que l'on fait le plus d'erreurs." + ] } ], "metadata": { @@ -156,7 +206,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.6.4" + "version": "3.6.9" } }, "nbformat": 4, -- 2.18.1