Commit 547afb1a authored by c356ed33d414d53760b5d8b0a508adc0's avatar c356ed33d414d53760b5d8b0a508adc0

Module 3, exo1

parents e4c8fe5d c36d483a
...@@ -143,6 +143,7 @@ ...@@ -143,6 +143,7 @@
"cell_type": "markdown", "cell_type": "markdown",
"metadata": {}, "metadata": {},
"source": [ "source": [
<<<<<<< HEAD
"### Exercice 4" "### Exercice 4"
] ]
}, },
...@@ -257,6 +258,52 @@ ...@@ -257,6 +258,52 @@
], ],
"source": [ "source": [
"plt.hist(x)" "plt.hist(x)"
=======
"## Module 3\n",
"\n",
"### 1. Une analyse réplicable, c'est quoi?\n",
"\n",
"Analyse de données traditionnelles: résultats, méthodologie et conclusion\n",
"Analyse réplicable: remplace méthodo par détail du code, + explication détaillée. Plus d'efforts, mais analyse plus facile à:\n",
"- refaire\n",
"- modifier\n",
"- vérifier\n",
"\n",
"### 2. Etude de cas: syndromes grippaux\n",
"\n",
"Réseau Sentinelles (médecins généralistes)\n",
"Données au format CSV. Année et semaine au format ISO. Anomalie fréquente: semaines pour lesquelles il n'y a pas de données. Pour garder la réplicabilité, il ne faut pas supprimer les lignes concernées. Toutes les modifications doivent se faire dans du code.\n",
"\n",
"### 3. Importer les données\n",
"\n",
"Possibilité de masquer le titre dans Jupyter.\n",
"\n",
"Ne pas oublier `%matplotlib inline`.\n",
"\n",
"`pd.read_csv(<url>, skiprows=1)` Pour l'URL, voir dans le document téléchargé.\n",
"\n",
"Identifier la ligne sans données avec `isnull`. Supprimer la ligne avec `dropna`, et ajouter un commentaire pour le justifier. Ne pas oublier `.copy()`.\n",
"\n",
"### 4. Vérification et inspection\n",
"\n",
"Utiliser `isoweek.Week(year, week)`. Puis `pd.Period`.\n",
"\n",
"`set_index` pour utiliser une colonne comme indice.\n",
"\n",
"Les données sont sous forme de chaîne de caractère car il y avait une ligne avec des tirets. Convertir les données.\n",
"\n",
"Utiliser à la fois l'inspection visuelle et le code de validation.\n",
"\n",
"### 5. Questions et réponses\n",
"\n",
"Afin de minimiser les biais, choisir comme point de départ de l'année les creux de l'épidémie.\n",
"\n",
"**Attention!** Pandas ne respecte pas la convention de slice très utilisée en Python. Il faut donc écrire `[a:b-1]`.\n",
"\n",
"Séries temporelles avec Pandas: `Series`.\n",
"\n",
"Toutes les étapes de traitement des données doivent être fournies sous forme exécutable. C'est à ce niveau que l'on fait le plus d'erreurs."
>>>>>>> c36d483a8c3cb325dd47aacc672a413b99456448
] ]
} }
], ],
...@@ -276,7 +323,7 @@ ...@@ -276,7 +323,7 @@
"name": "python", "name": "python",
"nbconvert_exporter": "python", "nbconvert_exporter": "python",
"pygments_lexer": "ipython3", "pygments_lexer": "ipython3",
"version": "3.6.4" "version": "3.6.9"
} }
}, },
"nbformat": 4, "nbformat": 4,
......
This diff is collapsed.
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment