"Analyse de données traditionnelles: résultats, méthodologie et conclusion\n",
"Analyse réplicable: remplace méthodo par détail du code, + explication détaillée. Plus d'efforts, mais analyse plus facile à:\n",
"- refaire\n",
"- modifier\n",
"- vérifier\n",
"\n",
"### 2. Etude de cas: syndromes grippaux\n",
"\n",
"Réseau Sentinelles (médecins généralistes)\n",
"Données au format CSV. Année et semaine au format ISO. Anomalie fréquente: semaines pour lesquelles il n'y a pas de données. Pour garder la réplicabilité, il ne faut pas supprimer les lignes concernées. Toutes les modifications doivent se faire dans du code.\n",
"\n",
"### 3. Importer les données\n",
"\n",
"Possibilité de masquer le titre dans Jupyter.\n",
"\n",
"Ne pas oublier `%matplotlib inline`.\n",
"\n",
"`pd.read_csv(<url>, skiprows=1)` Pour l'URL, voir dans le document téléchargé.\n",
"\n",
"Identifier la ligne sans données avec `isnull`. Supprimer la ligne avec `dropna`, et ajouter un commentaire pour le justifier. Ne pas oublier `.copy()`.\n",
"\n",
"### 4. Vérification et inspection\n",
"\n",
"Utiliser `isoweek.Week(year, week)`. Puis `pd.Period`.\n",
"\n",
"`set_index` pour utiliser une colonne comme indice.\n",
"\n",
"Les données sont sous forme de chaîne de caractère car il y avait une ligne avec des tirets. Convertir les données.\n",
"\n",
"Utiliser à la fois l'inspection visuelle et le code de validation.\n",
"\n",
"### 5. Questions et réponses\n",
"\n",
"Afin de minimiser les biais, choisir comme point de départ de l'année les creux de l'épidémie.\n",
"\n",
"**Attention!** Pandas ne respecte pas la convention de slice très utilisée en Python. Il faut donc écrire `[a:b-1]`.\n",
"\n",
"Séries temporelles avec Pandas: `Series`.\n",
"\n",
"Toutes les étapes de traitement des données doivent être fournies sous forme exécutable. C'est à ce niveau que l'on fait le plus d'erreurs."