# Module 3 : La main à la pâte, une analyse réplicable
## 0. Introduction
### Objectifs
- Apprendre à réaliser une analyse de données de façon reproductible et traçable
- Maitrîser quelques bonnes pratiques pour la préparation des documents
computationnels
## 1. Une analyse réplicable, c'est quoi ?
### Dans une analyse traditionnelle
1. concentre sur les résultats
2. montre simplement un résumé méthodologique des méthodes utilisées
3. discussion pour exposer entre autres les conclusion de cette analyse
### Dans une analyse réplicable
1. présentation des résultats
2. fournir le code qui à permit de génèrer ces résultats avec un explication
détaillée du code et des choix fait
3. discussion (identique à l'analyse traditionnelle)
### Pourquoi faire réplicable alors que c'est plus d'effort ?
- Facile à refaire si les données changent
- facile à modifier
- facile à inspecter et vérifier (plus de **confiance**)
## 2. Etude de cas : l'incidence de syndromes grippaux
Présentation du jeu de données qui va servir comme exemple dans ce module
Données qui viennent du réseau sentinelles
Ne pas supprimer les lignes vides directement dans le fichier texte, pas
de modification à la main
Tout doit se faire dans le code
La date (en semaine) est au format ISO8601 dans le fichier:
> il y a deux façons différentes de procéder : on peut donner l'année, le mois, et le jour du mois, ou on peut donner l'année, la semaine, et le jour de la semaine. Le 8 août 2018 peut donc être écrit 2018-08-08 ou 2018-W32-3, car il s'agit du troisième jour (mercredi) de la semaine 32 de l'année 2018.
## 3B. Importer les données avec RStudio/R
- lecture des données directement depuis la **source** (url)
- Faire attention aux données manquantes avant l'analyse
## 4B. Vérification et inspection avec RStudio/R
- Pré-traitement des données
- Adapter aux conventions des logiciels
- Faciliter l'analyse
- Vérifier autant que possible
- inspection visuelle
- code de validation
## 5B. Questions et réponses avec RStudio/R
Une analyse réplicable doit contenir **toutes les étapes** de traitement des données sous une forme **exécutable**.
Il est important d'**expliquer** tous les choix qui peuvent influencer les résultats.
Ceci nécessite d'exposer beaucoup de **détail techniques**, parce que c'est à ce niveau qu'on fait le plus d'erreur.