Module 3 : La main à la pâte, une analyse réplicable

0. Introduction

Objectifs

  • Apprendre à réaliser une analyse de données de façon reproductible et traçable
  • Maitrîser quelques bonnes pratiques pour la préparation des documents computationnels

1. Une analyse réplicable, c’est quoi ?

Dans une analyse traditionnelle

  1. concentre sur les résultats
  2. montre simplement un résumé méthodologique des méthodes utilisées
  3. discussion pour exposer entre autres les conclusion de cette analyse

Dans une analyse réplicable

  1. présentation des résultats
  2. fournir le code qui à permit de génèrer ces résultats avec un explication détaillée du code et des choix fait
  3. discussion (identique à l’analyse traditionnelle)

Pourquoi faire réplicable alors que c’est plus d’effort ?

  • Facile à refaire si les données changent
  • facile à modifier
  • facile à inspecter et vérifier (plus de confiance)

2. Etude de cas : l’incidence de syndromes grippaux

Présentation du jeu de données qui va servir comme exemple dans ce module

Données qui viennent du réseau sentinelles

Ne pas supprimer les lignes vides directement dans le fichier texte, pas de modification à la main Tout doit se faire dans le code

La date (en semaine) est au format ISO8601 dans le fichier:

il y a deux façons différentes de procéder : on peut donner l’année, le mois, et le jour du mois, ou on peut donner l’année, la semaine, et le jour de la semaine. Le 8 août 2018 peut donc être écrit 2018-08-08 ou 2018-W32-3, car il s’agit du troisième jour (mercredi) de la semaine 32 de l’année 2018.

3B. Importer les données avec RStudio/R

  • lecture des données directement depuis la source (url)
  • Faire attention aux données manquantes avant l’analyse

4B. Vérification et inspection avec RStudio/R

  • Pré-traitement des données
    • Adapter aux conventions des logiciels
    • Faciliter l’analyse
  • Vérifier autant que possible
    • inspection visuelle
    • code de validation

5B. Questions et réponses avec RStudio/R

Une analyse réplicable doit contenir toutes les étapes de traitement des données sous une forme exécutable.

Il est important d’expliquer tous les choix qui peuvent influencer les résultats.

Ceci nécessite d’exposer beaucoup de détail techniques, parce que c’est à ce niveau qu’on fait le plus d’erreur.