# Une analyse réplicable, c'est quoi ? Analyse de données traditionnelles : résultats -> résumé méthodologique -> discussion Analyse de données réplicables : on remplace le résumé par le total du code de tous les calculs. Réplicable : - facile à refaire si les données changent - facile à modifier - facile à inspecter et vérifier Néanmoins une analyse réplicable demande plus de travail pour la préparation et la publication. # Etude de cas : l'analyse de syndrome grippaux A partir du [site web du réseau Sentinelles](https://www.sentiweb.fr/) - ne jamais modifier les données à la main : tout doit se faire dans du code # Importer les données avec R studio Utilisation du projet mooc-rr.Rproj R studio Points-clés de la séquence : - les données doivent être lues directement de la source - il faut faire attention aux données manquantes A noter : R gère les données manquantes presque automatiquement. # Vérification et inspection avec R studio Préparation des données pour l'analyse. Principale étape : préparation des dates. Points clés de cette séquence : - prétraitement des données afin d'adapter aux conventions des logiciels et de faciliter l'analyse - vérification par inspection visuelle et code de validation # Questions et réponses avec R studio Poser des questions aux données et obtenir des réponses. 1. Années des épidémies les plus fortes ? 2. Fréquence d'épidémies faibles, moyennes, et fortes ? Pour cela, il faut effectuer une sommation sur l'année. L'année est définie du 1er août de l'année précédente au 1er août de l'année considérée, pour éviter de se trouver au beau milieu d'un pic. Points clés de ce module : - une analyse réplicable doit contenir toutes les étapes de traitement des données sous une forme éxécutable - il est important d'expliquer tous les choix qui peuvent influencer les résultats - cela nécessite d'exposer beaucoup de détails techniques, parce que c'est là qu'on fait le plus d'erreur # Exercices ## Exercice 1 Raison pour utiliser des données analysées en local : "Pour nous protéger contre une éventuelle disparition ou modification du serveur du Réseau Sentinelles, nous faisons une copie locale de ce jeux de données que nous préservons avec notre analyse. Il est inutile et même risquée de télécharger les données à chaque exécution, car dans le cas d'une panne nous pourrions remplacer nos données par un fichier défectueux. Pour cette raison, nous téléchargeons les données seulement si la copie locale n'existe pas."