# MOOC Recherche Reproductible -SG ## Module 1: cahiers de notes ### Introduction Reproductibilité = être capable de retrouver le même résultat ou être capable d’appliquer le même procédé d’analyse à un autre jeu de données ou être capable de communiquer, de faire refaire l’analyse du même set de données (avec les mêmes règles de calcul, les mêmes valeurs de paramètres...) Pas le même sens en fonction des disciplines. Augmentation de la demande de reproductibilité par les éditeurs Traçabilité des données et des opérations particulièrement importante pour la modélisation et le traitement statistique de données ### Nous utilisons tous des cahiers de notes Problématique de la synchronicité de la prise de note avec l'opération et le nettoyage/classement a posteriori Problématique de l'exhaustivité des notes, de leur fidélité et de la diversité des formats (textes, dessin, images...) Problématique de la pérennité du support (et de son accessibilité - logiciels propriétaires...) Problématique de l'exploration des notes : indexation ### Du fichier texte au langage de balisage léger **Markdown** : langage de balisage léger dans un fichier text UTF-8 **Gitlab** utilisé comme interface éditeur de texte UTF-8 avec balisage léger type Markdown ### Pérennité et évolutivité des notes avec les logiciels de gestion de version (Gitlab) A la base : **Git** logiciel avec son langage Principe : enregistrement de chaque version du fichier et de ses liens avec les versions préexistantes (history donne accès au graphe entre ses différentes versions; on peut envoyer, récupérer, échanger des parties de cet arbre pour récupérer telle ou telle version et travailler dessus) Commit : enregistrement de la version, elle est assortie d'un commentaire indiquant quel changement apporté (faire des fichiers .md à écrire "en markdown") Pour faciliter la traçabilité, organiser au maximum le fichier en modules, en lignes (codes) et séparer les phases de modification de forme et de fond pour des petits commits logiques et bien documentés dans la partie commentaire **Github** plateforme logicielle ouverte, la plus up-to-date **Gitlab** instances institutionnelles de plateformes logicielles Git ### Les étiquettes et les logiciels d’indexation Moteur de recherche de bureau : **DocFetcher** Logiciel **Exiftool** pour voir et rajouter des métadonnées sur des fichiers images (notamment des mots clés que DocFetcher pourra retrouver) Dans un fichier texte en Markdown : highlighter ces mots clés dans le texte par la balise ### Exercices module 1 1. Fonction blame ou history accessible quand fichier ouvert. Sinon, faire graph 2. Reste la dernière ligne à formatter 3. Journal de bord ## Module 2 Choix de l'environnement R, Rstudio (car installation préexistante; besoins par ailleurs) ### Exercice 1 Pas facile sous Gitlab. 1. accès possible au fichier toy-documentR.Rmd 2. editing possible 3. commit possible mais 1. je ne comprends pas comment le commit reste "user-specific" et ne se rajoute pas à l'arborescence commune des modifications/ ne change pas le fichier commun 2. maitrise pas l'interface gitlab : pas accès à "display rendered file" while editing the toy-documentR.Rmd file 3. pas de bouton knit trouvé Ai fait sous Rstudio à côté pour vérifier le rendering en pdf (fichier [refcard Rmarkdown](https://www.fun-mooc.fr/courses/course-v1:inria+41016+self-paced/courseware/2bfe60a86fed4994b5493a220c38eb69/13f6fd96266746a0bd9d717a12f1f835/4?activate_block_id=block-v1%3Ainria%2B41016%2Bself-paced%2Btype%40vertical%2Bblock%4089c7893cb5aa4644b06569c65945d4d9) bien utile) ### Exercice 2 Fait directement dans Rstudio. (cours Pouzat_YRLS_20170516 et R reference card - Introductory statistics by Anthony Tanbakuchi bien utile) ### Exercice 3 Ai fait directement dans Rstudio avec la fonction plot et la fonction hist. Pas compris comment changer le format des axes et rajouter les axes secondaires. Pas compris la nature de la deuxième figure, son paramétrage (ne correspond pas à l'output de hist)