diff --git a/journal/journal.org b/journal/journal.org new file mode 100644 index 0000000000000000000000000000000000000000..508f46f73beea6646cd9ec5e1d03b4982a520a7b --- /dev/null +++ b/journal/journal.org @@ -0,0 +1,197 @@ +* MOOC : Recherche reproductible +** Module 1 : Prise de note +*** Organisation de la note par la *methode de John Locke* +Elle consiste a faire auant de lettres qu'il y a dans l'alphabet. +Chacune des entrées est subdivisée en 5, correspondant aux 5 voyelles les plus frequentes(a, i, e, o,u). Y est placé avec i +L'idée est de refferencer les pages des mots clés utiliés (dans un livre par ex) en utilisant sa premiere lettre et sa premiere voyelle +Par exemple, calcium apparissant à la page 20 serait : +A a o i u e +B +C 20 +... + +*** Fichier text et langages balises +Logiciels comme gedit, notpad++, TextEdit(macOs) ... +Pour rendre ses notes lisibles par d'autres editeurs de text, utiliser le format UTF-8. Lisible par plusieurs versions +Pas possible de mettre en emphase des mots clés (gras, italique...) +Consequence : Creation des langages de balysage (html ...) => Necessitent un editeur specialisé +Solution : Langages balisés legers. Exemple markdown, wikitext, asciiDoc... ou on entre du text qui est + traduit en langage HTML. Ils fonctionnent avec tous les editeurs + +*** Perenité et evoltivite des notes +Evolu.. : capacité a corriger les notes et suivre les corrections + Utiliser des logiciels de traitement de text par ex, permettant de savoir les + modifications apportées, date, auteur,... +Perenité : Multiplication de versions géré par un logiciel de gestion de versions comme git + Permet de corriger plusieurs fichier en meme temps, a l'opposé de la precedente solution + Et permet plus de travailler en collaboratif. + + + +*** Interface gitlab + + +*** les étiquettes et les logiciels d'indexation pour s'y retrouver +Utiliser Dockfetcher pour se retrouver dans ses notes +- On a des infos sur le nbre d'occurances + +On peut ajouter des *etiquettes ou mots* clés pour se reperer et ne pas avoir tutes les occurances +Ajouter des commentaires par exemple etiquete1, etiquet2 ... + +Utiliser un moteur de recherche pour rechercher rapidement + + +** Module 2 : La document computationnel +*** Difficultes les plus communes dans la reroduction des travaux +- Manque d'info + + source et données brutes + + choix de procedure, hypotheses... non explicités + + Données tres nombreuses pour tenir sur un papier ( 8-10pages ..) +- L'ordi peut etre une source d'erreur + + Difficile de connaitre le protocole de calcul utilisé + + Utilisation du mauvais logiciel .. + + Pile logiciel complexe dont on ne maitrise pas le contenu + + Bug dans les logiciels proprietaire dont on ne peut pas detecter la source + +- Pas de backup, pas d'historique, pas de controle qualité + + +*** Document copmputationnel +*Objectif methodologique* : Garder des traces afin de: +- Inspecter : Justifier/comprendre +- Refaire : Verifier/Corriger/Reutiliser (calcul et analyse par le lecteur) + +*Qu'est ce qu'on y trouve ?* +- Du texte . (Latex, Formules mathematics ...) +- Zone de code .. (editer et executer des fragments de code) +- Export vers pdf par ex ou html ... Pour chaque zone, on peut decider de les + rendre visible dans le doc final. +-Results sous forme de courbes ... + +Les environnements les plus utilisés sont Jupiter - OrgMode - Rstudio + + + + + +** Module 3 : Analyse de données replicables. +*** Qu'est ce que c'est +- Dans une analyse traditionnelle : + + Se concentrer sur des resultats + + Montrer un resumé des calculs qui on servi a les optenir + + Terminer par une discussion exposant les expés concluentes de l'analyse + +- Dans une analyse de données replicable : + + Presenter la toatalité du code + + Acoompagner le code d'explications, notamment des choix faits à chaque etape + +*Consequence* +- Analyse facile a refaire si les données changent +- Facile a modeifier +- Facile a inspecter et verifier + + +*** Etude de cas du reseau sentinel +- Des anomalies peuvent survenir dans les données que nous analysons + (Lignes vides ou non conformes dans un fichier de trace par ex) +- Ne jamais faire des modifications de données à la main. => L'analyse ne pourra pa etre + reproduite si une personne veut utiliser les données d'origine +- Toutes les modifs doivent se faire dans du code + + +** QUIZ +- D'ou vient l'expression Tabula Rasa ? + + R : Du latin Tabula rasa qui signifie effacer tablette de cire +- Quel aspect du travai 'Eusebe est presenté dans cette sequence? + + R : Ses tables canoniques. (References croisées entre les livres de l'evangile) +- Dans quelle ligne classer le mot-clé « Analyse » dans l’index de John Locke ? + + R : Aa +- Qu’est-ce qu’un fichier texte ? + + R : Un fichier dont le contenu est fait de caracteres UTF-8 +- Qu’est-ce qu’une balise ? + + Un caractère, ou une série de caractères, utilisé pour la structuration d’un document et qui sera invisible par le lecteur final +- Markdown est un langage de balisage : + + Leger +- 1. LibreOffice permet de comparer deux versions successives d’un même document. + + Vrai +- Un moteur de Wiki ne permet de modifier qu'une seule page à la fois. + + Vrai +- Les serveurs comme GitHub et GitLab permettent de travailler avec des fichiers binaires comme des images. + + Vrai +- Qu’est-ce que DocFetcher ? + + logiciel multi-plateformes + + Un moteur de recherche de bureau + +- Quelles sont les limitations de la recherche proposée par un éditeur de texte ? + + Elle ne fonctionne qu’avec des fichiers texte + + Elle ne fonctionne que sur un fichier à la fois + +- Pourquoi utiliser des étiquettes ou des mots clés ? + + Pour filtrer une information trop abondante + + Pour trouver plus vite une information pertinente. + +- Les fichiers textes sont les seuls auxquels des étiquettes peuvent être rajoutées + + Faux + +- Un document computationnel permet de + + Améliorer la traçabilité d’un calcul + + Présenter facilement ses travaux à des collègues + + Accéder à l’ensemble des calculs sous-jacents à une analyse + +- Quel(s) environnement(s) vous sont présentés dans ce MOOC ? + + Rstudio + + Emacs/OrgMode + + Jupiter + +- Quel environnement est-il conseillé d'utiliser si votre langage de prédilection est Python ? + + Jupiter + +- Quel environnement est-il conseillé d’utiliser si votre langage de prédilection est R ? + + Rstudio +-Quel environnement est utilisé quotidiennement par les trois auteurs de ce MOOC ? + + EMacs/OrgMode + +- Dans les études que nous vous avons présentées, qu'est-ce qui empêche, parfois pendant plusieurs années, le débat sur la pertinence d’une étude ? + + La non publication des procédures de calcul + + La non publication des données utilisées + +- Dans les différents exemples présentés (économie, IRM, cristallographie), quelles sont les principales causes d’erreurs ? + + acquisition des données (biais, calibrage de la machine, etc.) + + Erreur de calcul + + Traitement des données statistiques inadapté + +- Quelles sont les conséquences du manque de transparence ? (4 réponses attendues) + + Il est difficile de s’appuyer sur le travail des autres + + Les articles contiennent moins d'information (pas de détails sur les calculs, protocoles expérimentaux, analyse de données, etc.) et sont donc plus faciles à lire + + Il est difficile de vérifier et de reproduire les analyses présentées dans les articles + + Deux articles peuvent présenter des résultats en contradiction apparente les uns avec les autres, tout en étant tous deux parfaitement corrects, le manque de + détails empêchant de déterminer les conditions exactes d'application + +- Que trouve-t-on généralement dans un document computationnel + + Des commentaires + + DU code + + Un apercu des données + + Les results de calcul + + Des liens hypertext + + Des images + +- Que permet un document computationnel ? + + Inspecter les calculs + + Réexécuter facilement les calculs si l'environnement d'origine est disponible + + Documenter le code + + Expliquer pourquoi tel ou tel calcul est effectué en fonction des données analysées + + Utiliser plusieurs langages pour faire des calculs (même si cela peut demander un peu de travail) + +- Comment gérons-nous les données manquantes ? + + Nous les supprimons avant de continuer avec l’analyse ( Pas manuellement ) + +- Pourquoi avons-nous choisi le langage Python pour la préparation des données ? + + Parce que sa bibliothèque standard connaît le format ISO pour les numéros de semaine + +- Pourquoi devons-nous transformer les étiquettes des semaines ? + + Python ne peut pas interpréter le format des données d’origine + +- Quelles méthodes utilisons-nous pour vérifier notre travail ? + + L’inspection visuelle + + Du code spécifiquement écrit pour la vérification +