From 04cd168490a3975dbbf6eb6b50c801e10f8b79e3 Mon Sep 17 00:00:00 2001 From: 7404ea6678ce6fbf3a726e36f2bf2079 <7404ea6678ce6fbf3a726e36f2bf2079@app-learninglab.inria.fr> Date: Wed, 18 Sep 2024 09:03:22 +0000 Subject: [PATCH] Update journal formatting and add notes on module 2.3 --- ...esearch_and_Reproductibility_mooc_notes.md | 87 ++++++++++++------- 1 file changed, 54 insertions(+), 33 deletions(-) diff --git a/journal/Research_and_Reproductibility_mooc_notes.md b/journal/Research_and_Reproductibility_mooc_notes.md index 1cb0f69..b8b7930 100644 --- a/journal/Research_and_Reproductibility_mooc_notes.md +++ b/journal/Research_and_Reproductibility_mooc_notes.md @@ -16,12 +16,14 @@ - Reproductibilité indirecte ou hypothétique - relatif aux recherches et activités scientifiques qui ont en commun d'être impossibles à standardiser complètement - Reproductibilité par expertise (expériences non-standard et objets de recherche rares - - « l'expertise reproductible se définit comme la compréhension qu'un expérimentateur qualifié travaillant avec des méthodes similaires sur les mêmes matériaux à ce moment et cet endroit précis produirait des résultats similaires » + - « l'expertise reproductible se définit comme la compréhension qu'un expérimentateur qualifié travaillant avec des\ + méthodes similaires sur les mêmes matériaux à ce moment et cet endroit précis produirait des résultats similaires » - Observation Reproductible: Études de Cas Non-expérimentales - domaine des sciences de l’observation (ex. sociologie, radiologie) - expertise est clé dans l’observation « reproductible » - Recherche Non-Reproductible: Observation Participante - - activités scientifiques où "l'idée même de reproductibilité est écartée au profit de la subjectivité, et d'une dépendance inévitable du contexte pour les résultats de recherche" + - activités scientifiques où "l'idée même de reproductibilité est écartée au profit de la subjectivité, et d'une\ + dépendance inévitable du contexte pour les résultats de recherche" **Les étiquettes et outils d’indexation :** @@ -57,25 +59,22 @@ choix non expliqués --> choix suspicieux **Logiciel "point&clic"** -Les logiciels "point&clic" qui sont faciles d'utilisation mais dont le détail\ -des calculs, des paramètres etc ne sont pas accessibles, où se qui se passe\ -derrière est caché. Ces logiciels dont l'usage premier peut être détourné,\ -ce qui crée de potentiels postes d'erreurs.\ +Les logiciels "point&clic" qui sont faciles d'utilisation mais dont le détail des calculs, des paramètres etc\ +ne sont pas accessibles, où se qui se passe derrière est caché. Ces logiciels dont l'usage premier peut être détourné,\ +ce qui crée de potentiels postes d'erreurs. **Tableurs, erreurs de programmation et de manipulation des données** -Un exemple typique sont les tableurs excel et en particulier ceux, \ -utilisant des macros. De plus, pour certaines valeurs, le comportement\ -par défaut du logiciel peut les interprêter de mauvaise manière.\ +Un exemple typique sont les tableurs excel et en particulier ceux, utilisant des macros. De plus, pour certaines valeurs,\ +le comportement par défaut du logiciel peut les interprêter de mauvaise manière.\ Par exemple: - le nom commun d'un gêne MARCH1 interprêtée comme une date, - un identifiant de gêne interpêter comme un chiffre **Pile logicielle complexe** -logiciels propriétaires ("boîte noire") dont on ne maîtrise pas le contenu et \ -qui applique aveuglément des procédures de calcul et de transformation de \ -données. +logiciels propriétaires ("boîte noire") dont on ne maîtrise pas le contenu et qui applique aveuglément des procédures de calcul\ +et de transformation de données. **Bugs de programmation** @@ -85,13 +84,11 @@ Erreurs peuvent venir de programmes "maison" 1. Pas de Backup -Stockage ne coûte plus rien, mais cela n'empêche que la sauvegarde des données \ -est souvent mal assurée. +Stockage ne coûte plus rien, mais cela n'empêche que la sauvegarde des données est souvent mal assurée. 2. Pas d'historique -En l'absence de mécanismes de gestion version, il est courant de remplacer par\ -inadvertance d'anciennes données par de nouvelles.\ +En l'absence de mécanismes de gestion version, il est courant de remplacer par inadvertance d'anciennes données par de nouvelles.\ --> plus d'accès aux anciennes observations. 3. Pas de contrôle qualité @@ -102,11 +99,9 @@ Bonnes pratiques de revue de code, l'intégration continue rarement appliquées 4. Dimension culturelle et sociale Un article est une version simplifié et intelligible des résultats : "publicité"\ -Une description haut-niveau est essentielle (permet de prendre du recul) mais \ -elle est devenue la norme alors que le niveau de technicité de la recherche \ -actuelle est bien trop élevé pour qu'il soit possible de donner dans un doc \ -de 8 à 10 pages toutes les informations permettant de refaire les expériences \ -et analyses. +Une description haut-niveau est essentielle (permet de prendre du recul) mais elle est devenue la norme alors que le niveau\ +de technicité de la recherche actuelle est bien trop élevé pour qu'il soit possible de donner dans un doc de 8 à 10 pages\ +toutes les informations permettant de refaire les expériences et analyses. * Description du protocole expérimental souvent assez succinte, * Données généralement trop nombreuses pour être données in extinso.\ @@ -121,27 +116,22 @@ Idées reçues * Faiblesses deviendraient évidentes -Si je donne accès à tout --> résultats n'apparaîtront pas aussi parfaits que ce \ -qu'ils étaient prétendus être. Risque d'être considéré comme un peu sale, \ -pas assez rigoureux, que l'on dise que les résultats présentés ont été sélectionnés \ -mais c'est la réalité et ce n'est pas un cas isolé.\ -Dans un domaine où la réputation est essentielle --> plus d'intérêt à le montrer.\ +Si je donne accès à tout --> résultats n'apparaîtront pas aussi parfaits que ce qu'ils étaient prétendus être. Risque d'être considéré\ +comme un peu sale, pas assez rigoureux, que l'on dise que les résultats présentés ont été sélectionnés mais c'est la réalité \ +et ce n'est pas un cas isolé. Dans un domaine où la réputation est essentielle --> plus d'intérêt à le montrer.\ Le cacher finira par paraître suspicieux et pourra nuire à la réputation. * Quelqu'un pourrait trouver une erreur -Si je révèle tout, quelqu'un peut potentiellement trouver une erreur. ---> tout le monde fait des erreurs mêmes des chercheurs de renom.\ +Si je révèle tout, quelqu'un peut potentiellement trouver une erreur. --> tout le monde fait des erreurs mêmes des chercheurs de renom.\ Mieux vaut trouver une erreur afin de rendre les travaux correctes. * Quelqu'un pourrait en tirer un avantage à ma place -Si je rends public mes données ou mon code, un risque est qu'un autre chercheur\ -utilise mes données ou mon code pour écrire plusieurs articles alors que j'en \ -aurais publier qu'un. --> si réutilisation, citation de votre travail est obligatoire\ +Si je rends public mes données ou mon code, un risque est qu'un autre chercheur utilise mes données ou mon code pour écrire plusieurs\ +articles alors que j'en aurais publier qu'un. --> si réutilisation, citation de votre travail est obligatoire. -Article les plus cités : présentation de contributions méthodologique ou\ -logiciels devenus essentiels dans un domaine.\ +Article les plus cités : présentation de contributions méthodologique ou logiciels devenus essentiels dans un domaine.\ --> il ne faut pas négliger l'intérêt de donner l'accès à sa communauté.\ GitHub (à mi-chemin entre plateforme de dév et réseau social) --> sorte de \ carte de visite pour un développeur. @@ -150,3 +140,34 @@ Travaux avec une dimension éthique.\ Données potentiellement sensibles --> définitions des personnes habilitées\ à avoir accès à ces données et utilisation de techniques cryptographiques. +### 2.3) Le document computationnel + +Un tel document (comble le fossé entre l'auteur et le lecteur)\ +permet de garder une trace afin :\ +* __d'inspecter__ : + * justifier pourquoi tel ou tel code est utilisé (auteur) + * comprendre ce qui a été fait (lecteur) +* __de refaire__ : permet de refaire les calculs et les analyses le plus simplement possible + * 1er point : permet au lecteur de vérifier que les calculs sont corrects + * 2ème point : permet de corriger des erreurs s'il y en a + * 3ème point : permet à d'autres de réutiliser les travaux dans un autre contexte + +3 outils possibles: +* Jupyter +* Rstudio/knitR +* Org mode + +1 seul document pour explications, code et résultats. +Possibilité d'export. + +Jupyter --> plusieurs langages mais pas dans un même notebook (en fait c'est faisable mais compliqué) +Rstudio --> dédié au langage R, possibilité de faire du python mais pas très ergonomique +Org mode --> on peut faire cohabité différents langages mais la courbe d'apprentissage est plus élevé que pour les deux autres outils. + +Jupyter et Rstudio s'appuient sur le markdown et donc sur Pandoc et le style par défaut est très bien\ +si l'on veut générer du html. Mais si besoin de générer un pdf avec un style particulier, pas forcément évident de configure Pandoc\ +pour qu'il applique le style voulu. + +Avec OrgMode capacité à écrire directement du Latex. + + -- 2.18.1