From b3427479c0a6ccebaaa779193af821f4de716285 Mon Sep 17 00:00:00 2001 From: 775fa023afdad620d4ee52332c3e8a00 <775fa023afdad620d4ee52332c3e8a00@app-learninglab.inria.fr> Date: Mon, 13 Apr 2020 13:37:01 +0000 Subject: [PATCH] Update Notes_on_module_2.md ; part 2 : why is it so difficult ? --- journal/Notes_on_module_2.md | 50 ++++++++++++++++++++++++++++++++++++ 1 file changed, 50 insertions(+) diff --git a/journal/Notes_on_module_2.md b/journal/Notes_on_module_2.md index 201cd58..45784e6 100644 --- a/journal/Notes_on_module_2.md +++ b/journal/Notes_on_module_2.md @@ -28,3 +28,53 @@ Signes d'activité cérébrale chez le poisson mort -> met le doigt sur des prob Ces problèmes sont présents dans tous les domaines scientifiques. La rigueur et la transparence sont alors de mise. +## Pourquoi est-ce difficile + +Difficultés rencontrées lors des tentatives de reproduction d'expériences + +- manque d'informations : + - données et sources, + - choix effectués (hypothèses sous-jacentes à l'analyse, etc.) . Choix non expliqués = choix suspicieux +- ordinateur : source d'erreur + - point and click + - les tableurs : erreurs de programmation et de manipulation de données + - pile logicielle complexe et mal maîtrisées (logiciels propriétaires qui fonctionnent comme des boîtes noires) + +Problème : programmer, c'est dur ; mais il faut vérifier que chacune des briques de l'analyse est valable + +- manque de rigueur et d'organisation + - pas de backup + - pas d'historique (manque de gestion de versions) + +Dimension culturelle et sociale : +- article = version **simplifiée** de la procédure +- tracer et rendre dispo les informations : exige du temps + +Tout rendre public ? +- les faiblesses deviendraient évidentes -> c'est normal, tout travail a ses faiblesses +- quelqu'un peut trouver une erreur -> oui, mais il faut que les erreurs soient connues +- quelqu'un pourrait en tirer avantage -> importance d'un article méthodologique + +(Github : entre la plateforme de développement et le réseau social ; mettre ses travaux à disposition montre la propriété intellectuelle) + +- les données peuvent être sensibles (ex : infos sur le vote, etc) -> se poser des questions éthiques, vérifier l'accessibilité des données + +**Outils à éviter et alternatives** +- outils, formats et services propriétaires : + - adopter le format texte + - logiciels et langages de programmation libres + - répliquer les données à plusieurs endroits, si possible issus d'alternatives libres +- outils "intuitifs" : tableur, interfaces graphiques -> utiliser R ou Python + +*Expliciter augmente les chances de trouver les erreurs et de les éliminer* + +Ressources complémentaires intéressantes : +[How computers broke science – and what we can do to fix it](https://theconversation.com/how-computers-broke-science-and-what-we-can-do-to-fix-it-49938) +Recommandations issues de cet article : +- minimiser le point-and-click et utiliser des scripts +- utiliser les formats non-propriétaires +- organiser systématiquement les fichiers (voir par exemple [ici](https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1000424) pour la biologie computationnelle) + +[Sur les boots camps destinés aux chercheurs - quelques indices de bonnes pratiques dans cet article](https://www.nature.com/news/boot-camps-teach-scientists-computing-skills-1.15799) +[Les erreurs dans les spreadsheets en biologie](https://qz.com/768334/years-of-genomics-research-is-riddled-with-errors-thanks-to-a-bunch-of-botched-excel-spreadsheets/) + -- 2.18.1