diff --git a/journal/Notes_on_module_2.md b/journal/Notes_on_module_2.md index 201cd5802f76f6d91ae853b838c654507415d24e..45784e6d510e1acecdeab3d1da5e13724dda52c6 100644 --- a/journal/Notes_on_module_2.md +++ b/journal/Notes_on_module_2.md @@ -28,3 +28,53 @@ Signes d'activité cérébrale chez le poisson mort -> met le doigt sur des prob Ces problèmes sont présents dans tous les domaines scientifiques. La rigueur et la transparence sont alors de mise. +## Pourquoi est-ce difficile + +Difficultés rencontrées lors des tentatives de reproduction d'expériences + +- manque d'informations : + - données et sources, + - choix effectués (hypothèses sous-jacentes à l'analyse, etc.) . Choix non expliqués = choix suspicieux +- ordinateur : source d'erreur + - point and click + - les tableurs : erreurs de programmation et de manipulation de données + - pile logicielle complexe et mal maîtrisées (logiciels propriétaires qui fonctionnent comme des boîtes noires) + +Problème : programmer, c'est dur ; mais il faut vérifier que chacune des briques de l'analyse est valable + +- manque de rigueur et d'organisation + - pas de backup + - pas d'historique (manque de gestion de versions) + +Dimension culturelle et sociale : +- article = version **simplifiée** de la procédure +- tracer et rendre dispo les informations : exige du temps + +Tout rendre public ? +- les faiblesses deviendraient évidentes -> c'est normal, tout travail a ses faiblesses +- quelqu'un peut trouver une erreur -> oui, mais il faut que les erreurs soient connues +- quelqu'un pourrait en tirer avantage -> importance d'un article méthodologique + +(Github : entre la plateforme de développement et le réseau social ; mettre ses travaux à disposition montre la propriété intellectuelle) + +- les données peuvent être sensibles (ex : infos sur le vote, etc) -> se poser des questions éthiques, vérifier l'accessibilité des données + +**Outils à éviter et alternatives** +- outils, formats et services propriétaires : + - adopter le format texte + - logiciels et langages de programmation libres + - répliquer les données à plusieurs endroits, si possible issus d'alternatives libres +- outils "intuitifs" : tableur, interfaces graphiques -> utiliser R ou Python + +*Expliciter augmente les chances de trouver les erreurs et de les éliminer* + +Ressources complémentaires intéressantes : +[How computers broke science – and what we can do to fix it](https://theconversation.com/how-computers-broke-science-and-what-we-can-do-to-fix-it-49938) +Recommandations issues de cet article : +- minimiser le point-and-click et utiliser des scripts +- utiliser les formats non-propriétaires +- organiser systématiquement les fichiers (voir par exemple [ici](https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1000424) pour la biologie computationnelle) + +[Sur les boots camps destinés aux chercheurs - quelques indices de bonnes pratiques dans cet article](https://www.nature.com/news/boot-camps-teach-scientists-computing-skills-1.15799) +[Les erreurs dans les spreadsheets en biologie](https://qz.com/768334/years-of-genomics-research-is-riddled-with-errors-thanks-to-a-bunch-of-botched-excel-spreadsheets/) +