Update Notes_on_module_2.md ; part 2 : why is it so difficult ?

parent dd8203e0
...@@ -28,3 +28,53 @@ Signes d'activité cérébrale chez le poisson mort -> met le doigt sur des prob ...@@ -28,3 +28,53 @@ Signes d'activité cérébrale chez le poisson mort -> met le doigt sur des prob
Ces problèmes sont présents dans tous les domaines scientifiques. Ces problèmes sont présents dans tous les domaines scientifiques.
La rigueur et la transparence sont alors de mise. La rigueur et la transparence sont alors de mise.
## Pourquoi est-ce difficile
Difficultés rencontrées lors des tentatives de reproduction d'expériences
- manque d'informations :
- données et sources,
- choix effectués (hypothèses sous-jacentes à l'analyse, etc.) . Choix non expliqués = choix suspicieux
- ordinateur : source d'erreur
- point and click
- les tableurs : erreurs de programmation et de manipulation de données
- pile logicielle complexe et mal maîtrisées (logiciels propriétaires qui fonctionnent comme des boîtes noires)
Problème : programmer, c'est dur ; mais il faut vérifier que chacune des briques de l'analyse est valable
- manque de rigueur et d'organisation
- pas de backup
- pas d'historique (manque de gestion de versions)
Dimension culturelle et sociale :
- article = version **simplifiée** de la procédure
- tracer et rendre dispo les informations : exige du temps
Tout rendre public ?
- les faiblesses deviendraient évidentes -> c'est normal, tout travail a ses faiblesses
- quelqu'un peut trouver une erreur -> oui, mais il faut que les erreurs soient connues
- quelqu'un pourrait en tirer avantage -> importance d'un article méthodologique
(Github : entre la plateforme de développement et le réseau social ; mettre ses travaux à disposition montre la propriété intellectuelle)
- les données peuvent être sensibles (ex : infos sur le vote, etc) -> se poser des questions éthiques, vérifier l'accessibilité des données
**Outils à éviter et alternatives**
- outils, formats et services propriétaires :
- adopter le format texte
- logiciels et langages de programmation libres
- répliquer les données à plusieurs endroits, si possible issus d'alternatives libres
- outils "intuitifs" : tableur, interfaces graphiques -> utiliser R ou Python
*Expliciter augmente les chances de trouver les erreurs et de les éliminer*
Ressources complémentaires intéressantes :
[How computers broke science – and what we can do to fix it](https://theconversation.com/how-computers-broke-science-and-what-we-can-do-to-fix-it-49938)
Recommandations issues de cet article :
- minimiser le point-and-click et utiliser des scripts
- utiliser les formats non-propriétaires
- organiser systématiquement les fichiers (voir par exemple [ici](https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1000424) pour la biologie computationnelle)
[Sur les boots camps destinés aux chercheurs - quelques indices de bonnes pratiques dans cet article](https://www.nature.com/news/boot-camps-teach-scientists-computing-skills-1.15799)
[Les erreurs dans les spreadsheets en biologie](https://qz.com/768334/years-of-genomics-research-is-riddled-with-errors-thanks-to-a-bunch-of-botched-excel-spreadsheets/)
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment