diff --git a/journal/module_2.md b/journal/module_2.md new file mode 100644 index 0000000000000000000000000000000000000000..a9b2a98336c3db5b371ef7ba68caea071c1120e2 --- /dev/null +++ b/journal/module_2.md @@ -0,0 +1,105 @@ +# Module 2 : La vitrine et l'envers du décor : le document computationnel + +## 0. Introduction + +**Objectifs** + +- Extension de la traçabilité aux calculs et à ses résultats +- Intégration du code et des résultats dans un document du type rapport +technique / article scientifique +- Présentation de 3 outils pour écrire un document computationnel: + - Jupyter, pour python + - RStudio, pour R + - Emacs/Org-mode, pour plusieurs langage + +Ces envionnements: +- Améliore la traçabilité des calculs +- Permet de présenter facilement ses travaux aux collègues +- Accéder à l'ensemble des calculs sous-jacents à une analyse + +## 1. Exemple récents d'études assez discutées + +**Exemple** + +- Reinhart et Rogoff : si dette > 90% PIB -> croissance /2. + +Erreurs de calculs, pratiques douteuses ... mais travaux ont eu de l'impact car +les données n'étaient pas mise à disposition + +- Geoffrey Chang + +Un code avait mal était fait, code transmit par d'autre lavboratoire. Causant de +mauvais calcul de structure proteique + +-> manque de rigueur et de transparence + +## 2. Pourquoi est-ce difficile ? + + +### Manque d'informations +Il faut expliciter: +- sources et données + +données indisponibles = resultats difficile à vérifier + +- choix + +choix non expliqués = choix suspicieux + +Le cahier de labo peut aider + +### L'ordinateur, source d'erreurs + +- point and click (on ne sait pas trop ce qui se passe, boite noire) +- les tableurs + - nom de gène : MARCH1 -> 2016-03-01 ... +- Pile logicielle complexe + - logiciel propriétaire +- bug + +### Le manque de rigueur et d'organisation +- pas de backup +- pas d'historique +- pas de contrôle qualité + +### Dimension cuturelle et sociale +Article = version simplifié de la procédure + +Données trop grosses pour être mise à disposition + +Les traitements informatique ne sont expliqué que succintement + +Beaucoup de travail pour tout partager et après tout pourquoi s'embéter si +personne ne les demandent ? + +### Tout rendre public ? +- les faiblesses deviendraient évidentes ? oui mais c'est la réalité +- Quelqu'un pourrait trouver une erreur ? Mais ca permet de les corriger +- Quelqu'un pourrait en tirer avantage à ma place ? + - les articles les plus cité sont des articles méthodologiques/logiciel + - montrer ce que l'on fait c'est probablement le meilleur moyen de mettre en + avant la propriété intellectuelle +- Les données peuvent être sensible + - outil de cryptographie "facile d'accés" + +### Les outils à éviter et alternatives +- outils, formats, et services propriétaires + - open source pour + - format texte + - stocker les données dans des services libres +- Attention au outil intuitif + - plus difficile pour le suivi + +### Changement de paradigme +1. Manque d'information, problème d'accès aux données +2. Erreurs de calcul +3. Manque de rigueur scientifique et technique + +**Expliquer augmente les chances de trouver les erreurs et de les élimineré** + +Exigence de la part de la société civil de publication des différentes sources +dans le but d'améliorer la recherche et gagner la confiance avec tout le monde +;p + + +