diff --git a/journal/Readme.md b/journal/Readme.md index 8c4feeebf429a3d90552e7b1fbd7e82a77faaa77..6242fd578118a4c608651f19daf4205d35570f8f 100644 --- a/journal/Readme.md +++ b/journal/Readme.md @@ -14,7 +14,6 @@ Espace réservé au journal de bord du Mooc - Les serveurs comme GitHub et GitLab permettent de travailler avec des fichiers binaires comme des images. - recherche proposée par un éditeur de texte ne fonctionne que sur un fichier à la fois - ### 2. Git, gitlab, github @@ -26,12 +25,9 @@ Les moteurs de recherche de bureau comme : - [Recoll (Linux, MacOS, Windows)](https://www.lesbonscomptes.com/recoll/index.html.fr) ; - [Spotlight (MacOS)](https://fr.wikipedia.org/wiki/Spotlight_(moteur_de_recherche)) ; - - - ## Module 2 : document computationnel -### 0. Exemples récents d’études assez discutées +### 1. Exemples récents d’études assez discutées - Économie: Politiques d'austérité - [Reinhart et Rogoff](https://en.wikipedia.org/wiki/Growth_in_a_Time_of_Debt): Growth in a Time of Debt @@ -51,12 +47,58 @@ Les moteurs de recherche de bureau comme : Cas de pb de reproductibilité : manque de rigueur et la transparence -### 1. Extension de la traçabilité aux calculs et à ses résultats -### 2. Intégration du code et des résultats dans un document du type rapport technique / article scientifique -### 3. Présentation de 3 outils pour écrire un document computationnel : -- Jupyter, -- RStudio, -- Emacs/Org-mode +### 2. Pourquoi est-ce difficile ? + +1. Les erreurs classiques + - le manque d'informations, pb d'accès aux données. + - les erreurs de calcul induites par l'utilisation effrénée des ordinateurs et logiciels sans tout comprendre (cas d'interprétation dans tableur excel). + - [En quoi les ordinateurs ont "cassé" la science](http://theconversation.com/how-computers-broke-science-and-what-we-can-do-to-fix-it-49938) + - [Erreurs de programmation et de manipulation de données en génomique](https://qz.com/768334/years-of-genomics-research-is-riddled-with-errors-thanks-to-a-bunch-of-botched-excel-spreadsheets/) + - le manque de rigueur scientifique et technique, et d'organisation. + +2. Outils à éviter, alternatives +- règle numéro 1 : utiliser autant que possible du format texte. Markdown, Org-mode (notes), csv (données). +- règle numéro 2 : utiliser autant que possible les logiciels et les langages de programmation libres, comme R ou Python que nous utiliserons dans ce MOOC. +- règle numéro 3 : éviter de stocker vos données chez un hébergeur dont vous pourriez être captif. Répliquez-les à plusieurs endroits. +- Tout rendre publique ? + - Quelqu'un pourrait [tirer parti de mon dur labeur](http://www.nature.com/news/the-top-100-papers-1.16224). Les papiers les plus cités sont des papiers qui décrivent une nouvelle technique ou un logiciel permettant à une communauté de recherche d'avancer. + +### 3. Document computationnel : principe +Objectifs méthodologiques +Garder trace afin de : +- Inspecter : justifier/comprendre +- Refaire : vérifier/corriger/réutiliser + +Dans un document computationnel, on trouve +1. Des commentaires +2. Du code +3. Un aperçu des données +4. Les résultats de calculs +5. Des liens hypertextes +6. Des images + +Un document computationnel permet de + + 1. Inspecter les calculs + 2. Réexécuter facilement les calculs si l'environnement d'origine est disponible + 3. Documenter le code + 4. Expliquer pourquoi tel ou tel calcul est effectué en fonction des données analysées + 5. Utiliser plusieurs langages pour faire des calculs (même si cela peut demander un peu de travail) + + +### 4. Présentation de 3 outils pour écrire un document computationnel : +1. Jupyter, +2. RStudio + knit R (transforme .Rmd en fichier html, pdf (via LaTex) en fonction de ce qu'on a indiqué dans la partie métadonnées en header du fichier .Rmd) + +Production et partage du document final +- Knit + - pdf, LaTex + - html + - word/office + - Possibilité de faire du LaTex (R Sweave : Rnw) ou du html (R html : Rhtml) directement pour avoir un contrôle parfait. +- Partage à peu de frais via rpubs + +3. Emacs/Org-mode