diff --git a/.DS_Store b/.DS_Store new file mode 100644 index 0000000000000000000000000000000000000000..4cc0093264f6e4a72d17404a205132c9efbfdfcb Binary files /dev/null and b/.DS_Store differ diff --git a/.gitignore b/.gitignore new file mode 100644 index 0000000000000000000000000000000000000000..5b6a0652566d10360493952aec6d4a4febc77083 --- /dev/null +++ b/.gitignore @@ -0,0 +1,4 @@ +.Rproj.user +.Rhistory +.RData +.Ruserdata diff --git a/Htmltemplatedowncute/Htmltemplatedowncute.Rmd b/Htmltemplatedowncute/Journal_de_bord.Rmd similarity index 58% rename from Htmltemplatedowncute/Htmltemplatedowncute.Rmd rename to Htmltemplatedowncute/Journal_de_bord.Rmd index 0977f26540b33601adac251205cddb040d161e5d..cbb2073ee6f4304fa67b20b53a95ff1756f168de 100644 --- a/Htmltemplatedowncute/Htmltemplatedowncute.Rmd +++ b/Htmltemplatedowncute/Journal_de_bord.Rmd @@ -147,6 +147,86 @@ git reset et git restore +# Module 3 +* Dans une analyse réplicable, les codes sont fourni ainsi que les calculs. +* Donc plus facile a vérifier et refaire + +## Etude de cas + +* Toutes modifs doit pouvoir être refaite ! + + + +* Here are two useful functions: + + * `all(diff(data$date) == 7)` : Functions diff look at the difference between iteration and all look at wether the values are true for an entire vector (here all the differences) + * `with(tail(data, 200), plot(date, inc, type="l", xlab="Date", ylab="Incidence hebdomadaire"))` : Here the function with evaluate an expression within a constructed environement from data. (Here from the end of the dataset. ) + + +# Module 4 La réalité du terrain + +## L'enfer des données + +* Les données sont diverses et volumineuse + * Souvent pas d'observations pour toutes les variables a chaque pas de temps (= colonnes différentes longueur). + * Format texte => Format binaire. pour plusieurs raisons. + * Garder les métadonées du format texte. + * Problème du boutisme (petit ou grand à spécifier) + * FITS et HDF5 => Deux formats binaires. + * FITSio avec R ; 3 paquets avec R. +* Comment archiver les données car Git pas bien adapté. + * Zenodo ou Figshare permettent de déposer ses données (au format binaire par exemple, mais pas de contrainte) + + + + +## L'enfer du logiciel + +* Passage à l'échelle (plus gros code, plus de données...) + * Org mode permets d'avoir une meilleur vue (structure) mais quand même. + * Workflow. La représentation en graph permet d'avoiur une vu d'ensemble plus claire. + * Pas de façon simple/mature de passer d'un notebook à un workflow + * Code exéuté de manière fonctionnelle. + * Notebook plus séquenciel. Workflow permets explication parallèle. + * Exemples: Galaxy, Kepler, Taverna, Pegasus... + * Légers: dask, **drake** (spécial pour R), swift, snakemake... + * Hybrides: SOS-notebook + * Checkpoint et cache + * Supercalculateur + +* Environnement complexe .... + * dépendances... => Sur macOS => brew gestionnaire de gestion de paquets (comme apt pour linux). + * Environnement contrôlé: + * Machine virtuelle ou conteneur (docker) + * Conserver le bazarre: CDE, ReproZip: figer un environnement et le partager avec un collègue. Mais figé. + * Ou faire le ménage: Docker/Singularity, Guix/Nix. Installer juste le nécessaire et l'expliciter. + * L'épreuve du temps. + * Python 2 et 3 + * Différence entere version de mac et des calculs. Ou entre mac et windows. + * => Intégration continue pour tester la reconstructibilité et fonctiuonnalité => Outil [popper](https://getpopper.io/) + +* Archivage : Software Heritage; HAL +* Gestion des environnements: dockerhub, nix, repository ... code clean. + + + +## L'enfer du calcul + +* Problème des arrondi implicite dans chaque opérations +* Importance des ordres des opérations donc. Compilateur changent cet ordre ! +* Compilations peut être rendue reproductible. +* Calcul parallèle => adapter l'ordre des opérations. Minimiser son impact est un sujet actuel. +* Calcul = Plateforme + logiciel + données. + +### Nombres aléatoires + +* DEéfinir la graine dans le code d'application. + +# Conclusions + + + + diff --git a/journal/Readme.md b/journal/Readme.md index f56eb60293dc1edebe2b3660a48b225330a72878..98b5fb227a156c564079af86e20f6023568a914f 100644 --- a/journal/Readme.md +++ b/journal/Readme.md @@ -1,9 +1,2 @@ -# Journal de bord du Mooc / Mooc's logbook - -FR - -Espace réservé au journal de bord du Mooc - -EN - -Reserved for the Mooc's logbook \ No newline at end of file +# MOOC_Recherche_Reproductible +This is the folder containing all notes and info about the mooc diff --git a/mooc-rr.Rproj b/mooc-rr.Rproj new file mode 100644 index 0000000000000000000000000000000000000000..8e3c2ebc99e2e337f7d69948b93529a437590b27 --- /dev/null +++ b/mooc-rr.Rproj @@ -0,0 +1,13 @@ +Version: 1.0 + +RestoreWorkspace: Default +SaveWorkspace: Default +AlwaysSaveHistory: Default + +EnableCodeIndexing: Yes +UseSpacesForTab: Yes +NumSpacesForTab: 2 +Encoding: UTF-8 + +RnwWeave: Sweave +LaTeX: pdfLaTeX