From 71f1be46f2c984f9be87a9be6236c0786a0226ad Mon Sep 17 00:00:00 2001 From: 7404ea6678ce6fbf3a726e36f2bf2079 <7404ea6678ce6fbf3a726e36f2bf2079@app-learninglab.inria.fr> Date: Tue, 24 Sep 2024 15:06:29 +0000 Subject: [PATCH] Add notes on module 4 section 2 --- ...esearch_and_Reproductibility_mooc_notes.md | 43 +++++++++++++++++++ 1 file changed, 43 insertions(+) diff --git a/journal/Research_and_Reproductibility_mooc_notes.md b/journal/Research_and_Reproductibility_mooc_notes.md index 52426d6..7d19237 100644 --- a/journal/Research_and_Reproductibility_mooc_notes.md +++ b/journal/Research_and_Reproductibility_mooc_notes.md @@ -296,6 +296,9 @@ Ceci nécessite d'exposer beaucoup de **détails techniques**, car c'est à ce n # 4) Vers une étude reproductible : la réalité du terrain +[Retranscription des vidéos du module 4](https://lms.fun-mooc.fr/asset-v1:inria+41016+self-paced+type@asset+block/Module4_Transcription_VF.pdf) +[Supports des vidéos du module 4](https://lms.fun-mooc.fr/asset-v1:inria+41016+self-paced+type@asset+block/C028AL_slides_module4-fr-gz.pdf) + ## 4.1) L'enfer des données Les problèmes classiques: @@ -310,6 +313,46 @@ Les problèmes classiques: - les nombres stockés en format texte doivent obligatoirement être convertis en format binaire afin de pouvoir réaliser des calculs et analyses +Deux formats binaires intéressants pour manipuler des données de nature différente et volumineuses. +--> FITS et HDF5 + +Pour l'archivage de données (GitLab et GitHub non adaptés): +--> plateformes Zenodo et Figshare + +## 4.2) L'enfer du logiciel + +### 4.2.1) Le passage à l'échelle : les codes complexes + +Code utilisé pour de petits exemples devient vite inadéquat dès lors que le code devient plus complexe ou\ +que le volume de données grandit. + +L'utilisation d'un workflow est une solution. + +Un notebook est une version à la fois appauvrie et plus riche d'un workflow. + +Exemples de workflows: +- Galaxy, Kepler, Taverna, Pegasus, Collective Knowledge, Vis Trails... +- Légers: dask, drake, swift, snakemake, ... +- Hybrides: SOS-notebook, ... + +Traitement de données volumineuses: + +Utilisation de checkpoints dans les calculs (mécanismes éventuels de cache) afin d'éviter de repasser par\ +des étapes coûteuses de calcul. + +### 4.2.1) Le passage à l'échelle : les environnements complexes + +Derrière un simple import de matplotlib, un réseau complexe de dépendances se cache. + +Pas de standard : +- Linux (apt, rpm, yum), MacOS X (brew, McPorts, Fink), Windows ( ?) +- Ni pour l'installation ni pour récupérer les informations. . . + +Outils de capture des bibliothèques utilisées et des fichiers ouverts lors d'une exécution, pour ensuite les packager,\ +par exemple, dans un conteneur Docker: +- CDE, ReproZip, CARE, ... + + -- 2.18.1