Add notes on module 4 section 2

parent 336786c0
......@@ -296,6 +296,9 @@ Ceci nécessite d'exposer beaucoup de **détails techniques**, car c'est à ce n
# 4) Vers une étude reproductible : la réalité du terrain
[Retranscription des vidéos du module 4](https://lms.fun-mooc.fr/asset-v1:inria+41016+self-paced+type@asset+block/Module4_Transcription_VF.pdf)
[Supports des vidéos du module 4](https://lms.fun-mooc.fr/asset-v1:inria+41016+self-paced+type@asset+block/C028AL_slides_module4-fr-gz.pdf)
## 4.1) L'enfer des données
Les problèmes classiques:
......@@ -310,6 +313,46 @@ Les problèmes classiques:
- les nombres stockés en format texte doivent obligatoirement être convertis en format binaire afin
de pouvoir réaliser des calculs et analyses
Deux formats binaires intéressants pour manipuler des données de nature différente et volumineuses.
--> FITS et HDF5
Pour l'archivage de données (GitLab et GitHub non adaptés):
--> plateformes Zenodo et Figshare
## 4.2) L'enfer du logiciel
### 4.2.1) Le passage à l'échelle : les codes complexes
Code utilisé pour de petits exemples devient vite inadéquat dès lors que le code devient plus complexe ou\
que le volume de données grandit.
L'utilisation d'un workflow est une solution.
Un notebook est une version à la fois appauvrie et plus riche d'un workflow.
Exemples de workflows:
- Galaxy, Kepler, Taverna, Pegasus, Collective Knowledge, Vis Trails...
- Légers: dask, drake, swift, snakemake, ...
- Hybrides: SOS-notebook, ...
Traitement de données volumineuses:
Utilisation de checkpoints dans les calculs (mécanismes éventuels de cache) afin d'éviter de repasser par\
des étapes coûteuses de calcul.
### 4.2.1) Le passage à l'échelle : les environnements complexes
Derrière un simple import de matplotlib, un réseau complexe de dépendances se cache.
Pas de standard :
- Linux (apt, rpm, yum), MacOS X (brew, McPorts, Fink), Windows ( ?)
- Ni pour l'installation ni pour récupérer les informations. . .
Outils de capture des bibliothèques utilisées et des fichiers ouverts lors d'une exécution, pour ensuite les packager,\
par exemple, dans un conteneur Docker:
- CDE, ReproZip, CARE, ...
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment