Update Journal_de_bord_LY.md

parent 9d49e6a5
...@@ -74,3 +74,45 @@ A la fin vérifier les données par l'inspection visuelle (plot par exple) et de ...@@ -74,3 +74,45 @@ A la fin vérifier les données par l'inspection visuelle (plot par exple) et de
5. Exercice 5. Exercice
## Module 4
1. L'enfer des données
Deux formats binaires pour stocker les données avec les métadonnées : FITS (plus complexe et plus flexible) et HDFR
Archivage : zenodo et figshare pour archivage pérenne et accessible à tous
2. L'enfer du logiciel
- passage à l'chelle : les codes complexes
Rentrer les données dans un workflow permettant de mieux structurer le documents.
Le moteur d'exécution du workflow permet l'exécution des commandes dans l'ordre cotrairement au notebook.
Cependant pas de description dans le workflow.
exple : Pegasus, collective knowledge, galaxy
autres léger (dask, swift, drake ...) et autres hybrides prototypes entre notebook et workflow.
Faire de checkpoint pour les calculs trop longs qui deviennent rapidement interminables.
- passage à l'chelle : les envrionnements complexes
Conserver le bazar : capture automatique de l'environnement avec CDE, ReproZip, CARE ; le résultat ne peut être modiefier
Faire le ménage : partir d'un environnement vierge et installer uniquement le nécessaire ; plusieurs solutions : Docker/singularity, Guix/Nix
- l'épreuve du temps
Les mises à jour des logiciels de l'environnement interne ou externe (linux, windows) d'utilsation peut modifier les résultats.
Software Heritage : hébergement de tous les logiciels du monde
HAL : autre solution d'archivage
3. l'enfer du calcul
Les compilateur peuvent inverser l'ordres des opération
Deux options pour un calcul reproductible : insister sur le respect de l'ordre des opération ou rendre la compilation reproductible (noter toutes les options et version du compilateur)
Calcul parallèle : les calculs sont repartis sur différents processeurs d'où un risque de non reproductibilité
calcul = plateforme + logiciel + données
Les nombres aléatoires sont en réalité pseudo-aléatoires avec les logiciels car basé sur une logique (comme l'heure).
Avec un générateur de nombre aléatoire : reproduire la graine dans le code de l'application et vérifier les trois prémiers nombres générés.
\ No newline at end of file
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment