diff --git a/Journal_de_bord_LY.md b/Journal_de_bord_LY.md index d6aff526172f5c48de05f74b44c8b28a43c794cf..59a8df7c82e8be4bcf052500a9ab3a652e54c662 100644 --- a/Journal_de_bord_LY.md +++ b/Journal_de_bord_LY.md @@ -74,3 +74,45 @@ A la fin vérifier les données par l'inspection visuelle (plot par exple) et de 5. Exercice +## Module 4 + +1. L'enfer des données + +Deux formats binaires pour stocker les données avec les métadonnées : FITS (plus complexe et plus flexible) et HDFR +Archivage : zenodo et figshare pour archivage pérenne et accessible à tous + +2. L'enfer du logiciel + +- passage à l'chelle : les codes complexes + +Rentrer les données dans un workflow permettant de mieux structurer le documents. +Le moteur d'exécution du workflow permet l'exécution des commandes dans l'ordre cotrairement au notebook. +Cependant pas de description dans le workflow. +exple : Pegasus, collective knowledge, galaxy +autres léger (dask, swift, drake ...) et autres hybrides prototypes entre notebook et workflow. + +Faire de checkpoint pour les calculs trop longs qui deviennent rapidement interminables. + +- passage à l'chelle : les envrionnements complexes + +Conserver le bazar : capture automatique de l'environnement avec CDE, ReproZip, CARE ; le résultat ne peut être modiefier +Faire le ménage : partir d'un environnement vierge et installer uniquement le nécessaire ; plusieurs solutions : Docker/singularity, Guix/Nix + +- l'épreuve du temps + +Les mises à jour des logiciels de l'environnement interne ou externe (linux, windows) d'utilsation peut modifier les résultats. + +Software Heritage : hébergement de tous les logiciels du monde +HAL : autre solution d'archivage + +3. l'enfer du calcul + +Les compilateur peuvent inverser l'ordres des opération +Deux options pour un calcul reproductible : insister sur le respect de l'ordre des opération ou rendre la compilation reproductible (noter toutes les options et version du compilateur) + +Calcul parallèle : les calculs sont repartis sur différents processeurs d'où un risque de non reproductibilité + + calcul = plateforme + logiciel + données + +Les nombres aléatoires sont en réalité pseudo-aléatoires avec les logiciels car basé sur une logique (comme l'heure). +Avec un générateur de nombre aléatoire : reproduire la graine dans le code de l'application et vérifier les trois prémiers nombres générés. \ No newline at end of file