From f43b34e70531b2c8591fd1a97a9cbcaa5e6d013f Mon Sep 17 00:00:00 2001 From: b05f84b9ee021dccccc4787bb5a09153 Date: Thu, 18 Mar 2021 19:40:56 +0000 Subject: [PATCH] Update Journal_de_bord_LY.md --- Journal_de_bord_LY.md | 42 ++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 42 insertions(+) diff --git a/Journal_de_bord_LY.md b/Journal_de_bord_LY.md index d6aff52..59a8df7 100644 --- a/Journal_de_bord_LY.md +++ b/Journal_de_bord_LY.md @@ -74,3 +74,45 @@ A la fin vérifier les données par l'inspection visuelle (plot par exple) et de 5. Exercice +## Module 4 + +1. L'enfer des données + +Deux formats binaires pour stocker les données avec les métadonnées : FITS (plus complexe et plus flexible) et HDFR +Archivage : zenodo et figshare pour archivage pérenne et accessible à tous + +2. L'enfer du logiciel + +- passage à l'chelle : les codes complexes + +Rentrer les données dans un workflow permettant de mieux structurer le documents. +Le moteur d'exécution du workflow permet l'exécution des commandes dans l'ordre cotrairement au notebook. +Cependant pas de description dans le workflow. +exple : Pegasus, collective knowledge, galaxy +autres léger (dask, swift, drake ...) et autres hybrides prototypes entre notebook et workflow. + +Faire de checkpoint pour les calculs trop longs qui deviennent rapidement interminables. + +- passage à l'chelle : les envrionnements complexes + +Conserver le bazar : capture automatique de l'environnement avec CDE, ReproZip, CARE ; le résultat ne peut être modiefier +Faire le ménage : partir d'un environnement vierge et installer uniquement le nécessaire ; plusieurs solutions : Docker/singularity, Guix/Nix + +- l'épreuve du temps + +Les mises à jour des logiciels de l'environnement interne ou externe (linux, windows) d'utilsation peut modifier les résultats. + +Software Heritage : hébergement de tous les logiciels du monde +HAL : autre solution d'archivage + +3. l'enfer du calcul + +Les compilateur peuvent inverser l'ordres des opération +Deux options pour un calcul reproductible : insister sur le respect de l'ordre des opération ou rendre la compilation reproductible (noter toutes les options et version du compilateur) + +Calcul parallèle : les calculs sont repartis sur différents processeurs d'où un risque de non reproductibilité + + calcul = plateforme + logiciel + données + +Les nombres aléatoires sont en réalité pseudo-aléatoires avec les logiciels car basé sur une logique (comme l'heure). +Avec un générateur de nombre aléatoire : reproduire la graine dans le code de l'application et vérifier les trois prémiers nombres générés. \ No newline at end of file -- 2.18.1