diff --git a/journal/notes_module_4.md b/journal/notes_module_4.md index e32e8406326149650321ca26d2b4e305a7f0fbd2..65027081ae9cd0360f892d55f17986afc8c64f82 100644 --- a/journal/notes_module_4.md +++ b/journal/notes_module_4.md @@ -5,3 +5,43 @@ On m'annonce déjà 3 enfers ! - défis logiciels : taille (le document computationnel ne suffit plus), vieillissement - calcul numérique : les bizarreries, parallélisation, hasard... +# l'enfer des données + +"Vraies" données = "diverses" + +En gros, le tabulaire est une lointaine utopie. + +\+ problème de la taille des données... + +Il faudra transformer des formats textes (lisibles, cool) en binaires, moins lourds. +Mais il faut garder les méta-données ! + +(Petit-boutisme / gros-boutisme : même le binaire pour les nb manque de conventions !) + +## Format binaires généraux + +Pour avoir ce minimum de convention qui permet d'avoir des méta-données + +**FITS** (flexible image transport sys) + +Créé et mis à jour par des astrophysicien, mais bibli vaticane. +H/DU : header unit & data unit +Le header est un dico. Le contenu, du binaire ou du txt. +PyFITS package + + +**HDF5** (hierarchical data format) + +~Arborescence de fichiers. +Group = répertoire, contenant des datasets ou d'autres groups. +Pas de structure imposée pour les méta-données ou le contenu. + +Comme c'est plus général, plus complexe à utiliser. +Voir h5py. + +## Stockage ? + +Les git- hub/lab ne sont pas adaptés. +Voir dans son labo (~dropbox). + +Zenodo (~CERN) ou FigShare (privé, ~open science, mais trop peu souverain pour moi, patron anglais)