From 1bdd1d18b163b747c146bd121d27b9b9285d6d53 Mon Sep 17 00:00:00 2001 From: d0e6f90fc91537e71d96befd9f7f0f02 Date: Wed, 19 Feb 2025 16:15:09 +0000 Subject: [PATCH] =?UTF-8?q?priz2note=20enfer=20donn=C3=A9es?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- journal/notes_module_4.md | 40 +++++++++++++++++++++++++++++++++++++++ 1 file changed, 40 insertions(+) diff --git a/journal/notes_module_4.md b/journal/notes_module_4.md index e32e840..6502708 100644 --- a/journal/notes_module_4.md +++ b/journal/notes_module_4.md @@ -5,3 +5,43 @@ On m'annonce déjà 3 enfers ! - défis logiciels : taille (le document computationnel ne suffit plus), vieillissement - calcul numérique : les bizarreries, parallélisation, hasard... +# l'enfer des données + +"Vraies" données = "diverses" + +En gros, le tabulaire est une lointaine utopie. + +\+ problème de la taille des données... + +Il faudra transformer des formats textes (lisibles, cool) en binaires, moins lourds. +Mais il faut garder les méta-données ! + +(Petit-boutisme / gros-boutisme : même le binaire pour les nb manque de conventions !) + +## Format binaires généraux + +Pour avoir ce minimum de convention qui permet d'avoir des méta-données + +**FITS** (flexible image transport sys) + +Créé et mis à jour par des astrophysicien, mais bibli vaticane. +H/DU : header unit & data unit +Le header est un dico. Le contenu, du binaire ou du txt. +PyFITS package + + +**HDF5** (hierarchical data format) + +~Arborescence de fichiers. +Group = répertoire, contenant des datasets ou d'autres groups. +Pas de structure imposée pour les méta-données ou le contenu. + +Comme c'est plus général, plus complexe à utiliser. +Voir h5py. + +## Stockage ? + +Les git- hub/lab ne sont pas adaptés. +Voir dans son labo (~dropbox). + +Zenodo (~CERN) ou FigShare (privé, ~open science, mais trop peu souverain pour moi, patron anglais) -- 2.18.1