priz2note enfer données

parent a7c93d81
...@@ -5,3 +5,43 @@ On m'annonce déjà 3 enfers ! ...@@ -5,3 +5,43 @@ On m'annonce déjà 3 enfers !
- défis logiciels : taille (le document computationnel ne suffit plus), vieillissement - défis logiciels : taille (le document computationnel ne suffit plus), vieillissement
- calcul numérique : les bizarreries, parallélisation, hasard... - calcul numérique : les bizarreries, parallélisation, hasard...
# l'enfer des données
"Vraies" données = "diverses"
En gros, le tabulaire est une lointaine utopie.
\+ problème de la taille des données...
Il faudra transformer des formats textes (lisibles, cool) en binaires, moins lourds.
Mais il faut garder les méta-données !
(Petit-boutisme / gros-boutisme : même le binaire pour les nb manque de conventions !)
## Format binaires généraux
Pour avoir ce minimum de convention qui permet d'avoir des méta-données
**FITS** (flexible image transport sys)
Créé et mis à jour par des astrophysicien, mais bibli vaticane.
H/DU : header unit & data unit
Le header est un dico. Le contenu, du binaire ou du txt.
PyFITS package
**HDF5** (hierarchical data format)
~Arborescence de fichiers.
Group = répertoire, contenant des datasets ou d'autres groups.
Pas de structure imposée pour les méta-données ou le contenu.
Comme c'est plus général, plus complexe à utiliser.
Voir h5py.
## Stockage ?
Les git- hub/lab ne sont pas adaptés.
Voir dans son labo (~dropbox).
Zenodo (~CERN) ou FigShare (privé, ~open science, mais trop peu souverain pour moi, patron anglais)
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment