Module 4 : Vers une étude reproductible, la réalité du terrain

0. Introduction

Objectifs

  • Repliquer le travail de quelqu’un d’autre
  • Comprendre les difficultés techniques qui se présentent lors du passage de l’exercice à la vraie vie
  • Etudier quelques pistes de solutions

Les enfers de la recherche reproductible

  • L’enfer des données
  • L’enfer du logiciel
  • L’enfer du calcul

1. L’enfer des données

Elles se présentent de nature diverse (non-homogéne) - colonne pas de même longueur - les données peuvent être des suites chronologique et des images, etc

Elles sont trop grosse -> besoin de les stocker au format binaire

Garder les métadonnées au format texte ! Pour rajouter des informations plus facilement. Ces metadonnées sont vitales pour une recherche reproductible.

Le boustime correspond à l’ordre d’encode au format binaire. Le petit-boutisme correspond à l’ordre croissant des valeur binaire (1,2,4,8,…) tandis que le grand boutisme correspond à l’ordre décroissant (…,8,4,2,1).

Ce boutisme peut changer en fonction du système d’exploitation ce qui pose des problème dans la reproductibilité.

Un stockage binaire doit spécifier le boutisme utiliser pour une recherche reproductible

Format binaires pour :

  • travailler sur de grosse données de nature différentes
  • stocker les métadonnées et les données
  • un boutisme fixé

Deux format repondent à ces critères: 1. FITS (1981 et toujours à jours, dev par des astrophysiciens) Format assez général pour être utilisé dans plusieurs contextes (bibliothéque vatican)

structure:

  • un ou plusieurs segments: Header/Data Units (HDUs)
  • contitution HDU:
    • une en-tête (header unit)
    • données (data Unit) : optionnelles
  • en-tête = paires mots clés / valeurs -> métadonnées
  • données tableaux binaire (une à 999 dimension) ou tables (texte ou bianire)

manipulation:

  • bibliothéque C
  • PyFITS pour python
  • FITSio pour R

2. HDF5 (dev par National Center for SuperComputing Applications, 5eme version) structure:

  • ressemble à une arboraissance de fichier
  • élément structurant est le group (répertoire) qui contient un ou plusieurs dataset (fichier)
  • les group peuvent être imbriqués
  • pas de structure imposé pour les métadonnées
  • idem pour les données (on peut y stocker un article)

manipulation:

  • bibliothéque C plus compliqué que celle pour le format FITS car le format HDF5 est plus “souple”
    • bibliothéque vient avec l’application HDFView (codé en java) pour l’exploration
  • h5py pour python
  • h5, hdf5r et rhdf5 pour R

L’archivage

  • zenodo -> cern
  • figshare -> privé

conclusion

les vraies données:

  • grosse et problème de structure
  • complexes et ont besoin de métadonnées
  • Format FITS et HDF5 sont des solution de formatage de ces données
  • En compléxité et fléxibilité: FITS < HDF5
  • archivage pour stockage pérenne et accessible