Skip to content
Projects
Groups
Snippets
Help
Loading...
Help
Submit feedback
Contribute to GitLab
Sign in
Toggle navigation
M
mooc-rr
Project
Project
Details
Activity
Releases
Cycle Analytics
Repository
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
Issues
0
Issues
0
List
Board
Labels
Milestones
Merge Requests
0
Merge Requests
0
CI / CD
CI / CD
Pipelines
Jobs
Schedules
Charts
Wiki
Wiki
Snippets
Snippets
Members
Members
Collapse sidebar
Close sidebar
Activity
Graph
Charts
Create a new issue
Jobs
Commits
Issue Boards
Open sidebar
7404ea6678ce6fbf3a726e36f2bf2079
mooc-rr
Commits
71f1be46
Commit
71f1be46
authored
Sep 24, 2024
by
7404ea6678ce6fbf3a726e36f2bf2079
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
Add notes on module 4 section 2
parent
336786c0
Changes
1
Show whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
43 additions
and
0 deletions
+43
-0
Research_and_Reproductibility_mooc_notes.md
journal/Research_and_Reproductibility_mooc_notes.md
+43
-0
No files found.
journal/Research_and_Reproductibility_mooc_notes.md
View file @
71f1be46
...
@@ -296,6 +296,9 @@ Ceci nécessite d'exposer beaucoup de **détails techniques**, car c'est à ce n
...
@@ -296,6 +296,9 @@ Ceci nécessite d'exposer beaucoup de **détails techniques**, car c'est à ce n
# 4) Vers une étude reproductible : la réalité du terrain
# 4) Vers une étude reproductible : la réalité du terrain
[
Retranscription des vidéos du module 4
](
https://lms.fun-mooc.fr/asset-v1:inria+41016+self-paced+type@asset+block/Module4_Transcription_VF.pdf
)
[
Supports des vidéos du module 4
](
https://lms.fun-mooc.fr/asset-v1:inria+41016+self-paced+type@asset+block/C028AL_slides_module4-fr-gz.pdf
)
## 4.1) L'enfer des données
## 4.1) L'enfer des données
Les problèmes classiques:
Les problèmes classiques:
...
@@ -310,6 +313,46 @@ Les problèmes classiques:
...
@@ -310,6 +313,46 @@ Les problèmes classiques:
-
les nombres stockés en format texte doivent obligatoirement être convertis en format binaire afin
-
les nombres stockés en format texte doivent obligatoirement être convertis en format binaire afin
de pouvoir réaliser des calculs et analyses
de pouvoir réaliser des calculs et analyses
Deux formats binaires intéressants pour manipuler des données de nature différente et volumineuses.
--> FITS et HDF5
Pour l'archivage de données (GitLab et GitHub non adaptés):
--> plateformes Zenodo et Figshare
## 4.2) L'enfer du logiciel
### 4.2.1) Le passage à l'échelle : les codes complexes
Code utilisé pour de petits exemples devient vite inadéquat dès lors que le code devient plus complexe ou
\
que le volume de données grandit.
L'utilisation d'un workflow est une solution.
Un notebook est une version à la fois appauvrie et plus riche d'un workflow.
Exemples de workflows:
-
Galaxy, Kepler, Taverna, Pegasus, Collective Knowledge, Vis Trails...
-
Légers: dask, drake, swift, snakemake, ...
-
Hybrides: SOS-notebook, ...
Traitement de données volumineuses:
Utilisation de checkpoints dans les calculs (mécanismes éventuels de cache) afin d'éviter de repasser par
\
des étapes coûteuses de calcul.
### 4.2.1) Le passage à l'échelle : les environnements complexes
Derrière un simple import de matplotlib, un réseau complexe de dépendances se cache.
Pas de standard :
-
Linux (apt, rpm, yum), MacOS X (brew, McPorts, Fink), Windows ( ?)
-
Ni pour l'installation ni pour récupérer les informations. . .
Outils de capture des bibliothèques utilisées et des fichiers ouverts lors d'une exécution, pour ensuite les packager,
\
par exemple, dans un conteneur Docker:
-
CDE, ReproZip, CARE, ...
...
...
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment