# Organigramme ## les réponses ### Exo 01-1 (recherche et historique Gitlab) * Quel est le numéro du commit (505c4e26) * Auteur Arnaud Legrand * #commande "#" pour le titre; "##" Sous titre; ainsi de suite "**gras**"pour gras "_italique_"pour italique "**_italique-gras_**" Pour lister "en point " - - - - En nombre: 1. 2. 3. 1. 2. 3. pour le code # 'code' Mes questions de séances 1. Pour quoi markdown et pas un autre language ? 2. le rapport entre le droit intellectuel et reserche reproductible n'est-il pas un mauvais couple? 3. # pour 2021/2022 Master 2 POM 1- Revision # 'Analyse des données ' 1. tout d'abord importation des données avec data_url = "http://www.sentiweb.fr/datasets/incidence-PAY-3.csv" tout en prenant soin de bien orienté la direction où se trouve le données. Dans cette exemple : le site est : www.sentiweb.fr, base de données est: datasets et le nom du fichier est incidence-PAY-3.csv 2. # La semaine de fin novembre. #Module 4 # Enfer des données #Quiz 14 # Réponses aux Quiz 1. Quelle est l’interview du module 1 où des données de nature hétérogène sont discutées R: b. L’interview avec la neurophysiologiste Isabel Llan 2. Que désigne-t-on par métadonnées R: b. Des informations (données) sur les données 3. En français le nombre 21 se dit « vingt-et-un ». En allemand, on dit « einundzwanzig » (littéralement « un-et-vingt »). Quelle est la prononciation petit-boutiste et quelle est la prononciation gros-boutiste ? R: a. Le français est gros-boutiste et l’allemand est petit-boutist 4. Le format FITS est un format destiné à stocker des résultats d’ajustement de modèle (fit en anglais) R: non 5. Le format FITS permet : a. De stocker données et métadonnées c. De stocker des données de nature variée 6. Le format HDF5 est-il hiérarchique ? R: a. Oui 7.Les (grosses) données peuvent être archivées et distribuées sur : b. Figshare c. Zenodo #Enfer des logitiels # Quiz 15 ## Reponses aux questions 1. Quels sont les limitations et les inconvénients d’un document computationnel (notebook) ? (4 réponses attendues) a.Lorsque le code est long, il devient difficile d’avoir une vue d’ensemble d. Les interactions entre différents langages peuvent être hasardeuses car elles sont peu explicites f. Il n’est pas bien adapté à des calculs longs ou impliquant de gros volumes de données g. La sauvegarde des résultats intermédiaires ou la poursuite d’un calcul après une interruption sont des processus généralement manuels, ce qui est source d’erreur 2. Quels sont les avantages d’un workflow (3 réponses attendues) ? a. Il permet de mieux structurer son code et de proposer une représentation graphique de haut niveau b. Il se passe d’effets de bord, ce qui diminue les risques d’erreur c. Il permet d’exploiter plus facilement une machine parallèle 3. Que peut-il se passer en terme de reproductibilité lorsque vous ne préservez pas l’environnement logiciel d’un calcul ? a. Vous pouvez ne pas arriver à réexécuter votre calcul b. Vos collègues peuvent ne pas arriver à réexécuter votre calcul c. Le résultat des calculs peut changer 4. Comment préserver l’environnement logiciel d’un calcul effectué à l’aide du langage Python ou R ? (2 réponses attendues) f. En utilisant un outil qui capture automatiquement l’ensemble des fichiers et de bibliothèques accédées lors du calcul g. En travaillant dans un conteneur docker du début à la fin 5. Mettre à disposition l’environnement logiciel (sous forme binaire avec une image docker par exemple) d’un calcul permet à une tierce personne de : b. Réexécuter ce calcul 6. Quelle plate-forme utiliser pour archiver et mettre à disposition un article de recherche ? g. HAL ou ArXiv 7. Quelles plates-formes utiliser pour archiver et mettre à disposition des données ? f. Github ou Gitlab g. HAL ou ArXiv i. Software Heritage 8. Quelles plate-formes utiliser pour archiver et mettre à disposition du code ? f. Github ou Gitlab i. Software Heritage #Enfer de calcul #Quiz 16 # Réponses aux questions 1. Quelles caractéristiques de l’arithmétique à virgule flottante rendent la reproductibilité difficile ? a. Les compilateurs peuvent changer l’ordre des opérations c. En calcul parallèle, l’ordre des opérations peut varier d’une exécution à l’autre 2. Quelles précautions augmentent la reproductibilité des nombres pseudo-aléatoires ? (2 réponses attendues) b. Définir la graine dans le code d’application c. Noter le numéro de version du générateur ##### Fin de QCMS