Commit 1b80a1b5 authored by d561c90a80af652307d77385ed3bb79a's avatar d561c90a80af652307d77385ed3bb79a
parents a7721272 534be517
...@@ -38,3 +38,125 @@ Le commit responsable de l'ajout du titre **Helloworld Python**est: ...@@ -38,3 +38,125 @@ Le commit responsable de l'ajout du titre **Helloworld Python**est:
**shift + entrer**: réexécuter une cellule. **shift + entrer**: réexécuter une cellule.
**ctrl + entrer** : insérer une nouvelle cellule **ctrl + entrer** : insérer une nouvelle cellule
# Comment importer les données dans un notebook Jupyter
- La gestion des données se fait à partir d'une bibliothèque python appelée **pandas**
- **matplotlib** est une bibliothèque permettant de tracer des courbes.
- **isoweek** va permettre de numériser des semaines au format iso.
- La commande **%matplotlib inline** permet d'avoir les plots directement dansle notebook plutôt qie séparé.
1. Pour importer les doc avec la bibliothèque **panda** , on utilise la commande **pd.read_csv("adresse url")**
2. pour télécharger les données: Tools,download,copy download link.
## supprimer les données manquantes
la commande est: **raw_data.dropna().copy()**
### Points clés
- Lecture des données directement dans la source.
- Gestion des données manquantes.
# Quiz 14
1. Quelle est l’interview du module 1 où des données de nature hétérogène sont discutées ?
L’interview avec la neurophysiologiste Isabel Llano
2. Que désigne-t-on par métadonnées ?
Des informations (données) sur les données
3. En français le nombre 21 se dit « vingt-et-un ». En allemand, on dit « einundzwanzig » (littéralement « un-et-vingt »). Quelle est la prononciation petit-boutiste et quelle est la prononciation gros-boutiste ?
Le français est gros-boutiste et l’allemand est petit-boutiste
4. Le format FITS est un format destiné à stocker des résultats d’ajustement de modèle (fit en anglais)
Non
FITS signifie Flexible Image Transport System. C’est le format de fichiers le plus communément utilisé en astronomie.
5. Le format FITS permet :
- De stocker données et métadonnées
- De stocker des données de nature variée
6. Le format HDF5 est-il hiérarchique ?
Oui
HDF signifie Hierarchical Data Format
7. Les (grosses) données peuvent être archivées et distribuées sur :
- Figshare
- Zenodo
# Quiz 15
1. Quels sont les limitations et les inconvénients d’un document computationnel (notebook) ? (4 réponses attendues)
- Lorsque le code est long, il devient difficile d’avoir une vue d’ensemble
- Les interactions entre différents langages peuvent être hasardeuses car elles sont peu explicites
- Il n’est pas bien adapté à des calculs longs ou impliquant de gros volumes de données
- La sauvegarde des résultats intermédiaires ou la poursuite d’un calcul après une interruption sont des processus généralement manuels, ce qui est source d’erreur
2. Quels sont les avantages d’un workflow (3 réponses attendues) ?
- Il permet de mieux structurer son code et de proposer une représentation graphique de haut niveau
- Il se passe d’effets de bord, ce qui diminue les risques d’erreur
- Il permet d’exploiter plus facilement une machine parallèle
3. Que peut-il se passer en terme de reproductibilité lorsque vous ne préservez pas l’environnement logiciel d’un calcul ?
- Vous pouvez ne pas arriver à réexécuter votre calcul
- Vos collègues peuvent ne pas arriver à réexécuter votre calcul
- Le résultat des calculs peut changer
4. Comment préserver l’environnement logiciel d’un calcul effectué à l’aide du langage Python ou R ? (2 réponses attendues)
- En utilisant un outil qui capture automatiquement l’ensemble des fichiers et de bibliothèques accédées lors du calcul
- En travaillant dans un conteneur docker du début à la fin
5. Mettre à disposition l’environnement logiciel (sous forme binaire avec une image docker par exemple) d’un calcul permet à une tierce personne de:
Réexécuter ce calcul
6. Quelle plate-forme utiliser pour archiver et mettre à disposition un article de recherche ?
HAL ou ArXiv g. HAL ou ArXiv - correct
7. Quelles plates-formes utiliser pour archiver et mettre à disposition des données ?
- Figshare
- Zenodo
8. Quelles plate-formes utiliser pour archiver et mettre à disposition du code ?
- Github ou Gitlab
- Software Heritage
# Quiz 16
1. Quelles caractéristiques de l’arithmétique à virgule flottante rendent la reproductibilité difficile ?
- Les compilateurs peuvent changer l’ordre des opérations
- En calcul parallèle, l’ordre des opérations peut varier d’une exécution à l’autre
**EXPLICATION :**
La nature approximative des résultats ne met pas en cause leur reproductibilité.
2. Quelles précautions augmentent la reproductibilité des nombres pseudo-aléatoires ?
- Définir la graine dans le code d’application
- Noter le numéro de version du générateur
**EXPLICATION :**
Noter les premiers nombres de la suite est conseillé pour surveiller la reproductibilité, mais ne l’augmente pas.
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment