note du module 2

parent 630755b7
# Module 2 : La vitrine et l'envers du décor : le document computationnel
## 0. Introduction
**Objectifs**
- Extension de la traçabilité aux calculs et à ses résultats
- Intégration du code et des résultats dans un document du type rapport
technique / article scientifique
- Présentation de 3 outils pour écrire un document computationnel:
- Jupyter, pour python
- RStudio, pour R
- Emacs/Org-mode, pour plusieurs langage
Ces envionnements:
- Améliore la traçabilité des calculs
- Permet de présenter facilement ses travaux aux collègues
- Accéder à l'ensemble des calculs sous-jacents à une analyse
## 1. Exemple récents d'études assez discutées
**Exemple**
- Reinhart et Rogoff : si dette > 90% PIB -> croissance /2.
Erreurs de calculs, pratiques douteuses ... mais travaux ont eu de l'impact car
les données n'étaient pas mise à disposition
- Geoffrey Chang
Un code avait mal était fait, code transmit par d'autre lavboratoire. Causant de
mauvais calcul de structure proteique
-> manque de rigueur et de transparence
## 2. Pourquoi est-ce difficile ?
### Manque d'informations
Il faut expliciter:
- sources et données
données indisponibles = resultats difficile à vérifier
- choix
choix non expliqués = choix suspicieux
Le cahier de labo peut aider
### L'ordinateur, source d'erreurs
- point and click (on ne sait pas trop ce qui se passe, boite noire)
- les tableurs
- nom de gène : MARCH1 -> 2016-03-01 ...
- Pile logicielle complexe
- logiciel propriétaire
- bug
### Le manque de rigueur et d'organisation
- pas de backup
- pas d'historique
- pas de contrôle qualité
### Dimension cuturelle et sociale
Article = version simplifié de la procédure
Données trop grosses pour être mise à disposition
Les traitements informatique ne sont expliqué que succintement
Beaucoup de travail pour tout partager et après tout pourquoi s'embéter si
personne ne les demandent ?
### Tout rendre public ?
- les faiblesses deviendraient évidentes ? oui mais c'est la réalité
- Quelqu'un pourrait trouver une erreur ? Mais ca permet de les corriger
- Quelqu'un pourrait en tirer avantage à ma place ?
- les articles les plus cité sont des articles méthodologiques/logiciel
- montrer ce que l'on fait c'est probablement le meilleur moyen de mettre en
avant la propriété intellectuelle
- Les données peuvent être sensible
- outil de cryptographie "facile d'accés"
### Les outils à éviter et alternatives
- outils, formats, et services propriétaires
- open source pour
- format texte
- stocker les données dans des services libres
- Attention au outil intuitif
- plus difficile pour le suivi
### Changement de paradigme
1. Manque d'information, problème d'accès aux données
2. Erreurs de calcul
3. Manque de rigueur scientifique et technique
**Expliquer augmente les chances de trouver les erreurs et de les élimineré**
Exigence de la part de la société civil de publication des différentes sources
dans le but d'améliorer la recherche et gagner la confiance avec tout le monde
;p
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment