On commence donc la prise de notes des cours au travers de Gitlab.
\ No newline at end of file
On commence donc la prise de notes des cours au travers de Gitlab.
# 13/01/2021
R studio permettra un environnement de travail l'emploi.
Travail computationnel
Comment travailler avec les autres.
Document computationnel : permet d'améliorer la traçabilité d'un calcul, inspecter les méthodes pour produire des résultats, vérifier les calculs, présenter à d'autres les travaux et d'avoir l'envers du décor en prime.
## Exemples d'études discutés
Seuil de 90% dû à des erreurs de calculs.
Les valeurs et les calculs ont été réprimander.
Non publication des calculs derrière les études.
Bennett et le saumon mort
40000 articles mises en doute à cause un bug dans le software des IRM => plus que 3600.
Erreur de programmation sur l'analyse de data de la crystallographie.
Problèmes de reproductibilité +++ derrière les études.
Process scientifique = remise en doute mais aussi rigueur et transparence à acquérir et garder.
## Pourquoi est-ce difficile ?
Absence des données de méthodologie pour pouvoir reproduire. Justificiation des données écartées ou pas.
Choix non expliqué = choix suspicieux
Avoir des traces de tout ses choix = cahier de labo
2. Utilisation effréné des ordinateurs
- Point & click : ERP ?
Tableur pour faire du ttt de données n'est pas le meilleur outils : mauvaise interprétation des données qui se retrouve converti en autre chose
- Pile logicielle complexe : savoir déterminer si chacune des briques est accurate ou pas
- Le manque de rigueur et d'organisation : sauvegarde perdue des données => sans gestion de version, compliqué d'avoir les observations et les historiques ou de contrôle qualité.
- Problème culturel et social : article est ine version simplifiée de la procédure = impossible d'avoir toutes les infos dans le papier, de même que les données.
Peut prendre beaucoup de temps si pas les bons outils.
Faudrait-il tout rendre public ?
Les faiblesses deviendraient évidentes : mais si cacher, suspicion apparaît.
Quelqu'un pourrait trouver une erreur : réputation en jeu, mais d'un autre côté, avoir de l'aide c'est cool.
Qqun pourrait en tirer avantage à ma place : normalement, obligation de copyright.
Les données peuvent être sensibles
Outils à éviter et alternatives :
Ne pas utiliser les logiciels propriétaires, les openlogiciels permettent une restitution des données plus facile.
Utiliser au max les fichiers texte, R, ne pas stocker les données dans des hébergeurs gratuits (Dropbox etc...)
Attention aux outils graphiques !
Si R ou Python, difficile au début mais mieux sur le long terme.
Causes d'échec : manque d'info, problème d'accès aux données ; erreurs de calcul ; manque de rigueur scientifique.
D'où la nécessité de la transparence pour améliorer l'efficacité des travaux.
Les institutions pronent le manque d'espace comme excuse pour limiter l'accès aux opendata de recherches diverses et variées
## Le document computationnel
Objectif : permettre la transparence la plus complète possible.
Notebook en Jupyter où on peut voir les résultats officiels, la transcription de différentes lignes de codes et les commentaires détaillés de pourquoi cette logique et ces lignes.
On peut décider ce qu'on met en avant ou pas, quelle zone on cache ou laisse apparaître.
Principe :
un seul document comprenant lun enrelacs d'explication en .md, de codes et des résultats de ces codes.
Ce qui permet l'inspection et la réutilisation au besoin.