# Module 2 : documents computationnels Rappel : c'est une question de communication - collaboration scientifique pour produire - traçabilité de ce qui est diffusé - transparence sur le procédé calculatoire ## les mauvais exemples 1) Reinhart et Rogoff 2010 : growth in a time of debt => concluent que la dette réduit la croissance On finit par leur demander leurs calculs, même si c'est des pointures... "erreurs de programmation, exclusions de certaines données, pondérations stat non-conventionnelles" (2013) Malheureusement, ce genre de non-publication des calculs est courant en économie... 2) IRM fonctionnelles 2010 Benett et le saumon mort... détectent une activité cérébrale. Une question de bruit dans ces machines, mais bon... 2016 : Eklund, Nichols, and Knutsson. "A bug in fmri software could invalidate 15 years of brain research" Et bien sûr dans ce domaine, on ne peut pas se permettre de stocker trop de données... (Heureusement, ils sont amenés à revoir à la baisse leur estimation, de 40k articles à 3600 articles potentiellement concernés.) C'est un problème méthodologique, qui nuit à la vérifiabilité des calculs. 3) cristallographie Geoffrey Chang étudie les protéines de bactéries résistantes aux antibiotiques (3 articles 2001-05) Mais des résultats contradictoires arrivent d'autres chercheurs... Il vérifie donc ses calculs et patatras, tout vient de 2 colonnes inversées dans son code. (Erreur qui a eu le temps de se répandre...) -> rétractation de 5 articles ! Oncologie (1/2 d'études prestigieuses ne peuvent pas passer vers l'industrie), psychologie (1/3 de repro ?) => Peu de domaines épargnés Science : rigueur, transparence, remise en cause (Première fois que je me plante sur des quizz ! Insiste sur la chronologie avec le politique/les lobbys : ils exploitent a posteriori, leur influence n'est pas forcément primordiale. Moins de transparence, c'est effectivement plus de lisibilité, vu la complexité des matières traitées. ) ## d'où vient la difficulté ? manques d'info (source données, choix) => crée la suspicion Le cahier de labo peut aider ?? Aussi, l'**ordinateur** est **source** de calculs plus rapides, mais aussi **d'erreurs** plus rapides... Pb du manque de maîtrise des outils (calculs "cachés"). Pas facile de lire un tableur excel, souvent. (ERP= enterprise ressource planning, à préférer) eg: traduction auto en nombre de trucs qui étaient des codes... Faut-il tout recoder ? Il faut que chaque ligne soit de confiance... Manque de backup ou d'historique. Revue de code, Integration Continue... Ajd, impossible d'être reproductible avec 8 pages d'articles. Mettre à disposition ça, ça demande du temps... pq le faire si personne e demande ? (Fait une défense de pourquoi tout rendre public... en débunkant les contre-arguments.) "Banir les logiciels et formats propriétaires" -> pas de garanties de long terme... (Le logiciel libre... ono a plus de chance de pvr récupéré des versions passées.) - éviter excel, word, matlab, SAS, dropbox... - éventuellement, stocker ces données sur plusieurs plateformes. - moins d'outils "intuitifs", d'UI, et plus de logique. Mais les données sensibles ? Pb éthique indépassable... On doit définir qui a l'accès primaire, et utiliser un peu de cryptographie, pour avoir un minimum de relecture.