# What I learned in the MOOC Recherche Reproductible **`Aim of this document:`** report and highlight information learned during the **MOOC Recherche Reproductible** that I judge important for my work, considering my *naive* background in informatics :) **`Context of my research:`** scientific lab, materials sciencie, devices fabrication (different processes, steps and materials), performance and stability tests (several characterization techniques and conditions) ![Let's improve our researcher skills!](https://knowledgeone.ca/wp-content/uploads/2019/09/profond.jpg) ## Module 1: Cahier de notes, cahier de laboratoires Indeed, there are several ways to take note during experiments, it will depend on the personal habits, on the research field, on the type of projetc (collaborative, personal), etc... However, in all the scenarios we are prone to take notes or, more precisely, we **need** to **take notes**. Some are more important than others. Some are even useless. I love taking notes. And I lose myself in the hugh amounts of papers where I write them. I'm a paper person (maybe that is why my informatic skills are not so developed...) I noted some years ago that my techniques of taking notes are not long lasting, as I am note able to understand them after a few weeks. Thus, I am used to type my notes in the computer. Still, it is not really organised and I need a considerable amount of time to remember where I put some data (if they exist)... Sometimes our memory invent thinks! `What I learned in this module:` - John Locks technique of indexing : first letter + first vowel of the word. Example: **A**n**a**lyse (Aa) - There are other programs and formats to take notes (and write texts) besides **Word** and **Notepad**: markup language (LML) or langage de balisage - **Fichier text:** Un fichier dont le contenu est fait de caractères UTF-8 = garanti perenité et visibilité sur tous les ordinateurs disponibles - **Balise (markup):** un caractère, ou une série de caractères, utilisé pour la structuration d’un document et qui sera invisible par le lecteur final - **Markdown:** langage de balisage léger - [**Pandoc:**](https://pandoc.org/) outils pour convertire un fichier Markdown en un format plus sofistiqué comme PDF et HTML (already installed with Rstudio and Jupyter) - An very nice overview of **Markdown** and **Pandoc** can be found [here](https://enacit.epfl.ch/cours/markdown-pandoc/#figures) - The existence of *Git*, *GitLab* and *Github*. A very interesting tool when working with several people on a same file. Besides, allows a tracking of all changes! However, to better understand the evolution a document, one should comment precisely on *commit* the changes introduced in the document - L'importance d'utiliser des etiquettes pour filtrer et trouver plus vite des information pertinent - **DocFetcher:** un moteur de recherche de bureau multiplatforme. Different des editeur de texte, les recherches ne se limitens pas aux fichier texte et cherchent sur plusiers fichier à la fois! - **Exiftool:** permet de rajouter des métadonnées à un fichier JPEG et donc de rajouter des étiquettes ou mots-clés à un tel fichier. ## Module 2 : La vitrine et l'envers du decors Ce module aim introduire l'importance et l'interet des *document computationnels* pour: - Améliorer la traçabilité d’un calcul - Présenter facilement ses travaux à des collègues - Accéder à l’ensemble des calculs sous-jacents à une analyse Pour nous sensibilizer a son interet, des examples recent sont presentés et la difficulté de réproduires les donnes publié dans different domaines, même en des journaux prestigieux, est soulignée. Problème **methodologique** mais aussi **sociologique**, lié à une pression productiviste trop importante. Pour éviter les problème de reproductibilité, le processus scientifique doit être **rigueureux** et **transparant**. `Pourquoi est-il difficile de reproduire des travaux de recherche ?` 1. Le manque d'information : donnés non-disponible, choix non expliqués 2. L'ordinateur, une source d'erreurs. Cela est souvent lié a la simplicité d'utilisation, sans vraiment connaitre les bases/calcules derrière chaque *click*. Sans oublier les logiciels complexes et mal matriser: les boites noires..! 3. Le manque de riguer et d'organisation : pas de backup, pas d'historiques, pas de contrôle de qualité. 4. La dimension culturelle et sociale du système des publication, où l'article est une version simplifié de notre recherche et vue que personne nous demande de tout montrer....alors simplifions les choses! En plus, les faites de tous rendre publiques montrer aussi nous faiblesses..... Et les résultats deviennent moins parfaits que ce que je pretends dans mes articles. Pour eviter de perdre des donnés (raison comme mise a jours automatique, etc), **éviter des outils, formats et services proprietaires** et utiliser du format texte: - Pour écrire e prendre des notes: markdown, orgmode - Pour des donnés: .csv - langage de programation : R, python - Pour stocké des donnés: framadrop, gitlab, github Quelles sont les causes techniques principales derrière les difficultés à reproduire les travaux de quelqu’un d’autre ? - Le manque de documentation sur les choix effectués - Les logiciels graphiques interactifs qui masquent les détails du calcul - Les erreurs de calcul - La perte de données (pas de backup ou bien format plus lisible) Pour ne savoir plus : [How computers broke science – and what we can do to fix it](https://theconversation.com/how-computers-broke-science-and-what-we-can-do-to-fix-it-49938) `Tout rendre publique ?` Quelqu'un pourrait tirer parti de mon dur labeur... Les **papiers les plus cités** sont des papiers qui **décrivent une nouvelle technique ou un logiciel**permettant à une communauté de recherche d'avancer.