- relatif aux recherches et activités scientifiques qui ont en commun d'être impossibles à standardiser complètement
- Reproductibilité par expertise (expériences non-standard et objets de recherche rares
- « l'expertise reproductible se définit comme la compréhension qu'un expérimentateur qualifié travaillant avec des méthodes similaires sur les mêmes matériaux à ce moment et cet endroit précis produirait des résultats similaires »
- « l'expertise reproductible se définit comme la compréhension qu'un expérimentateur qualifié travaillant avec des\
méthodes similaires sur les mêmes matériaux à ce moment et cet endroit précis produirait des résultats similaires »
- Observation Reproductible: Études de Cas Non-expérimentales
- domaine des sciences de l’observation (ex. sociologie, radiologie)
- expertise est clé dans l’observation « reproductible »
- activités scientifiques où "l'idée même de reproductibilité est écartée au profit de la subjectivité, et d'une dépendance inévitable du contexte pour les résultats de recherche"
- activités scientifiques où "l'idée même de reproductibilité est écartée au profit de la subjectivité, et d'une\
dépendance inévitable du contexte pour les résultats de recherche"
**Les étiquettes et outils d’indexation :**
...
...
@@ -57,25 +59,22 @@ choix non expliqués --> choix suspicieux
**Logiciel "point&clic"**
Les logiciels "point&clic" qui sont faciles d'utilisation mais dont le détail\
des calculs, des paramètres etc ne sont pas accessibles, où se qui se passe\
derrière est caché. Ces logiciels dont l'usage premier peut être détourné,\
ce qui crée de potentiels postes d'erreurs.\
Les logiciels "point&clic" qui sont faciles d'utilisation mais dont le détail des calculs, des paramètres etc\
ne sont pas accessibles, où se qui se passe derrière est caché. Ces logiciels dont l'usage premier peut être détourné,\
ce qui crée de potentiels postes d'erreurs.
**Tableurs, erreurs de programmation et de manipulation des données**
Un exemple typique sont les tableurs excel et en particulier ceux, \
utilisant des macros. De plus, pour certaines valeurs, le comportement\
par défaut du logiciel peut les interprêter de mauvaise manière.\
Un exemple typique sont les tableurs excel et en particulier ceux, utilisant des macros. De plus, pour certaines valeurs,\
le comportement par défaut du logiciel peut les interprêter de mauvaise manière.\
Par exemple:
- le nom commun d'un gêne MARCH1 interprêtée comme une date,
- un identifiant de gêne interpêter comme un chiffre
**Pile logicielle complexe**
logiciels propriétaires ("boîte noire") dont on ne maîtrise pas le contenu et \
qui applique aveuglément des procédures de calcul et de transformation de \
données.
logiciels propriétaires ("boîte noire") dont on ne maîtrise pas le contenu et qui applique aveuglément des procédures de calcul\
et de transformation de données.
**Bugs de programmation**
...
...
@@ -85,13 +84,11 @@ Erreurs peuvent venir de programmes "maison"
1. Pas de Backup
Stockage ne coûte plus rien, mais cela n'empêche que la sauvegarde des données \
est souvent mal assurée.
Stockage ne coûte plus rien, mais cela n'empêche que la sauvegarde des données est souvent mal assurée.
2. Pas d'historique
En l'absence de mécanismes de gestion version, il est courant de remplacer par\
inadvertance d'anciennes données par de nouvelles.\
En l'absence de mécanismes de gestion version, il est courant de remplacer par inadvertance d'anciennes données par de nouvelles.\
--> plus d'accès aux anciennes observations.
3. Pas de contrôle qualité
...
...
@@ -102,11 +99,9 @@ Bonnes pratiques de revue de code, l'intégration continue rarement appliquées
4. Dimension culturelle et sociale
Un article est une version simplifié et intelligible des résultats : "publicité"\
Une description haut-niveau est essentielle (permet de prendre du recul) mais \
elle est devenue la norme alors que le niveau de technicité de la recherche \
actuelle est bien trop élevé pour qu'il soit possible de donner dans un doc \
de 8 à 10 pages toutes les informations permettant de refaire les expériences \
et analyses.
Une description haut-niveau est essentielle (permet de prendre du recul) mais elle est devenue la norme alors que le niveau\
de technicité de la recherche actuelle est bien trop élevé pour qu'il soit possible de donner dans un doc de 8 à 10 pages\
toutes les informations permettant de refaire les expériences et analyses.
* Description du protocole expérimental souvent assez succinte,
* Données généralement trop nombreuses pour être données in extinso.\
...
...
@@ -121,27 +116,22 @@ Idées reçues
* Faiblesses deviendraient évidentes
Si je donne accès à tout --> résultats n'apparaîtront pas aussi parfaits que ce \
qu'ils étaient prétendus être. Risque d'être considéré comme un peu sale, \
pas assez rigoureux, que l'on dise que les résultats présentés ont été sélectionnés \
mais c'est la réalité et ce n'est pas un cas isolé.\
Dans un domaine où la réputation est essentielle --> plus d'intérêt à le montrer.\
Si je donne accès à tout --> résultats n'apparaîtront pas aussi parfaits que ce qu'ils étaient prétendus être. Risque d'être considéré\
comme un peu sale, pas assez rigoureux, que l'on dise que les résultats présentés ont été sélectionnés mais c'est la réalité \
et ce n'est pas un cas isolé. Dans un domaine où la réputation est essentielle --> plus d'intérêt à le montrer.\
Le cacher finira par paraître suspicieux et pourra nuire à la réputation.
* Quelqu'un pourrait trouver une erreur
Si je révèle tout, quelqu'un peut potentiellement trouver une erreur.
--> tout le monde fait des erreurs mêmes des chercheurs de renom.\
Si je révèle tout, quelqu'un peut potentiellement trouver une erreur. --> tout le monde fait des erreurs mêmes des chercheurs de renom.\
Mieux vaut trouver une erreur afin de rendre les travaux correctes.
* Quelqu'un pourrait en tirer un avantage à ma place
Si je rends public mes données ou mon code, un risque est qu'un autre chercheur\
utilise mes données ou mon code pour écrire plusieurs articles alors que j'en \
aurais publier qu'un. --> si réutilisation, citation de votre travail est obligatoire\
Si je rends public mes données ou mon code, un risque est qu'un autre chercheur utilise mes données ou mon code pour écrire plusieurs\
articles alors que j'en aurais publier qu'un. --> si réutilisation, citation de votre travail est obligatoire.
Article les plus cités : présentation de contributions méthodologique ou\
logiciels devenus essentiels dans un domaine.\
Article les plus cités : présentation de contributions méthodologique ou logiciels devenus essentiels dans un domaine.\
--> il ne faut pas négliger l'intérêt de donner l'accès à sa communauté.\
GitHub (à mi-chemin entre plateforme de dév et réseau social) --> sorte de \
carte de visite pour un développeur.
...
...
@@ -150,3 +140,34 @@ Travaux avec une dimension éthique.\
Données potentiellement sensibles --> définitions des personnes habilitées\
à avoir accès à ces données et utilisation de techniques cryptographiques.
### 2.3) Le document computationnel
Un tel document (comble le fossé entre l'auteur et le lecteur)\
permet de garder une trace afin :\
* __d'inspecter__ :
* justifier pourquoi tel ou tel code est utilisé (auteur)
* comprendre ce qui a été fait (lecteur)
* __de refaire__ : permet de refaire les calculs et les analyses le plus simplement possible
* 1er point : permet au lecteur de vérifier que les calculs sont corrects
* 2ème point : permet de corriger des erreurs s'il y en a
* 3ème point : permet à d'autres de réutiliser les travaux dans un autre contexte
3 outils possibles:
* Jupyter
* Rstudio/knitR
* Org mode
1 seul document pour explications, code et résultats.
Possibilité d'export.
Jupyter --> plusieurs langages mais pas dans un même notebook (en fait c'est faisable mais compliqué)
Rstudio --> dédié au langage R, possibilité de faire du python mais pas très ergonomique
Org mode --> on peut faire cohabité différents langages mais la courbe d'apprentissage est plus élevé que pour les deux autres outils.
Jupyter et Rstudio s'appuient sur le markdown et donc sur Pandoc et le style par défaut est très bien\
si l'on veut générer du html. Mais si besoin de générer un pdf avec un style particulier, pas forcément évident de configure Pandoc\
pour qu'il applique le style voulu.
Avec OrgMode capacité à écrire directement du Latex.