typo

parent 3587cb3e
...@@ -6,42 +6,41 @@ ...@@ -6,42 +6,41 @@
#+OPTIONS: num:nil toc:t #+OPTIONS: num:nil toc:t
#+PROPERTY: header-args :eval never-export #+PROPERTY: header-args :eval never-export
* Exercice 1: Ré-exécuter n'est pas répliquer... * Exercice 1 : Ré-exécuter n'est pas répliquer...
Même si la terminologie peut varier d'un auteur ou d'une communauté à Même si la terminologie peut varier d'un auteur ou d'une communauté à
l'autre, il est important de comprendre que l'on peut distinguer l'autre, il est important de comprendre que l'on peut distinguer
différent niveau de "réplication" selon que l'on s'est contenté de différents niveaux de "réplication" selon que l'on s'est contenté de
vérifier que l'on pouvait ré-exécuter le code et obtenir exactement les vérifier que l'on pouvait ré-exécuter le code et obtenir exactement les
mêmes résultats ou bien que l'on arrivait à reproduire des résultats mêmes résultats ou bien que l'on arrivait à reproduire des résultats
similaires en suivant une approche similaire (éventuellement avec un similaires en suivant une approche similaire (éventuellement avec un
autre langage, une autre méthode de calcul, etc.). À Ce sujet, vous autre langage, une autre méthode de calcul, etc.). À ce sujet, vous
pourrez vouloir par exemple lire https://arxiv.org/abs/1708.08205. pourrez vouloir par exemple lire [[https://arxiv.org/abs/1708.08205][https://arxiv.org/abs/1708.08205]].
Le diable se cache souvent dans des endroits auxquels on ne penserait Le diable se cache souvent dans des endroits auxquels on n'aurait jamais
jamais et nous sommes nous-mêmes allés de surprise en surprise en pensé et nous sommes nous-mêmes allés de surprise en surprise en
préparant ce MOOC, notamment avec l'exercice du module 2 sur préparant ce MOOC, notamment avec l'exercice du module 2 sur
Challenger. C'est pourquoi nous vous proposons dans cet exercice, de Challenger. C'est pourquoi nous vous proposons dans cet exercice, de
refaire une partie de l'analyse des données de Challenger, comme l'ont refaire une partie de l'analyse des données de Challenger, comme l'ont
fait Siddhartha Dallal et ses co-auteurs il y a presque 30 ans dans fait Siddhartha Dallal et ses co-auteurs il y a presque 30 ans dans
leur article /Risk Analysis of the Space Shuttle: Pre-Challenger leur article /Risk Analysis of the Space Shuttle: Pre-Challenger
Prediction of Failure/ et publié dans le /Journal of the American Prediction of Failure/ et publié dans le /Journal of the American
Statistical Association/ (Vol. 84, No. 408, Déc., 1989), mais dans Statistical Association/ (Vol. 84, No. 408, Déc., 1989) mais dans
dans un autre langage de votre choix (Python, R, Julia, SAS, dans un autre langage de votre choix (Python, R, Julia, SAS...).
...).
Nous savons d'expérience que si les estimations de pente et Nous savons d'expérience que si les estimations de pente et
d'intercept sont généralement les mêmes, on peut avoir des différences d'intercept sont généralement les mêmes, on peut avoir des différences
lorsque l'on regarde un peu plus dans les détails les estimateurs de lorsque l'on regarde les estimateurs de variance et le R^2 un peu plus
variance et le R^2. Il peut également y avoir des surprises dans le dans les détails. Il peut également y avoir des surprises dans le
graphique final selon les versions de bibliothèques utilisées. graphique final selon les versions de bibliothèques utilisées.
L'ensemble des calculs à effectuer est décrit ici avec les L'ensemble des calculs à effectuer est décrit ici avec les
indications sur comment contribuer: indications sur comment contribuer :
https://app-learninglab.inria.fr/gitlab/moocrr-session1/moocrr-reproducibility-study/ [[https://app-learninglab.inria.fr/gitlab/moocrr-session1/moocrr-reproducibility-study/][https://app-learninglab.inria.fr/gitlab/moocrr-session1/moocrr-reproducibility-study/]]
Vous y trouverez notre réplication des calculs de Dallal et al. (en Vous y trouverez notre réplication des calculs de Dallal /et al./ (en
R), une mise en œuvre en python et une en R (très similaires à ce que R), une mise en œuvre en Python et une en R (très similaires à ce que
vous avez pu utiliser dans le module 2). Cet exercice peut donc se vous avez pu utiliser dans le module 2). Cet exercice peut donc se
faire à deux niveaux: faire à deux niveaux :
1. un niveau facile pour ceux qui repartiront du code dans le langage 1. un niveau facile pour ceux qui repartiront du code dans le langage
qu'ils n'auront initialement pas utilisé et se contenteront de le qu'ils n'auront initialement pas utilisé et se contenteront de le
ré-exécuter. Pour cela, nul besoin de maîtriser la régression ré-exécuter. Pour cela, nul besoin de maîtriser la régression
...@@ -52,15 +51,15 @@ faire à deux niveaux: ...@@ -52,15 +51,15 @@ faire à deux niveaux:
section 4A du module 2]] qui expliquent comment y importer un section 4A du module 2]] qui expliquent comment y importer un
notebook. notebook.
2. un niveau plus difficile pour ceux qui souhaiteront le réécrire 2. un niveau plus difficile pour ceux qui souhaiteront le réécrire
complètement (éventuellement dans un autre langage que R ou python, complètement (éventuellement dans un autre langage que R ou Python,
l'expérience peut être d'autant plus intéressante que nous n'avons l'expérience peut être d'autant plus intéressante que nous n'avons
pas testé ces variations). Là, si les fonctions de calcul d'une pas testé ces variations). Là, si les fonctions de calcul d'une
régression logistique ne sont pas présente, il y a par contre régression logistique ne sont pas présentes, il y a par contre
intérêt à en savoir un minimum pour pouvoir les intérêt à en savoir un minimum pour pouvoir les
implémenter. L'exercice en est d'autant plus instructif. implémenter. L'exercice en est d'autant plus instructif.
Vous pourrez alors discuter sur le forum des succès et des échecs que Vous pourrez alors discuter sur le forum des succès et des échecs que
vous avez pu rencontrer. Pour cela: vous aurez pu rencontrer. Pour cela :
- *Vous publierez auparavant dans votre dépôt les différents notebooks* - *Vous publierez auparavant dans votre dépôt les différents notebooks*
en prenant bien soin d'enrichir votre document des informations en prenant bien soin d'enrichir votre document des informations
(numéros de version, etc.) sur votre système et sur les (numéros de version, etc.) sur votre système et sur les
...@@ -68,24 +67,24 @@ vous avez pu rencontrer. Pour cela: ...@@ -68,24 +67,24 @@ vous avez pu rencontrer. Pour cela:
- Vous indiquerez votre résultat (que ça soit un succès ou échec à - Vous indiquerez votre résultat (que ça soit un succès ou échec à
obtenir les mêmes résultats) en *remplissant ce [[https://app-learninglab.inria.fr/gitlab/moocrr-session1/moocrr-reproducibility-study/blob/master/results.md][tableau]]* (vous avez obtenir les mêmes résultats) en *remplissant ce [[https://app-learninglab.inria.fr/gitlab/moocrr-session1/moocrr-reproducibility-study/blob/master/results.md][tableau]]* (vous avez
les droits d'édition donc il vous suffit d'éditer les fichiers via les droits d'édition donc il vous suffit d'éditer les fichiers via
l'interface GitLab). Vous vérifierez les valeurs obtenues pour l'interface GitLab). Vous vérifierez les valeurs obtenues pour :
1) les coefficients de la pente et de l'intercept 1) les coefficients de la pente et de l'intercept
2) les estimations d'erreur de ces coefficients 2) les estimations d'erreur de ces coefficients
3) le goodness of fit 3) le goodness of fit
4) la figure 4) la figure
5) la zone de confiance 5) la zone de confiance
- Pour chacun vous indiquerez si le résultat est: - Pour chacun vous indiquerez si le résultat est :
- identique - identique
- proche à moins de trois décimales - proche à moins de trois décimales
- très différent - très différent
- non fonctionnel (pas de résultat obtenu) - non fonctionnel (pas de résultat obtenu)
Vous indiquerez également dans ce tableau: Vous indiquerez également dans ce tableau :
- Un lien vers votre espace gitlab contenant les différents notebooks - un lien vers votre espace gitlab contenant les différents notebooks
- Le nom du système d'exploitation utilisé - le nom du système d'exploitation utilisé
- Le langage utilisé et son numéro de version - le langage utilisé et son numéro de version
- Les numéros des principales bibliothèques utilisées - les numéros des principales bibliothèques utilisées
- Python: numpy, pandas, matplotlib, statsmodels, ... - Python : numpy, pandas, matplotlib, statsmodels...
- R: BLAS, ggplot, dplyr si chargées - R : BLAS, ggplot, dplyr si chargées
Ne vous inquiétez pas si ces consignes vous semblent peu claires sur l'instant, Ne vous inquiétez pas si ces consignes vous semblent peu claires sur l'instant,
elles sont rappelées en haut du [[https://app-learninglab.inria.fr/gitlab/moocrr-session1/moocrr-reproducibility-study/blob/master/results.md][tableau]] et vous vous rendrez vite elles sont rappelées en haut du [[https://app-learninglab.inria.fr/gitlab/moocrr-session1/moocrr-reproducibility-study/blob/master/results.md][tableau]] et vous vous rendrez vite
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment