title: 'Réplication *"Risk Analysis of the Space Shuttle: Pre-Challenger Prediction
of Failure"*'
author: "Matthieu HAAS"
date: "05/02/2021"
output:
pdf_document:
latex_engine: xelatex
html_document: default
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
Dans ce travail, l'objectif est de répliquer certaines analyses de l'article *Risk Analysis of the Space Shuttle: Pre-Challenger Prediction of Failure*, disponible [ici](http://www.jstore.org/stable/2290069).
A la quatrième page de l'article, ils présentent les meilleures estimations de la régression logistique utilisant uniquement la température comme étant : $\hat{\alpha}=5.085$ et $\hat{\beta}=−0.1156$ et leur erreur standard asymtpotique respective est de : $s_{\hat{\alpha}}=3.052$ et $s_{\hat{\beta}}= 0.047$.La qualité d'ajustement de ce modèle est de : $G^2=18.086$ avec 21 degrés de liberté. Notre objectif est de reproduire les étapes derrière ce calcul et la figure 4 de l'article, en l'améliorant si possible.
## Information technique sur l'ordinateur réalisant l'analyse
Nous utiliserons ici un langage R et la librairie ggplot2.
```{r}
library(ggplot2)
sessionInfo()
```
Voici les librairies disponibles.
```{r}
devtools::session_info()
```
## Chargement et vérification des données
La première étape est de charger les données.
```{r}
data = read.csv("https://app-learninglab.inria.fr/moocrr/gitlab/moocrr-session3/moocrr-reproducibility-study/raw/master/data/shuttle.csv?inline=false",header=T)
data
```
On peut représenter l'impact de la température sur les échecs.
Les meilleures estimations de la régression logistique utilisant uniquement la température sont : ${\hat{\alpha}}=5.08498$ et ${\hat{\beta}}=-0.11560$ et leur erreur standard asymtpotique respective est de : $s_{\hat{\alpha}}=3.05247$ et $s_{\hat{\beta}}= 0.04702$.La qualité d'ajustement de ce modèle est de : $G^2=18.086$ avec 21 degrés de liberté. De fait, je réplique les résultats de l'article de Dalal *et al*.
## Prédiction du risque d'échec
Lors du lancement, la température lors du lancement était de 31°F. Estimons la probabilité d'un échec dans ces conditions en utilisant notre modèle:
On a un message d'avertissement de ggplot indiquant "non-integer #successes in a binomial glm!". C'est étrange. De plus, cet intervalle de confiance est énorme.
```{r}
data_flat=data.frame()
for(i in 1:nrow(data)){
temperature = data[i,"Temperature"];
malfunction = data[i,"Malfunction"];
d =data.frame(Temperature=temperature,Malfunction=rep(0,times = data[i,"Count"]))