{ "cells": [ { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "# Analyse du risque de défaillance des joints toriques de la navette Challenger" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Le 27 Janvier 1986, veille du décollage de la navette *Challenger*, eu\n", "lieu une télé-conférence de trois heures entre les ingénieurs de la\n", "Morton Thiokol (constructeur d'un des moteurs) et de la NASA. La\n", "discussion portait principalement sur les conséquences de la\n", "température prévue au moment du décollage de 31°F (juste en dessous de\n", "0°C) sur le succès du vol et en particulier sur la performance des\n", "joints toriques utilisés dans les moteurs. En effet, aucun test\n", "n'avait été effectué à cette température.\n", "\n", "L'étude qui suit reprend donc une partie des analyses effectuées cette\n", "nuit là et dont l'objectif était d'évaluer l'influence potentielle de\n", "la température et de la pression à laquelle sont soumis les joints\n", "toriques sur leur probabilité de dysfonctionnement. Pour cela, nous\n", "disposons des résultats des expériences réalisées par les ingénieurs\n", "de la NASA durant les 6 années précédant le lancement de la navette\n", "Challenger.\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "## Chargement des données\n", "Nous commençons donc par charger ces données:" ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
DateCountTemperaturePressureMalfunction
04/12/81666500
111/12/81670501
23/22/82669500
311/11/82668500
44/04/83667500
56/18/82672500
68/30/836731000
711/28/836701000
82/03/846572001
94/06/846632001
108/30/846702001
1110/05/846782000
1211/08/846672000
131/24/856532002
144/12/856672000
154/29/856752000
166/17/856702000
177/29/856812000
188/27/856762000
1910/03/856792000
2010/30/856752002
2111/26/856762000
221/12/866582001
\n", "
" ], "text/plain": [ " Date Count Temperature Pressure Malfunction\n", "0 4/12/81 6 66 50 0\n", "1 11/12/81 6 70 50 1\n", "2 3/22/82 6 69 50 0\n", "3 11/11/82 6 68 50 0\n", "4 4/04/83 6 67 50 0\n", "5 6/18/82 6 72 50 0\n", "6 8/30/83 6 73 100 0\n", "7 11/28/83 6 70 100 0\n", "8 2/03/84 6 57 200 1\n", "9 4/06/84 6 63 200 1\n", "10 8/30/84 6 70 200 1\n", "11 10/05/84 6 78 200 0\n", "12 11/08/84 6 67 200 0\n", "13 1/24/85 6 53 200 2\n", "14 4/12/85 6 67 200 0\n", "15 4/29/85 6 75 200 0\n", "16 6/17/85 6 70 200 0\n", "17 7/29/85 6 81 200 0\n", "18 8/27/85 6 76 200 0\n", "19 10/03/85 6 79 200 0\n", "20 10/30/85 6 75 200 2\n", "21 11/26/85 6 76 200 0\n", "22 1/12/86 6 58 200 1" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import numpy as np\n", "import pandas as pd\n", "data = pd.read_csv(\"shuttle.csv\")\n", "data" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Le jeu de données nous indique la date de l'essai, le nombre de joints\n", "toriques mesurés (il y en a 6 sur le lançeur principal), la\n", "température (en Farenheit) et la pression (en psi), et enfin le\n", "nombre de dysfonctionnements relevés. " ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "## Inspection graphique des données\n", "*Est-on certain de cette phrase ?* Je dirais plutôt de limiter à une valeur de pression unique. *Ne faut-il pas distinguer les cas de pression ? 50 psi, environ 3,4 atmosphère, 200 Psi 13,6 atm*" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Nous cherchons ici à simplement visualiser le nombres d'erreurs sur les joints en fonction de le température, quelque soit la pression" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [], "source": [ "import matplotlib.pyplot as plt\n", "data.plot(x=\"Temperature\",y=\"Malfunction\",kind=\"scatter\",ylim=[0,1])\n", "plt.grid(True)" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "The rpy2.ipython extension is already loaded. To reload it, use:\n", " %reload_ext rpy2.ipython\n" ] } ], "source": [ "%load_ext rpy2.ipython" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "%%R \n", "install.packages(\"ggplot2\")\n", "library(\"ggplot2\")\n", "data_R <- read.csv(file = 'shuttle.csv')\n", "\n", "ggplot(data_R, aes(x=Temperature,y=Malfunction)) + geom_point(alpha=.3,size=3) + \n", " theme_bw() +\n", " geom_smooth(method = \"glm\",\n", " method.args =list(family = \"binomial\")) + xlim(20,150)" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [], "source": [ "data = data[data.Pressure>100]\n", "data" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "\n", "Très bien, nous avons une variabilité de température importante mais\n", "la pression est quasiment toujours égale à 200, ce qui devrait\n", "simplifier l'analyse. *En quoi cela \"simplifie ?\"*\n", "\n", "Comment la fréquence d'échecs varie-t-elle avec la température ?\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [], "source": [ "%matplotlib inline\n", "pd.set_option('mode.chained_assignment',None) # this removes a useless warning from pandas\n", "\n", "import matplotlib.pyplot as plt\n", "\n", "data[\"Frequency\"]=data.Malfunction/data.Count\n", "data.plot(x=\"Temperature\",y=\"Frequency\",kind=\"scatter\",ylim=[0,1])\n", "plt.grid(True)" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "À première vue, ce n'est pas flagrant mais bon, essayons quand même\n", "d'estimer l'impact de la température $t$ sur la probabilité de\n", "dysfonctionnements d'un joint. \n" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "## Estimation de l'influence de la température\n", "\n", "Supposons que chacun des 6 joints toriques est endommagé avec la même\n", "probabilité et indépendamment des autres et que cette probabilité ne\n", "dépend que de la température. Si on note $p(t)$ cette probabilité, le\n", "nombre de joints $D$ dysfonctionnant lorsque l'on effectue le vol à\n", "température $t$ suit une loi binomiale de paramètre $n=6$ et\n", "$p=p(t)$. Pour relier $p(t)$ à $t$, on va donc effectuer une\n", "régression logistique." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [], "source": [ "import statsmodels.api as sm\n", "\n", "data[\"Success\"]=data.Count-data.Malfunction\n", "data[\"Intercept\"]=1\n", "\n", "logmodel=sm.GLM(data['Frequency'], data[['Intercept','Temperature']], family=sm.families.Binomial(sm.families.links.logit)).fit()\n", "\n", "logmodel.summary()" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "L'estimateur le plus probable du paramètre de température est -0.0990 \t\n", "et l'erreur standard de cet estimateur est de 0.110, autrement dit on\n", "ne peut pas distinguer d'impact particulier et il faut prendre nos\n", "estimations avec des pincettes.\n" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "## Estimation de la probabilité de dysfonctionnant des joints toriques\n", "La température prévue le jour du décollage est de 31°F. Essayons\n", "d'estimer la probabilité de dysfonctionnement des joints toriques à\n", "cette température à partir du modèle que nous venons de construire:\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [], "source": [ "%matplotlib inline\n", "data_pred = pd.DataFrame({'Temperature': np.linspace(start=30, stop=90, num=121), 'Intercept': 1})\n", "data_pred['Frequency'] = logmodel.predict(data_pred[['Intercept','Temperature']])\n", "data_pred.plot(x=\"Temperature\",y=\"Frequency\",kind=\"line\",ylim=[0,1])\n", "plt.scatter(x=data[\"Temperature\"],y=data[\"Frequency\"])\n", "plt.grid(True)" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false, "scrolled": true }, "source": [ "La température est susceptible d'avoir un impact notable sur la probabilité d'échec des\n", "joints toriques. Elle serait d'environ 0.8 ! Revenons\n", "à l'ensemble des données initiales pour estimer la probabilité de\n", "défaillance d'un joint:\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [], "source": [ "data = pd.read_csv(\"shuttle.csv\")\n", "print(np.sum(data.Malfunction)/np.sum(data.Count))" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Cette probabilité est donc d'environ $p=0.065$, sachant qu'il existe\n", "un joint primaire un joint secondaire sur chacune des trois parties du\n", "lançeur, la probabilité de défaillance des deux joints d'un lançeur\n", "est de $p^2 \\approx 0.00425$. La probabilité de défaillance d'un des\n", "lançeur est donc de $1-(1-p^2)^3 \\approx 1.2%$. Ça serait vraiment\n", "pas de chance... Tout est sous contrôle, le décollage peut donc avoir\n", "lieu demain comme prévu.\n", "\n", "Seulement, le lendemain, la navette Challenger explosera et emportera\n", "avec elle ses sept membres d'équipages. L'opinion publique est\n", "fortement touchée et lors de l'enquête qui suivra, la fiabilité des\n", "joints toriques sera directement mise en cause. Au delà des problèmes\n", "de communication interne à la NASA qui sont pour beaucoup dans ce\n", "fiasco, l'analyse précédente comporte (au moins) un petit\n", "problème... Saurez-vous le trouver ? Vous êtes libre de modifier cette\n", "analyse et de regarder ce jeu de données sous tous les angles afin\n", "d'expliquer ce qui ne va pas." ] } ], "metadata": { "celltoolbar": "Hide code", "hide_code_all_hidden": false, "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.4" } }, "nbformat": 4, "nbformat_minor": 2 }