diff --git a/module2/exo5/exo5_python_fr.html b/module2/exo5/exo5_python_fr.html new file mode 100644 index 0000000000000000000000000000000000000000..75143be59e8606c03804ab752f6b8e9fcfe86638 --- /dev/null +++ b/module2/exo5/exo5_python_fr.html @@ -0,0 +1,490 @@ + + + + + + + +Analyse du risque de défaillance des joints toriques de la navette Challenger + + + + + + + + + + + + + + +
+

Analyse du risque de défaillance des joints toriques de la navette Challenger

+
+

Table des matières

+ +
+

+Le 27 Janvier 1986, veille du décollage de la navette Challenger, eu +lieu une télé-conférence de trois heures entre les ingénieurs de la +Morton Thiokol (constructeur d'un des moteurs) et de la NASA. La +discussion portait principalement sur les conséquences de la +température prévue au moment du décollage de 31°F (juste en dessous de +0°C) sur le succès du vol et en particulier sur la performance des +joints toriques utilisés dans les moteurs. En effet, aucun test +n'avait été effectué à cette température. +

+ +

+L'étude qui suit reprend donc une partie des analyses effectuées cette +nuit là et dont l'objectif était d'évaluer l'influence potentielle de +la température et de la pression à laquelle sont soumis les joints +toriques sur leur probabilité de dysfonctionnement. Pour cela, nous +disposons des résultats des expériences réalisées par les ingénieurs +de la NASA durant les 6 années précédant le lancement de la navette +Challenger. +

+ +
+

1. Chargement des données

+
+

+Nous commençons donc par charger ces données: +

+
+
import numpy as np
+import pandas as pd
+data = pd.read_csv("shuttle.csv")
+data
+
+
+ +
+        Date  Count  Temperature  Pressure  Malfunction
+0    4/12/81      6           66        50            0
+1   11/12/81      6           70        50            1
+2    3/22/82      6           69        50            0
+3   11/11/82      6           68        50            0
+4    4/04/83      6           67        50            0
+5    6/18/82      6           72        50            0
+6    8/30/83      6           73       100            0
+7   11/28/83      6           70       100            0
+8    2/03/84      6           57       200            1
+9    4/06/84      6           63       200            1
+10   8/30/84      6           70       200            1
+11  10/05/84      6           78       200            0
+12  11/08/84      6           67       200            0
+13   1/24/85      6           53       200            2
+14   4/12/85      6           67       200            0
+15   4/29/85      6           75       200            0
+16   6/17/85      6           70       200            0
+17   7/29/85      6           81       200            0
+18   8/27/85      6           76       200            0
+19  10/03/85      6           79       200            0
+20  10/30/85      6           75       200            2
+21  11/26/85      6           76       200            0
+22   1/12/86      6           58       200            1
+
+ +

+Le jeu de données nous indique la date de l'essai, le nombre de joints +toriques mesurés (il y en a 6 sur le lançeur principal), la +température (en Fahrenheit) et la pression (en psi), et enfin le +nombre de dysfonctionnements relevés. +

+
+
+ +
+

2. Inspection graphique des données

+
+

+À première vue, ni l'information de pression ni la date nous apporteront des réponses sur la fréquence des incidents. On va donc chercher à filtrer les colonnes restantes en fusionnant les doublons pour la température. +

+ +
+
agg_functions = {'Count': 'sum', 'Malfunction': 'sum'}
+data = data[['Temperature','Count','Malfunction']].groupby('Temperature', as_index=False).sum()
+data
+
+
+ +
+    Temperature  Count  Malfunction
+0            53      6            2
+1            57      6            1
+2            58      6            1
+3            63      6            1
+4            66      6            0
+5            67     18            0
+6            68      6            0
+7            69      6            0
+8            70     24            2
+9            72      6            0
+10           73      6            0
+11           75     12            2
+12           76     12            0
+13           78      6            0
+14           79      6            0
+15           81      6            0
+
+ +

+Comment la fréquence d'échecs varie-t-elle avec la température ? +

+
+
import matplotlib.pyplot as plt
+
+plt.clf()
+data["Frequency"]=data.Malfunction/data.Count
+data.plot(x="Temperature",y="Frequency",kind="scatter",ylim=[0,1])
+plt.grid(True)
+
+plt.savefig(matplot_lib_filename)
+print(matplot_lib_filename)
+
+
+ + +
+

freq_temp_python.png +

+
+ +

+Contrairement à l'analyse précédente où les températures sans incidents n'étaient pas incluses, on voit ici une augemntation un peu plus nette de la fréquence des incidents à mesure que la température. +

+ +

+On peut procéder à une estimation de l'impact de la température \(t\) sur la probabilité de dysfonctionnements d'un joint. +

+
+
+ +
+

3. Estimation de l'influence de la température

+
+

+Supposons que chacun des 6 joints toriques est endommagé avec la même probabilité et indépendamment des autres et que cette probabilité ne dépend que de la température. Si on note \(p(t)\) cette probabilité, le nombre de joints \(D\) dysfonctionnant lorsque l'on effectue le vol à température \(t\) suit une loi binomiale de paramètre \(n=6\) et \(p=p(t)\). Pour relier \(p(t)\) à \(t\), on va donc effectuer une régression logistique. +

+ +
+
import statsmodels.api as sm
+
+data["Success"]=data.Count-data.Malfunction
+data["Intercept"]=1
+
+logmodel=sm.GLM(data['Frequency'], data[['Intercept','Temperature']], family=sm.families.Binomial(sm.families.links.logit())).fit()
+
+logmodel.summary()
+
+
+ +
+                 Generalized Linear Model Regression Results                  
+==============================================================================
+Dep. Variable:              Frequency   No. Observations:                   16
+Model:                            GLM   Df Residuals:                       14
+Model Family:                Binomial   Df Model:                            1
+Link Function:                  logit   Scale:                          1.0000
+Method:                          IRLS   Log-Likelihood:                -2.4880
+Date:                Tue, 11 Jun 2024   Deviance:                       1.1965
+Time:                        16:14:26   Pearson chi2:                     1.82
+No. Iterations:                     6   Pseudo R-squ. (CS):            0.07675
+Covariance Type:            nonrobust                                         
+===============================================================================
+                  coef    std err          z      P>|z|      [0.025      0.975]
+-------------------------------------------------------------------------------
+Intercept       6.8667      8.822      0.778      0.436     -10.424      24.157
+Temperature    -0.1458      0.143     -1.023      0.306      -0.425       0.134
+===============================================================================
+
+ +

+L'estimateur le plus probable du paramètre de température est -0.1458 donc on peut s'attendre à une correlation négative entre la température et la propabilité de dysfonctionnement. L'erreur standard reste plutôt élevée mais le pseudo-R² reste bas, on peut avoir une certaine confiance en nos prédictions. +

+
+
+ + +
+

4. Estimation de la probabilité de dysfonctionnant des joints toriques

+
+

+La température prévue le jour du décollage est de 31°F. Essayons +d'estimer la probabilité de dysfonctionnement des joints toriques à +cette température à partir du modèle que nous venons de construire: +

+ +
+
import matplotlib.pyplot as plt
+
+data_pred = pd.DataFrame({'Temperature': np.linspace(start=30, stop=90, num=121), 'Intercept': 1})
+data_pred['Frequency'] = logmodel.predict(data_pred[['Intercept','Temperature']])
+data_pred.plot(x="Temperature",y="Frequency",kind="line",ylim=[0,1])
+plt.scatter(x=data["Temperature"],y=data["Frequency"])
+plt.grid(True)
+
+plt.savefig(matplot_lib_filename)
+print(matplot_lib_filename)
+
+
+ + +
+

proba_estimate_python.png +

+
+ +

+Contrairement à l'analyze précédente, on voit que la température a bien un effet considérable sur la probabilité de dysfonctionnement des joins toriques. Ainsi à 31°F, notre modèle prédit qu'un joint torique à plus de 90% de chances de dysfonctionner. +

+ +
+
data_pred[data_pred.Temperature<=31.0]
+
+
+ +
+   Temperature  Intercept  Frequency
+0         30.0          1   0.923566
+1         30.5          1   0.918258
+2         31.0          1   0.912615
+
+ + +

+La probabilité qu'un joint défaille à cette température est de \(p=0.913\). Sachant qu'il existe un joint primaire un joint secondaire sur chacune des trois parties du lançeur, la probabilité de défaillance des deux joints d'un lançeur est de \(p^2 \approx 0.833569\). La probabilité de défaillance d'un des lançeur est donc de \(1-(1-p^2)^3 \approx 99.5%\). La catastrophe était certaine. +

+
+
+
+
+

Auteur: Antoine Geimer

+

Created: 2024-06-11 Tue 16:14

+

Validate

+
+ + diff --git a/module2/exo5/exo5_python_fr.org b/module2/exo5/exo5_python_fr.org index afff5e05bdb366128291b42847d9bd44d1f8bf04..7b0a2a9355654e43f836bdab863d2ba28ce93c4c 100644 --- a/module2/exo5/exo5_python_fr.org +++ b/module2/exo5/exo5_python_fr.org @@ -1,5 +1,5 @@ #+TITLE: Analyse du risque de défaillance des joints toriques de la navette Challenger -#+AUTHOR: Arnaud Legrand +#+AUTHOR: Antoine Geimer #+LANGUAGE: fr #+HTML_HEAD: @@ -42,30 +42,30 @@ data #+RESULTS: #+begin_example - Date Count Temperature Pressure Malfunction -0 4/12/81 6 66 50 0 -1 11/12/81 6 70 50 1 -2 3/22/82 6 69 50 0 -3 11/11/82 6 68 50 0 -4 4/04/83 6 67 50 0 -5 6/18/82 6 72 50 0 -6 8/30/83 6 73 100 0 -7 11/28/83 6 70 100 0 -8 2/03/84 6 57 200 1 -9 4/06/84 6 63 200 1 -10 8/30/84 6 70 200 1 -11 10/05/84 6 78 200 0 -12 11/08/84 6 67 200 0 -13 1/24/85 6 53 200 2 -14 4/12/85 6 67 200 0 -15 4/29/85 6 75 200 0 -16 6/17/85 6 70 200 0 -17 7/29/85 6 81 200 0 -18 8/27/85 6 76 200 0 -19 10/03/85 6 79 200 0 -20 10/30/85 6 75 200 2 -21 11/26/85 6 76 200 0 -22 1/12/86 6 58 200 1 + Date Count Temperature Pressure Malfunction +0 4/12/81 6 66 50 0 +1 11/12/81 6 70 50 1 +2 3/22/82 6 69 50 0 +3 11/11/82 6 68 50 0 +4 4/04/83 6 67 50 0 +5 6/18/82 6 72 50 0 +6 8/30/83 6 73 100 0 +7 11/28/83 6 70 100 0 +8 2/03/84 6 57 200 1 +9 4/06/84 6 63 200 1 +10 8/30/84 6 70 200 1 +11 10/05/84 6 78 200 0 +12 11/08/84 6 67 200 0 +13 1/24/85 6 53 200 2 +14 4/12/85 6 67 200 0 +15 4/29/85 6 75 200 0 +16 6/17/85 6 70 200 0 +17 7/29/85 6 81 200 0 +18 8/27/85 6 76 200 0 +19 10/03/85 6 79 200 0 +20 10/30/85 6 75 200 2 +21 11/26/85 6 76 200 0 +22 1/12/86 6 58 200 1 #+end_example Le jeu de données nous indique la date de l'essai, le nombre de joints @@ -74,29 +74,35 @@ température (en Fahrenheit) et la pression (en psi), et enfin le nombre de dysfonctionnements relevés. * Inspection graphique des données -Les vols où aucun incident n'est relevé n'apportant aucune information -sur l'influence de la température ou de la pression sur les -dysfonctionnements, nous nous concentrons sur les expériences où au -moins un joint a été défectueux. + +À première vue, ni l'information de pression ni la date nous apporteront des réponses sur la fréquence des incidents. On va donc chercher à filtrer les colonnes restantes en fusionnant les doublons pour la température. #+begin_src python :results value :session *python* :exports both -data = data[data.Malfunction>0] +agg_functions = {'Count': 'sum', 'Malfunction': 'sum'} +data = data[['Temperature','Count','Malfunction']].groupby('Temperature', as_index=False).sum() data #+end_src #+RESULTS: -: Date Count Temperature Pressure Malfunction -: 1 11/12/81 6 70 50 1 -: 8 2/03/84 6 57 200 1 -: 9 4/06/84 6 63 200 1 -: 10 8/30/84 6 70 200 1 -: 13 1/24/85 6 53 200 2 -: 20 10/30/85 6 75 200 2 -: 22 1/12/86 6 58 200 1 - -Très bien, nous avons une variabilité de température importante mais -la pression est quasiment toujours égale à 200, ce qui devrait -simplifier l'analyse. +#+begin_example + Temperature Count Malfunction +0 53 6 2 +1 57 6 1 +2 58 6 1 +3 63 6 1 +4 66 6 0 +5 67 18 0 +6 68 6 0 +7 69 6 0 +8 70 24 2 +9 72 6 0 +10 73 6 0 +11 75 12 2 +12 76 12 0 +13 78 6 0 +14 79 6 0 +15 81 6 0 +#+end_example Comment la fréquence d'échecs varie-t-elle avec la température ? #+begin_src python :results output file :var matplot_lib_filename="freq_temp_python.png" :exports both :session *python* @@ -114,19 +120,13 @@ print(matplot_lib_filename) #+RESULTS: [[file:freq_temp_python.png]] -À première vue, ce n'est pas flagrant mais bon, essayons quand même -d'estimer l'impact de la température $t$ sur la probabilité de -dysfonctionnements d'un joint. +Contrairement à l'analyse précédente où les températures sans incidents n'étaient pas incluses, on voit ici une augemntation un peu plus nette de la fréquence des incidents à mesure que la température. + +On peut procéder à une estimation de l'impact de la température $t$ sur la probabilité de dysfonctionnements d'un joint. * Estimation de l'influence de la température -Supposons que chacun des 6 joints toriques est endommagé avec la même -probabilité et indépendamment des autres et que cette probabilité ne -dépend que de la température. Si on note $p(t)$ cette probabilité, le -nombre de joints $D$ dysfonctionnant lorsque l'on effectue le vol à -température $t$ suit une loi binomiale de paramètre $n=6$ et -$p=p(t)$. Pour relier $p(t)$ à $t$, on va donc effectuer une -régression logistique. +Supposons que chacun des 6 joints toriques est endommagé avec la même probabilité et indépendamment des autres et que cette probabilité ne dépend que de la température. Si on note $p(t)$ cette probabilité, le nombre de joints $D$ dysfonctionnant lorsque l'on effectue le vol à température $t$ suit une loi binomiale de paramètre $n=6$ et $p=p(t)$. Pour relier $p(t)$ à $t$, on va donc effectuer une régression logistique. #+begin_src python :results value :session *python* :exports both import statsmodels.api as sm @@ -134,9 +134,7 @@ import statsmodels.api as sm data["Success"]=data.Count-data.Malfunction data["Intercept"]=1 - -# logit_model=sm.Logit(data["Frequency"],data[["Intercept","Temperature"]]).fit() -logmodel=sm.GLM(data['Frequency'], data[['Intercept','Temperature']], family=sm.families.Binomial(sm.families.links.logit)).fit() +logmodel=sm.GLM(data['Frequency'], data[['Intercept','Temperature']], family=sm.families.Binomial(sm.families.links.logit())).fit() logmodel.summary() #+end_src @@ -145,26 +143,25 @@ logmodel.summary() #+begin_example Generalized Linear Model Regression Results ============================================================================== -Dep. Variable: Frequency No. Observations: 7 -Model: GLM Df Residuals: 5 +Dep. Variable: Frequency No. Observations: 16 +Model: GLM Df Residuals: 14 Model Family: Binomial Df Model: 1 -Link Function: logit Scale: 1.0 -Method: IRLS Log-Likelihood: -3.6370 -Date: Fri, 20 Jul 2018 Deviance: 3.3763 -Time: 16:56:08 Pearson chi2: 0.236 -No. Iterations: 5 +Link Function: logit Scale: 1.0000 +Method: IRLS Log-Likelihood: -2.4880 +Date: Tue, 11 Jun 2024 Deviance: 1.1965 +Time: 15:04:48 Pearson chi2: 1.82 +No. Iterations: 6 Pseudo R-squ. (CS): 0.07675 +Covariance Type: nonrobust =============================================================================== coef std err z P>|z| [0.025 0.975] ------------------------------------------------------------------------------- -Intercept -1.3895 7.828 -0.178 0.859 -16.732 13.953 -Temperature 0.0014 0.122 0.012 0.991 -0.238 0.240 +Intercept 6.8667 8.822 0.778 0.436 -10.424 24.157 +Temperature -0.1458 0.143 -1.023 0.306 -0.425 0.134 =============================================================================== #+end_example -L'estimateur le plus probable du paramètre de température est 0.0014 -et l'erreur standard de cet estimateur est de 0.122, autrement dit on -ne peut pas distinguer d'impact particulier et il faut prendre nos -estimations avec des pincettes. +L'estimateur le plus probable du paramètre de température est -0.1458 donc on peut s'attendre à une correlation négative entre la température et la propabilité de dysfonctionnement. L'erreur standard reste plutôt élevée mais le pseudo-R² reste bas, on peut avoir une certaine confiance en nos prédictions. + * Estimation de la probabilité de dysfonctionnant des joints toriques La température prévue le jour du décollage est de 31°F. Essayons @@ -187,36 +184,16 @@ print(matplot_lib_filename) #+RESULTS: [[file:proba_estimate_python.png]] -Comme on pouvait s'attendre au vu des données initiales, la -température n'a pas d'impact notable sur la probabilité d'échec des -joints toriques. Elle sera d'environ 0.2, comme dans les essais -précédents où nous il y a eu défaillance d'au moins un joint. Revenons -à l'ensemble des données initiales pour estimer la probabilité de -défaillance d'un joint: +Contrairement à l'analyze précédente, on voit que la température a bien un effet considérable sur la probabilité de dysfonctionnement des joins toriques. Ainsi à 31°F, notre modèle prédit qu'un joint torique à plus de 90% de chances de dysfonctionner. -#+begin_src python :results output :session *python* :exports both -data = pd.read_csv("shuttle.csv") -print(np.sum(data.Malfunction)/np.sum(data.Count)) +#+begin_src python :results value :session *python* :exports both +data_pred[data_pred.Temperature<=31.0] #+end_src #+RESULTS: -: 0.06521739130434782 - -Cette probabilité est donc d'environ $p=0.065$, sachant qu'il existe -un joint primaire un joint secondaire sur chacune des trois parties du -lançeur, la probabilité de défaillance des deux joints d'un lançeur -est de $p^2 \approx 0.00425$. La probabilité de défaillance d'un des -lançeur est donc de $1-(1-p^2)^3 \approx 1.2%$. Ça serait vraiment -pas de chance... Tout est sous contrôle, le décollage peut donc avoir -lieu demain comme prévu. - -Seulement, le lendemain, la navette Challenger explosera et emportera -avec elle ses sept membres d'équipages. L'opinion publique est -fortement touchée et lors de l'enquête qui suivra, la fiabilité des -joints toriques sera directement mise en cause. Au delà des problèmes -de communication interne à la NASA qui sont pour beaucoup dans ce -fiasco, l'analyse précédente comporte (au moins) un petit -problème... Saurez-vous le trouver ? Vous êtes libre de modifier cette -analyse et de regarder ce jeu de données sous tous les angles afin -d'expliquer ce qui ne va pas. +: Temperature Intercept Frequency +: 0 30.0 1 0.923566 +: 1 30.5 1 0.918258 +: 2 31.0 1 0.912615 +La probabilité qu'un joint défaille à cette température est de $p=0.913$. Sachant qu'il existe un joint primaire un joint secondaire sur chacune des trois parties du lançeur, la probabilité de défaillance des deux joints d'un lançeur est de $p^2 \approx 0.833569$. La probabilité de défaillance d'un des lançeur est donc de $1-(1-p^2)^3 \approx 99.5%$. La catastrophe était certaine. diff --git a/module2/exo5/exo5_python_fr_original.org b/module2/exo5/exo5_python_fr_original.org new file mode 100644 index 0000000000000000000000000000000000000000..afff5e05bdb366128291b42847d9bd44d1f8bf04 --- /dev/null +++ b/module2/exo5/exo5_python_fr_original.org @@ -0,0 +1,222 @@ +#+TITLE: Analyse du risque de défaillance des joints toriques de la navette Challenger +#+AUTHOR: Arnaud Legrand +#+LANGUAGE: fr + +#+HTML_HEAD: +#+HTML_HEAD: +#+HTML_HEAD: +#+HTML_HEAD: +#+HTML_HEAD: +#+HTML_HEAD: + +#+LATEX_HEADER: \usepackage{a4} +#+LATEX_HEADER: \usepackage[french]{babel} + +# #+PROPERTY: header-args :session :exports both + +Le 27 Janvier 1986, veille du décollage de la navette /Challenger/, eu +lieu une télé-conférence de trois heures entre les ingénieurs de la +Morton Thiokol (constructeur d'un des moteurs) et de la NASA. La +discussion portait principalement sur les conséquences de la +température prévue au moment du décollage de 31°F (juste en dessous de +0°C) sur le succès du vol et en particulier sur la performance des +joints toriques utilisés dans les moteurs. En effet, aucun test +n'avait été effectué à cette température. + +L'étude qui suit reprend donc une partie des analyses effectuées cette +nuit là et dont l'objectif était d'évaluer l'influence potentielle de +la température et de la pression à laquelle sont soumis les joints +toriques sur leur probabilité de dysfonctionnement. Pour cela, nous +disposons des résultats des expériences réalisées par les ingénieurs +de la NASA durant les 6 années précédant le lancement de la navette +Challenger. + +* Chargement des données +Nous commençons donc par charger ces données: +#+begin_src python :results value :session *python* :exports both +import numpy as np +import pandas as pd +data = pd.read_csv("shuttle.csv") +data +#+end_src + +#+RESULTS: +#+begin_example + Date Count Temperature Pressure Malfunction +0 4/12/81 6 66 50 0 +1 11/12/81 6 70 50 1 +2 3/22/82 6 69 50 0 +3 11/11/82 6 68 50 0 +4 4/04/83 6 67 50 0 +5 6/18/82 6 72 50 0 +6 8/30/83 6 73 100 0 +7 11/28/83 6 70 100 0 +8 2/03/84 6 57 200 1 +9 4/06/84 6 63 200 1 +10 8/30/84 6 70 200 1 +11 10/05/84 6 78 200 0 +12 11/08/84 6 67 200 0 +13 1/24/85 6 53 200 2 +14 4/12/85 6 67 200 0 +15 4/29/85 6 75 200 0 +16 6/17/85 6 70 200 0 +17 7/29/85 6 81 200 0 +18 8/27/85 6 76 200 0 +19 10/03/85 6 79 200 0 +20 10/30/85 6 75 200 2 +21 11/26/85 6 76 200 0 +22 1/12/86 6 58 200 1 +#+end_example + +Le jeu de données nous indique la date de l'essai, le nombre de joints +toriques mesurés (il y en a 6 sur le lançeur principal), la +température (en Fahrenheit) et la pression (en psi), et enfin le +nombre de dysfonctionnements relevés. + +* Inspection graphique des données +Les vols où aucun incident n'est relevé n'apportant aucune information +sur l'influence de la température ou de la pression sur les +dysfonctionnements, nous nous concentrons sur les expériences où au +moins un joint a été défectueux. + +#+begin_src python :results value :session *python* :exports both +data = data[data.Malfunction>0] +data +#+end_src + +#+RESULTS: +: Date Count Temperature Pressure Malfunction +: 1 11/12/81 6 70 50 1 +: 8 2/03/84 6 57 200 1 +: 9 4/06/84 6 63 200 1 +: 10 8/30/84 6 70 200 1 +: 13 1/24/85 6 53 200 2 +: 20 10/30/85 6 75 200 2 +: 22 1/12/86 6 58 200 1 + +Très bien, nous avons une variabilité de température importante mais +la pression est quasiment toujours égale à 200, ce qui devrait +simplifier l'analyse. + +Comment la fréquence d'échecs varie-t-elle avec la température ? +#+begin_src python :results output file :var matplot_lib_filename="freq_temp_python.png" :exports both :session *python* +import matplotlib.pyplot as plt + +plt.clf() +data["Frequency"]=data.Malfunction/data.Count +data.plot(x="Temperature",y="Frequency",kind="scatter",ylim=[0,1]) +plt.grid(True) + +plt.savefig(matplot_lib_filename) +print(matplot_lib_filename) +#+end_src + +#+RESULTS: +[[file:freq_temp_python.png]] + +À première vue, ce n'est pas flagrant mais bon, essayons quand même +d'estimer l'impact de la température $t$ sur la probabilité de +dysfonctionnements d'un joint. + +* Estimation de l'influence de la température + +Supposons que chacun des 6 joints toriques est endommagé avec la même +probabilité et indépendamment des autres et que cette probabilité ne +dépend que de la température. Si on note $p(t)$ cette probabilité, le +nombre de joints $D$ dysfonctionnant lorsque l'on effectue le vol à +température $t$ suit une loi binomiale de paramètre $n=6$ et +$p=p(t)$. Pour relier $p(t)$ à $t$, on va donc effectuer une +régression logistique. + +#+begin_src python :results value :session *python* :exports both +import statsmodels.api as sm + +data["Success"]=data.Count-data.Malfunction +data["Intercept"]=1 + + +# logit_model=sm.Logit(data["Frequency"],data[["Intercept","Temperature"]]).fit() +logmodel=sm.GLM(data['Frequency'], data[['Intercept','Temperature']], family=sm.families.Binomial(sm.families.links.logit)).fit() + +logmodel.summary() +#+end_src + +#+RESULTS: +#+begin_example + Generalized Linear Model Regression Results +============================================================================== +Dep. Variable: Frequency No. Observations: 7 +Model: GLM Df Residuals: 5 +Model Family: Binomial Df Model: 1 +Link Function: logit Scale: 1.0 +Method: IRLS Log-Likelihood: -3.6370 +Date: Fri, 20 Jul 2018 Deviance: 3.3763 +Time: 16:56:08 Pearson chi2: 0.236 +No. Iterations: 5 +=============================================================================== + coef std err z P>|z| [0.025 0.975] +------------------------------------------------------------------------------- +Intercept -1.3895 7.828 -0.178 0.859 -16.732 13.953 +Temperature 0.0014 0.122 0.012 0.991 -0.238 0.240 +=============================================================================== +#+end_example + +L'estimateur le plus probable du paramètre de température est 0.0014 +et l'erreur standard de cet estimateur est de 0.122, autrement dit on +ne peut pas distinguer d'impact particulier et il faut prendre nos +estimations avec des pincettes. + +* Estimation de la probabilité de dysfonctionnant des joints toriques +La température prévue le jour du décollage est de 31°F. Essayons +d'estimer la probabilité de dysfonctionnement des joints toriques à +cette température à partir du modèle que nous venons de construire: + +#+begin_src python :results output file :var matplot_lib_filename="proba_estimate_python.png" :exports both :session *python* +import matplotlib.pyplot as plt + +data_pred = pd.DataFrame({'Temperature': np.linspace(start=30, stop=90, num=121), 'Intercept': 1}) +data_pred['Frequency'] = logmodel.predict(data_pred[['Intercept','Temperature']]) +data_pred.plot(x="Temperature",y="Frequency",kind="line",ylim=[0,1]) +plt.scatter(x=data["Temperature"],y=data["Frequency"]) +plt.grid(True) + +plt.savefig(matplot_lib_filename) +print(matplot_lib_filename) +#+end_src + +#+RESULTS: +[[file:proba_estimate_python.png]] + +Comme on pouvait s'attendre au vu des données initiales, la +température n'a pas d'impact notable sur la probabilité d'échec des +joints toriques. Elle sera d'environ 0.2, comme dans les essais +précédents où nous il y a eu défaillance d'au moins un joint. Revenons +à l'ensemble des données initiales pour estimer la probabilité de +défaillance d'un joint: + +#+begin_src python :results output :session *python* :exports both +data = pd.read_csv("shuttle.csv") +print(np.sum(data.Malfunction)/np.sum(data.Count)) +#+end_src + +#+RESULTS: +: 0.06521739130434782 + +Cette probabilité est donc d'environ $p=0.065$, sachant qu'il existe +un joint primaire un joint secondaire sur chacune des trois parties du +lançeur, la probabilité de défaillance des deux joints d'un lançeur +est de $p^2 \approx 0.00425$. La probabilité de défaillance d'un des +lançeur est donc de $1-(1-p^2)^3 \approx 1.2%$. Ça serait vraiment +pas de chance... Tout est sous contrôle, le décollage peut donc avoir +lieu demain comme prévu. + +Seulement, le lendemain, la navette Challenger explosera et emportera +avec elle ses sept membres d'équipages. L'opinion publique est +fortement touchée et lors de l'enquête qui suivra, la fiabilité des +joints toriques sera directement mise en cause. Au delà des problèmes +de communication interne à la NASA qui sont pour beaucoup dans ce +fiasco, l'analyse précédente comporte (au moins) un petit +problème... Saurez-vous le trouver ? Vous êtes libre de modifier cette +analyse et de regarder ce jeu de données sous tous les angles afin +d'expliquer ce qui ne va pas. + diff --git a/module2/exo5/freq_temp_python.png b/module2/exo5/freq_temp_python.png index 93cb9e626441d23f6dff59ed252d7b14eb37abdb..79bce59542d6a7912aa0baa3ad644596f47e8014 100644 Binary files a/module2/exo5/freq_temp_python.png and b/module2/exo5/freq_temp_python.png differ diff --git a/module2/exo5/proba_estimate_python.png b/module2/exo5/proba_estimate_python.png index 77fc4b275dd8815b1ab91cd3b67b1beb93e00748..8f0e0d2eba9b59684bcd117c965c6f1203e7c0a9 100644 Binary files a/module2/exo5/proba_estimate_python.png and b/module2/exo5/proba_estimate_python.png differ