dernière version

169b625c · 6ko_31 · 2319fc15 · 169b625c
Commit 169b625c authored Dec 15, 2021 by 6ko_31
Show whitespace changes
Inline Side-by-side

Showing with 1 addition and 80 deletions

exo5_fr.Rmd module2/exo5/exo5_fr.Rmd +1 -80

No files found.
--- a/module2/exo5/exo5_fr.Rmd
+++ b/module2/exo5/exo5_fr.Rmd
@@ -122,82 +122,3 @@ fiasco, l'analyse précédente comporte (au moins) un petit
 problème... Saurez-vous le trouver ? Vous êtes libre de modifier cette
 analyse et de regarder ce jeu de données sous tous les angles afin
 d'expliquer ce qui ne va pas.
-#### 
-# CORRECTION PERSONNELLE
-On va essayer de refaire l'analyse avec les éléments qui nous semblent "légers"
-:
-\- la disparition des données de malfonctions jugées inutiles, qui vont réduire
-mécaniquement l’incertitude et biaisé la prise de décision
-\- la sortie arbitraire du facteur pression dans la regression logistique
-\- ou alternativement (1), tenter de réduire la difficulté d’analyse des
-résultats de la régression par une approche plus conservatrice consistant à
-détecter toute malfonction comme la survenue d’un évènement à éviter, à partir
-du recodage de la variable en une variable binaire/booléenne 0/1 pure (=\>1 pour
-la moindre malfonction de joint) =\> permettrait d’avoir **exp(coefficient
-regression log) = odds-ratio qui associe la variable explicative à la variable
-expliquée**)
-## Chargement et visualisation du dataset
-On commence de la même façon par le chargement des données /création du dataset de travail, mais nous ne retirons pas les données jugées valables arbitrairement. Nous conservons toutes les données de disfonctionnement des joints. Cela augmente la taille de l'échantillon et devrait réduire l'incertitude générale. 
-On les affiches ensuite
-```{r}
-data_f = read.csv("shuttle.csv",header=T)
-data_f
-```
-On poursuit pour l'instant la même procédure d'analyse.
-On va donc représenter les variations de dysfonctionnement des joints avec la température, sur les données non-tromquées
-```{r}
-plot(data=data_f, Malfunction/Count ~ Temperature, ylim=c(0,1))
-```
-C'est pas super évident, mais il semble malgré tout que la température "réduit" les dysfonctionnement. 
-Ce qui est visible en revanche, si on essaie d'agrandir les échelles, c'est que nous n'avons qu'une plage très ressérées d'observations, représentant des évènements de températures assez hohmogènes
- ```{r}
- plot(data=data_f, Malfunction/Count~Temperature, xlim=c(30, 90), ylim=c(0,1))
- ```
- ## Estimation de l'impact de la température
- Parce que nous allons procéder à des comparaison de résultats, nous refaisons les regressions avec les donnés complètes et tronquées, en nommant les modèles.
- Nous commençons par le modèle complet
- ```{r}
-logistic_reg1 = glm(data=data_f, Malfunction/Count ~ Temperature, weights=Count, 
-                   family=binomial(link='logit'))
-summary(logistic_reg1)
-```
-**La température est devenue significative !**
-L'analyse des coefficients restent cependant toujours compliqués (pas une véritable variable binaire qui permettrait d'avoir des odds-ratios par exponentielle des coefficients), bien que le signe de trompe pas : relation négative. Donc, plus la température monte, plus la proportion de défaillance des joints toriques baisse.
-##### Essai twoby et Epi
-Juste pour le fun
-```{r}
-library(Epi)
-malf_c <- (data_f$Malfunction/data_f$Count)
-twoby2(1-malf_c, 1-data_f$Temperature)
-```
-Ben ça marche pas, pas des variables binaires... :-)
-```{r}
-exp(-0.11560)
-```
-Envrion 0.9... Cela caractérise bien la perte de proba à mesure que la température augmente (et inversement, 1,15 pour si la température chute)
-### Prédiction/Estimation de la probabilité de dysfonctionnant des joints toriques
-On reprend le code proposé en modifiant les variables de calcul
-```{r}
-tempv = seq(from=30, to=90, by = .5)
-rmv <- predict(logistic_reg1,list(Temperature=tempv),type="response")
-plot(tempv,rmv,type="l",ylim=c(0,1))
-points(data=data_f, Malfunction/Count ~ Temperature)
-```
-Là, cela devient évident! Avec des température de 30 degré farenheit, le risque de défaillance est très grand ! Nous pourrions nous en tenir là, et estimer les defauts par l'absence d'un dataset complet...