From 0dee8c07db7ad3007457308a5e927f29b26fd08b Mon Sep 17 00:00:00 2001 From: MartinDavy Date: Wed, 15 Dec 2021 00:15:38 +0100 Subject: [PATCH] exercice 3 du module 3 fin --- module3/exo3/exercice_fr.Rmd | 28 ++++++++++++++++++++++------ 1 file changed, 22 insertions(+), 6 deletions(-) diff --git a/module3/exo3/exercice_fr.Rmd b/module3/exo3/exercice_fr.Rmd index 125e4d5..31270ea 100644 --- a/module3/exo3/exercice_fr.Rmd +++ b/module3/exo3/exercice_fr.Rmd @@ -21,8 +21,12 @@ Les données sont directement accéssible depuis le [gitlab de la formation](htt Si les données ne sont pas présentent sur l'ordinateur elles sont automatiquement téléchargées ```{r} data_nom = "Subject6_smoking.csv" -data_url = "https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/-/raw/master/module3/Practical_session/Subject6_smoking.csv?inline=false" +git_url = "https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/-/raw/master/" +download_path = "module3/Practical_session/Subject6_smoking.csv?inline=false" +data_url = paste0(git_url, download_path) +``` +```{r} # Le fichier existe ? if(!file.exists(data_nom)) { # préciser method = "auto" sinon une colonne NA est rajoutée @@ -148,17 +152,22 @@ for(i in 1:length(tranches_ages)) non_fumeuses_mortes_ta = intersect(non_fumeuses_mortes, ta) # taux de mortalité fumeuses pour la tranche d'age ta - tmf_ta = length(fumeuses_mortes_ta) / (length(fumeuses_vivantes_ta) + length(fumeuses_mortes_ta)) + nbf_mortes = length(fumeuses_mortes_ta) + nbf = length(fumeuses_vivantes_ta) + length(fumeuses_mortes_ta) + tmf_ta = nbf_mortes / nbf # taux de mortalité non fumeuses pour la tranche d'age ta - tmnf_ta = length(non_fumeuses_mortes_ta) / (length(non_fumeuses_vivantes_ta) + length(non_fumeuses_mortes_ta)) + nbnf_mortes = length(non_fumeuses_mortes_ta) + nbnf = length(non_fumeuses_vivantes_ta) + length(non_fumeuses_mortes_ta) + tmnf_ta = nbnf_mortes / nbnf # -> pour le taux de mortalité # stockage de ces taux tm = c(tm, tmf_ta, tmnf_ta) # stockage des status - # le premier taux était pour les fumeuses de la tranche d'age donnée et le second pour les non fumeuses + # le premier taux était pour les fumeuses de la tranche d'age donnée et le + # second pour les non fumeuses status = c(status, "fumeuses", "non fumeuses") # stockage tranche d'age @@ -171,7 +180,8 @@ for(i in 1:length(tranches_ages)) # data frame pour le taux de mortalité mortalite_tranche_age = NULL -mortalite_tranche_age = data.frame(tm = tm, quantite = nm, status = status, tranches_ages = tas) +mortalite_tranche_age = data.frame(tm = tm, quantite = nm, status = status, + tranches_ages = tas) ``` @@ -218,6 +228,12 @@ data$Death = as.numeric(data$Status == "Dead") ``` ```{r} -glm(data$Death ~ data$Age + data$Smoker) +reg_log = glm(Death ~ Age + Smoker, family = binomial(link = logit), data = data) ``` +```{r} +summary(reg_log) +``` +La régression logistique permet rejeter l'hypothese affirmant que l'âge n'a pas d'effet sur la variable *Death* car la p-value est inférieure à 0.05 (<2e-16). + +Il est cependant impossible de conclure quant à la nocivité du tabagisme étant donnée que la variable *Smoker* n'a pas un effet significatif sur la variable *Death* car la p-value est supérieure à 0.05 (0.0912). -- 2.18.1