diff --git a/module3/exo3/exercice_fr.Rmd b/module3/exo3/exercice_fr.Rmd index 125e4d58a45e1988cc10c3c37d873d1ed9fce251..31270ea2cca2f7f7583d7c4b25aae1c053454404 100644 --- a/module3/exo3/exercice_fr.Rmd +++ b/module3/exo3/exercice_fr.Rmd @@ -21,8 +21,12 @@ Les données sont directement accéssible depuis le [gitlab de la formation](htt Si les données ne sont pas présentent sur l'ordinateur elles sont automatiquement téléchargées ```{r} data_nom = "Subject6_smoking.csv" -data_url = "https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/-/raw/master/module3/Practical_session/Subject6_smoking.csv?inline=false" +git_url = "https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/-/raw/master/" +download_path = "module3/Practical_session/Subject6_smoking.csv?inline=false" +data_url = paste0(git_url, download_path) +``` +```{r} # Le fichier existe ? if(!file.exists(data_nom)) { # préciser method = "auto" sinon une colonne NA est rajoutée @@ -148,17 +152,22 @@ for(i in 1:length(tranches_ages)) non_fumeuses_mortes_ta = intersect(non_fumeuses_mortes, ta) # taux de mortalité fumeuses pour la tranche d'age ta - tmf_ta = length(fumeuses_mortes_ta) / (length(fumeuses_vivantes_ta) + length(fumeuses_mortes_ta)) + nbf_mortes = length(fumeuses_mortes_ta) + nbf = length(fumeuses_vivantes_ta) + length(fumeuses_mortes_ta) + tmf_ta = nbf_mortes / nbf # taux de mortalité non fumeuses pour la tranche d'age ta - tmnf_ta = length(non_fumeuses_mortes_ta) / (length(non_fumeuses_vivantes_ta) + length(non_fumeuses_mortes_ta)) + nbnf_mortes = length(non_fumeuses_mortes_ta) + nbnf = length(non_fumeuses_vivantes_ta) + length(non_fumeuses_mortes_ta) + tmnf_ta = nbnf_mortes / nbnf # -> pour le taux de mortalité # stockage de ces taux tm = c(tm, tmf_ta, tmnf_ta) # stockage des status - # le premier taux était pour les fumeuses de la tranche d'age donnée et le second pour les non fumeuses + # le premier taux était pour les fumeuses de la tranche d'age donnée et le + # second pour les non fumeuses status = c(status, "fumeuses", "non fumeuses") # stockage tranche d'age @@ -171,7 +180,8 @@ for(i in 1:length(tranches_ages)) # data frame pour le taux de mortalité mortalite_tranche_age = NULL -mortalite_tranche_age = data.frame(tm = tm, quantite = nm, status = status, tranches_ages = tas) +mortalite_tranche_age = data.frame(tm = tm, quantite = nm, status = status, + tranches_ages = tas) ``` @@ -218,6 +228,12 @@ data$Death = as.numeric(data$Status == "Dead") ``` ```{r} -glm(data$Death ~ data$Age + data$Smoker) +reg_log = glm(Death ~ Age + Smoker, family = binomial(link = logit), data = data) ``` +```{r} +summary(reg_log) +``` +La régression logistique permet rejeter l'hypothese affirmant que l'âge n'a pas d'effet sur la variable *Death* car la p-value est inférieure à 0.05 (<2e-16). + +Il est cependant impossible de conclure quant à la nocivité du tabagisme étant donnée que la variable *Smoker* n'a pas un effet significatif sur la variable *Death* car la p-value est supérieure à 0.05 (0.0912).