From c1dd93261439c736ea76afabb8c7d192c6dc2cc7 Mon Sep 17 00:00:00 2001 From: 47767d2a587c747cf2e3103fd9d45027 <47767d2a587c747cf2e3103fd9d45027@app-learninglab.inria.fr> Date: Fri, 17 Apr 2020 11:21:02 +0000 Subject: [PATCH] Update code_exo_pair --- .../code_exo_pair" | 166 +++++++++++++++--- 1 file changed, 140 insertions(+), 26 deletions(-) diff --git "a/Exercice \303\251valuer par les pairs/code_exo_pair" "b/Exercice \303\251valuer par les pairs/code_exo_pair" index 082ee90..24606f0 100644 --- "a/Exercice \303\251valuer par les pairs/code_exo_pair" +++ "b/Exercice \303\251valuer par les pairs/code_exo_pair" @@ -1,3 +1,13 @@ +--- +title: "exo pairs" +author: "Flavie Derouin Tochon" +date: "16 avril 2020" +output: html_document +--- + +```{r setup, include=FALSE} +knitr::opts_chunk$set(echo = TRUE) +``` ## Orignes des données [Extrait du Sujet 6: Autour du Paradoxe de Simpson](https://www.fun-mooc.fr/courses/course-v1:inria+41016+self-paced/courseware/5b932aa591d245d48d8943385cb3120a/57c96f2c7f7b42018eaac3e6b34546f4/) @@ -63,7 +73,7 @@ Nous pouvons donc commencer à répondre au question de l'excercice. ## Question 1 ### Enoncé -Représentez dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe). Vous pourrez proposer une représentation graphique de ces données. En quoi ce résultat est-il surprenant ? +Représentez dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe). Vous pourrez proposer une représentation graphique de ces données et calculer les intervalles de confiance. En quoi ce résultat est-il surprenant ? ### Résolusion de la question 1 ####Tableau du nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme @@ -84,42 +94,76 @@ $mortalité = Ndécédée / (Nvivante + Ndécédée)$ N = nombre de femme du groupe répondant au statu mentionné (décédée ou vivante) -On retrouve ces différents effectifs dans notre table de contigence. - -__Calcul pour le groupe fumeuses__ -```{r} -# Calcul du taux de mortalité chez les fumeuses -morta_fumeuse= 139/(443+139) -morta_fumeuse -# Expression en pourcentage -P_morta_fumeuse = morta_fumeuse * 100 -P_morta_fumeuse -``` -__Calcul pour le groupe fumeuses__ +Pour obtenir ces taux de mortalité, nous allons calculer les pourcentage globaux pour la table de contingence précédemment créer en fonction de l'habitude de tabagisme ```{r} -# Calcul du taux de mortalité chez les fumeuses -morta_non_fumeuse= 230/(502+230) -morta_non_fumeuse -# Expression en pourcentage -P_morta_non_fumeuse = morta_non_fumeuse * 100 -P_morta_non_fumeuse +prop_statut= prop.table(statut,2) +prop_statut ``` +L'argument 2 nous permet de specifier que nous souhaitons obtenir un calcul des fréquences en fonction des colonnes. +Les colonnes correspondant à l'habitude de tabagisme, c'est ce que nous recherchons + +__Conclusion__ +__Le taux de mortalité chez les non fumeuses est de 31.4%__ +__Le taux de motalité chez les fumeuse est de 23.9%__ + ####Représentation graphique des données +Ici on choisit de visualisé les taux de moratalité en fonction de l'habitude de tabagisme à l'aide d'un graphique en barre -Pour représenter graphiquement le statut d'une personne en fonction du son habitude de tabagisme on choisit de faire un diagramme en bâton car ces deux variable sont de nature qualitative. -On peut choisir d'abord de représenter strictement les nombre contenut dans la table de contigence nommé `statut` ```{r} -barplot(statut, col=c("lightblue", "lavender"), legend.text = c("alive","dead"), ylim = c(0,800), ylab="effectif", xlab="habitude de tabagisme", main="statut des femme en fonction de leur habitude de tabagisme") +graph <- barplot(prop_statut[2,], axes=FALSE, ann=FALSE, col="lavender", + ylim=c(0,1), names=c("Non fumeuse","Fumeuse"), xpd=FALSE) + +abline(h=0) +axis(2) + +title(xlab="Habitude de Tabagisme", ylab="Taux de mortalité", main="Taux de mortalité en fonction de l'habitude de tabagisme") + + ``` -Mais cette représentation n'est pas la plus adapté pour mettre en avant les diffrences de `status` en fonction de l'habitude de tabagisme. -Pour avoir une meilleure vision des différences on décide de réprésenté sur l'axe des ordonnées une proportion plutôt qu'un effectif. -On réalise ceci en convertisant notre table de contigence précédement crée en table de proportion grace à la fontion prop.table +#### Calculs des intervalles de confiances (IC) +On commence par récupérer le nombre d'observations pour les femmes non fumeuse pour tous les status +```{r} +nb.No <- as.vector(statut[,1]) +``` +On fait de même pour les fumeuses +```{r} +nb.Yes <- as.vector(statut[,2]) +``` +On récupère ensuite le nombre total d'observation en fonction des habitude de tabagisme +```{r} +#Pour les non fumeuses +nbT.No<-sum(nb.No) +#Pour les fumeuse +nbT.Yes<-sum(nb.Yes) +``` +On calcule nos IC grace à la fonction `binom.confit` associé au package `binom`. On cherche donc le package `binom` ```{r} -barplot(prop.table(statut,2), col=c("lightblue", "lavender"), legend.text = c("alive","dead"), ylim = c(0,1), ylab="Proportion", xlab="habitude de tabagisme", main="statut des femme en fonction de leur habitude de tabagisme") +library(binom) +``` + +Calculs des IC pour les non fumeuses +```{r} +df.No <- binom.confint(nb.No, nbT.No, conf.level=0.95, methods="prop.test") + rownames(df.No) <- paste("No", rownames(statut), sep="__") +df.No +``` +__Conclusion__ +__ On retrouve bien un taux moyen de mortalité = 0.314__ +__IC pour le taux de mortalité des non fumeuse = [0.280;0.349]__ + +Calculs des IC pour les fumeuses +```{r} +df.Yes <- binom.confint(nb.Yes, nbT.Yes, conf.level=0.95, methods="prop.test") + rownames(df.Yes) <- paste("Yes", rownames(statut), sep="__") +df.Yes +``` +__Conclusion__ +__ On retrouve bien un taux moyen de mortalité = 0.2388__ +__IC pour le taux de mortalité des non fumeuse = [0.205;0.276]__ #### En quoi ce résultat est-il surprenant ? @@ -191,3 +235,73 @@ levels(rename_class_age)[c(1)]<-"18-34" levels(rename_class_age) data$class_age<-rename_class_age ``` +On vérifie que le renommage c'est bien passé en regardant les niveaux des facteurs de la variable class_age +```{r} +levels(data$class_age) +``` +Tout c'est bien passé + +#### Intégration de la varible au tableau précédent status en fonction de l'habitude de tabagisme. +```{r} +table_age<-table(data$class_age,data$Statut,data$Smoke) +``` + + +#### Représentation graphique + +Pour faire nos graphiques nous allons faire appelle à la library `GrapheR`. + +GrapheR est une interface utilisateur multiplateforme (Linux, Mac OS, Windows) permettant de réaliser des graphes hautement paramétrables sous R.(plus de détails: [Introduction à GrapheR](http://www2.uaem.mx/r-mirror/web/packages/GrapheR/vignettes/manual_fr.pdf)) + +```{r} +library(GrapheR) +run.GrapheR() +``` + +GrapheR crée des graphique en fonction des choix fait dans son interface. Nous choisissons de créer un graphique en barre pour représenter le taux de mortalité en fonction de l'habitude de tabagisme. Les lignes de Code suivante correspondent au code sorie par `GrapheR` qu'il est possible de sauvegarder. + + +## Question 3 +### Enoncé +Afin d'éviter un biais induit par des regroupements en tranches d'âges arbitraires et non régulières, il est envisageable d'essayer de réaliser une régression logistique. Si on introduit une variable Death valant 1 ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans, on peut étudier le modèle Death ~ Age pour étudier la probabilité de décès en fonction de l'âge selon que l'on considère le groupe des fumeuses ou des non fumeuses. Ces régressions vous permettent-elles de conclure sur la nocivité du tabagisme ? Vous pourrez proposer une représentation graphique de ces régressions (en n'omettant pas les régions de confiance). + +### Réponse à la question 3 +#### Conversion de la variable statut en binaire +__ Conversion de la variable qualitative `Statut`en variable binaire: `Death`__ + +Nous allons commencer par recoder la variable `Statut` comme une variable binomiale que nous allons nommée `Death` que nous réutiliserons dans la suite de cet exercice. + +Nous allons coder de la façon suivante les catérogies de la variable `Statut`: + +Alive = 0 + +Dead = 1 + +`Death`sera donc une variable binaire (0 ou 1) et sera considérer comme une variable numérique + + + +1. Transformation de la variable qualitative `Statut` en variable binaire `Death` +Pour effectuer cette transformation nous allons utiliser le package `dplyr` qui contient une la fontion `mutate` +```{r} +library(dplyr) +``` + + +```{r} +convert_Status = function(s) { + if ("Alive"==TRUE){ + + ws=0 + +}else{ + + ws=1 + +} +} +``` +```{r} +data$Death = convert_Status(data$Status) +``` + -- 2.18.1