Update code_exo_pair

parent 3886d8b6
---
title: "exo pairs"
author: "Flavie Derouin Tochon"
date: "16 avril 2020"
output: html_document
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
## Orignes des données ## Orignes des données
[Extrait du Sujet 6: Autour du Paradoxe de Simpson](https://www.fun-mooc.fr/courses/course-v1:inria+41016+self-paced/courseware/5b932aa591d245d48d8943385cb3120a/57c96f2c7f7b42018eaac3e6b34546f4/) [Extrait du Sujet 6: Autour du Paradoxe de Simpson](https://www.fun-mooc.fr/courses/course-v1:inria+41016+self-paced/courseware/5b932aa591d245d48d8943385cb3120a/57c96f2c7f7b42018eaac3e6b34546f4/)
...@@ -63,7 +73,7 @@ Nous pouvons donc commencer à répondre au question de l'excercice. ...@@ -63,7 +73,7 @@ Nous pouvons donc commencer à répondre au question de l'excercice.
## Question 1 ## Question 1
### Enoncé ### Enoncé
Représentez dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe). Vous pourrez proposer une représentation graphique de ces données. En quoi ce résultat est-il surprenant ? Représentez dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe). Vous pourrez proposer une représentation graphique de ces données et calculer les intervalles de confiance. En quoi ce résultat est-il surprenant ?
### Résolusion de la question 1 ### Résolusion de la question 1
####Tableau du nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme ####Tableau du nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme
...@@ -84,42 +94,76 @@ $mortalité = Ndécédée / (Nvivante + Ndécédée)$ ...@@ -84,42 +94,76 @@ $mortalité = Ndécédée / (Nvivante + Ndécédée)$
N = nombre de femme du groupe répondant au statu mentionné (décédée ou vivante) N = nombre de femme du groupe répondant au statu mentionné (décédée ou vivante)
On retrouve ces différents effectifs dans notre table de contigence. Pour obtenir ces taux de mortalité, nous allons calculer les pourcentage globaux pour la table de contingence précédemment créer en fonction de l'habitude de tabagisme
__Calcul pour le groupe fumeuses__
```{r}
# Calcul du taux de mortalité chez les fumeuses
morta_fumeuse= 139/(443+139)
morta_fumeuse
# Expression en pourcentage
P_morta_fumeuse = morta_fumeuse * 100
P_morta_fumeuse
```
__Calcul pour le groupe fumeuses__
```{r} ```{r}
# Calcul du taux de mortalité chez les fumeuses prop_statut= prop.table(statut,2)
morta_non_fumeuse= 230/(502+230) prop_statut
morta_non_fumeuse
# Expression en pourcentage
P_morta_non_fumeuse = morta_non_fumeuse * 100
P_morta_non_fumeuse
``` ```
L'argument 2 nous permet de specifier que nous souhaitons obtenir un calcul des fréquences en fonction des colonnes.
Les colonnes correspondant à l'habitude de tabagisme, c'est ce que nous recherchons
__Conclusion__
__Le taux de mortalité chez les non fumeuses est de 31.4%__
__Le taux de motalité chez les fumeuse est de 23.9%__
####Représentation graphique des données ####Représentation graphique des données
Ici on choisit de visualisé les taux de moratalité en fonction de l'habitude de tabagisme à l'aide d'un graphique en barre
Pour représenter graphiquement le statut d'une personne en fonction du son habitude de tabagisme on choisit de faire un diagramme en bâton car ces deux variable sont de nature qualitative.
On peut choisir d'abord de représenter strictement les nombre contenut dans la table de contigence nommé `statut`
```{r} ```{r}
barplot(statut, col=c("lightblue", "lavender"), legend.text = c("alive","dead"), ylim = c(0,800), ylab="effectif", xlab="habitude de tabagisme", main="statut des femme en fonction de leur habitude de tabagisme") graph <- barplot(prop_statut[2,], axes=FALSE, ann=FALSE, col="lavender",
ylim=c(0,1), names=c("Non fumeuse","Fumeuse"), xpd=FALSE)
abline(h=0)
axis(2)
title(xlab="Habitude de Tabagisme", ylab="Taux de mortalité", main="Taux de mortalité en fonction de l'habitude de tabagisme")
``` ```
Mais cette représentation n'est pas la plus adapté pour mettre en avant les diffrences de `status` en fonction de l'habitude de tabagisme.
Pour avoir une meilleure vision des différences on décide de réprésenté sur l'axe des ordonnées une proportion plutôt qu'un effectif.
On réalise ceci en convertisant notre table de contigence précédement crée en table de proportion grace à la fontion prop.table #### Calculs des intervalles de confiances (IC)
On commence par récupérer le nombre d'observations pour les femmes non fumeuse pour tous les status
```{r}
nb.No <- as.vector(statut[,1])
```
On fait de même pour les fumeuses
```{r}
nb.Yes <- as.vector(statut[,2])
```
On récupère ensuite le nombre total d'observation en fonction des habitude de tabagisme
```{r}
#Pour les non fumeuses
nbT.No<-sum(nb.No)
#Pour les fumeuse
nbT.Yes<-sum(nb.Yes)
```
On calcule nos IC grace à la fonction `binom.confit` associé au package `binom`. On cherche donc le package `binom`
```{r} ```{r}
barplot(prop.table(statut,2), col=c("lightblue", "lavender"), legend.text = c("alive","dead"), ylim = c(0,1), ylab="Proportion", xlab="habitude de tabagisme", main="statut des femme en fonction de leur habitude de tabagisme") library(binom)
```
Calculs des IC pour les non fumeuses
```{r}
df.No <- binom.confint(nb.No, nbT.No, conf.level=0.95, methods="prop.test")
rownames(df.No) <- paste("No", rownames(statut), sep="__")
df.No
```
__Conclusion__
__ On retrouve bien un taux moyen de mortalité = 0.314__
__IC pour le taux de mortalité des non fumeuse = [0.280;0.349]__
Calculs des IC pour les fumeuses
```{r}
df.Yes <- binom.confint(nb.Yes, nbT.Yes, conf.level=0.95, methods="prop.test")
rownames(df.Yes) <- paste("Yes", rownames(statut), sep="__")
df.Yes
```
__Conclusion__
__ On retrouve bien un taux moyen de mortalité = 0.2388__
__IC pour le taux de mortalité des non fumeuse = [0.205;0.276]__
#### En quoi ce résultat est-il surprenant ? #### En quoi ce résultat est-il surprenant ?
...@@ -191,3 +235,73 @@ levels(rename_class_age)[c(1)]<-"18-34" ...@@ -191,3 +235,73 @@ levels(rename_class_age)[c(1)]<-"18-34"
levels(rename_class_age) levels(rename_class_age)
data$class_age<-rename_class_age data$class_age<-rename_class_age
``` ```
On vérifie que le renommage c'est bien passé en regardant les niveaux des facteurs de la variable class_age
```{r}
levels(data$class_age)
```
Tout c'est bien passé
#### Intégration de la varible au tableau précédent status en fonction de l'habitude de tabagisme.
```{r}
table_age<-table(data$class_age,data$Statut,data$Smoke)
```
#### Représentation graphique
Pour faire nos graphiques nous allons faire appelle à la library `GrapheR`.
GrapheR est une interface utilisateur multiplateforme (Linux, Mac OS, Windows) permettant de réaliser des graphes hautement paramétrables sous R.(plus de détails: [Introduction à GrapheR](http://www2.uaem.mx/r-mirror/web/packages/GrapheR/vignettes/manual_fr.pdf))
```{r}
library(GrapheR)
run.GrapheR()
```
GrapheR crée des graphique en fonction des choix fait dans son interface. Nous choisissons de créer un graphique en barre pour représenter le taux de mortalité en fonction de l'habitude de tabagisme. Les lignes de Code suivante correspondent au code sorie par `GrapheR` qu'il est possible de sauvegarder.
## Question 3
### Enoncé
Afin d'éviter un biais induit par des regroupements en tranches d'âges arbitraires et non régulières, il est envisageable d'essayer de réaliser une régression logistique. Si on introduit une variable Death valant 1 ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans, on peut étudier le modèle Death ~ Age pour étudier la probabilité de décès en fonction de l'âge selon que l'on considère le groupe des fumeuses ou des non fumeuses. Ces régressions vous permettent-elles de conclure sur la nocivité du tabagisme ? Vous pourrez proposer une représentation graphique de ces régressions (en n'omettant pas les régions de confiance).
### Réponse à la question 3
#### Conversion de la variable statut en binaire
__ Conversion de la variable qualitative `Statut`en variable binaire: `Death`__
Nous allons commencer par recoder la variable `Statut` comme une variable binomiale que nous allons nommée `Death` que nous réutiliserons dans la suite de cet exercice.
Nous allons coder de la façon suivante les catérogies de la variable `Statut`:
Alive = 0
Dead = 1
`Death`sera donc une variable binaire (0 ou 1) et sera considérer comme une variable numérique
1. Transformation de la variable qualitative `Statut` en variable binaire `Death`
Pour effectuer cette transformation nous allons utiliser le package `dplyr` qui contient une la fontion `mutate`
```{r}
library(dplyr)
```
```{r}
convert_Status = function(s) {
if ("Alive"==TRUE){
ws=0
}else{
ws=1
}
}
```
```{r}
data$Death = convert_Status(data$Status)
```
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment