title: "Document computationnel évalué par des pairs"
author: "Bertille MATRAY"
date: "15 septembre 2020"
output: pdf_document
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
## **Sujet 6: Autour du Paradoxe de Simpson**
# Chargement des données
Les données de l'exercice sont disponibles sur gitlab [ici](https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/blob/master/module3/Practical_session/Subject6_smoking.csv). J'ai moi-même charger les données le 15/09/2020. Le séparateur utilisé est la virgule, l'âge des femmes est
# Mission 2 : Prendre en compte les classes d'âge dans l'analyse
Nous considérons les classes 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans. 18 est bien l'âge minimum donc on a bien toutes les femmes de l'étude.
```{r}
tot_18_34=sum(data$Age<=34)
tot_34_54=sum(data$Age<=54 & data$Age>34)
tot_54_65=sum(data$Age<=65 & data$Age>54)
tot_65_=sum(data$Age>65)
tot_18_34
tot_34_54
tot_54_65
tot_65_
```
Il nous faut une fonction qui indique la classe d'age, appelée génération, lorsqu'on doit un âge précis en entrée.
```{r}
convert_Age=function(w){
generation=0
if(w<=34){
generation=as.character("18-34")
}
if(w>34){
if(w<=54){
generation=as.character("34-54")
}
}
if(w>54){
if(w<=65)
generation=as.character("55-65")
}
if (w>65){
generation=as.character("65+")
}
return (generation)
}
```
Ensuite on applique cette fonction aux données. On crée d'abord une colonne de 1314 lignes vides, on l'ajoute au tableau de données data. Enfin on la remplit avec la classe d'âge ligne par ligne.
```{r}
Generation=rep("",1314)
data<-cbind(data,Generation)
for (i in (1:1314)){
data$Generation[i]=convert_Age(data$Age[i])
}
```
Revenons au lien entre le tabagisme, l'âge et la mortalité.
Si on regarde d'abord la mortalité selon la classe d'âge dns notre jeu de données:
Comme on pouvait s'y attendre, la mortalité croit avec l'âge.
Je cherche à expliquer le résultat de la 1ère partie, à savoir que la mortalité des non fumeuses a été plus élevée que celle des fumeuse, par la distribution des fumeuses dans les classes d'âge:
Les fumeuses sont peu représentées dans le groupe 65 ans et plus, en comparaison des autres classes d'âge. Les classes d'âge entre 18 et 65 ans contiennent plus de 40% de fumeuses. Et nous avons vu sur le graphique précédent que ces classes n'étaient pas soumises à des mortalités plus élevées.
Jusqu'ici les données ne participent pas à montrer que le tabagisme augmente la mortalité.
# Mission 3 : Régression logistique
On souhaite s'affranchir des classes d'âges qui sont construites arbitrairement et peuvent générer un biais. Pour cela on utilise la regression logistique.
Pour commencer, on introduit une variable Death valant 1 ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans. On ajoute cette colonne Death au tableau data
```{r}
Death=rep(0, 1314)
for (i in (1:1314)){
if (data$Status[i]=="Dead"){
Death[i]=as.numeric(1)
}
}
data<-cbind(data,Death)
```
Le modèle demandé par la consigne est Death ~ Age appliqué d'une part aux fumeuses et d'autre part aux non-fumeuses. Je commence par séparer les fumeuses des non fumeuses.
Le risque de decès est significativement plus fort si l'âge augmente. Le risque de décès est également significativement plus fort si la personne fume mais le facteur Smoker est bien moins significatif que l'âge.
## Merci
Manquant de temps, je poste ce travail sans aller plus loin (ceci m'ayant déjà pris des années vu mon niveau de code). Merci de m'avoir lu, bonne continuation à vous.