Le taux de mortalité chez le groupe "Non-fumeuse" est de 0.3142077 et est bien compris entre l'intervalle de confiance [0.2807031;0.3492176].
## En quoi ce résultat est-il surprenant ?
Ce résultat est surprenant car je m'attendais à ce que le taux de mortalité soit plus élevé chez le groupe "fumeuse" par rapport au groupe "non-fumeuse". Dans ce cas-là c'est l'inverse.
# Question 2
## Sélection des données
### Transformation de la variable "Age" en données numériques
Ceci est un document R markdown que vous pouvez aisément exporter au format HTML, PDF, et MS Word. Pour plus de détails sur R Markdown consultez <http://rmarkdown.rstudio.com>.
### Résumé des données des fumeuses
Lorsque vous cliquerez sur le bouton **Knit** ce document sera compilé afin de ré-exécuter le code R et d'inclure les résultats dans un document final. Comme nous vous l'avons montré dans la vidéo, on inclue du code R de la façon suivante:
```{r}
summary(smoker)
```{r cars}
summary(cars)
```
```
Et on peut aussi aisément inclure des figures. Par exemple:
### Résumé des données des personnes non-fumeuses
```{r pressure, echo=FALSE}
```{r}
plot(pressure)
summary(nosmoker)
```
```
Vous remarquerez le paramètre `echo = FALSE` qui indique que le code ne doit pas apparaître dans la version finale du document. Nous vous recommandons dans le cadre de ce MOOC de ne pas utiliser ce paramètre car l'objectif est que vos analyses de données soient parfaitement transparentes pour être reproductibles.
## Calcul du taux de mortalité
### Assignation du taux (en % arrondi au centième) de mortalité chez le groupe des personnes fumeuses en fonction de chaque classe d'âge
colnames(Tx.mortalite) <- c("Pourcentage de mortalité chez les fumeuses","Nombre de fumeuses","Pourcentage de mortalité chez les non-fumeuses","Nombre de non-fumeuses")
Tx.mortalite#Affichage tableau
```
## En quoi ce résultat est-il surprenant ?
Ce résultat est surprenant car je m'attendais à ce que les taux de mortalités chez les fumeuses soient plus fort par rapport au groupe non-fumeuse à chaque classe d'âge. Ici, c'est l'inverse. Cependant on remarque une disproportion de l'échantillon en fonction de la classe d'âge. En effet, la mortalité augmente avec l'âge, et il y a moins de personnes âgées dans le groupe "fumeuses" (49). Nous pouvons nous demander si le biais de la mortalité "naturelle" ne permet pas dans ce cas là, d'observer l'effet du tabagisme sur la mortalité des femmes fumeuses. Les deux groupes auraient dû avoir le même nombre de personnes.
## Représentation graphique des effectifs
```{r}
barplot(table(smoker$X.Status.,smoker$X.Age.),
main = "Nombre de personne en vie/décédé en fonction de sa classe \n d'âge chez les personnes fumeuses",
beside= TRUE,
xlab = "Classe d'âge", ylab = "Nombre de personne", legend.text = c("Alive","Dead"), col = c("white", "black"))
main = "Nombre de personne en vie/décédé en fonction de sa classe \n d'âge chez les personnes non-fumeuses",
beside= TRUE,
xlab = "Classe d'âge",ylab = "Nombre de personne",legend.text =c("Alive","Dead"),col=c("white","black"))
```
Dans le premier tableau, nous observons une proportion de personnes fumeuses plus grande pour les classes d'âges plus jeune ([18,34],(34,54])) et qui sont moins à risque de mortalité.
A l'inverse dans le deuxième tableau la forte proportion de personnes non-fumeuses dans la dernière classe d'âge (64,99] permet d'observer une mortalité beaucoup plus grande.
# Question 3
## Gestion des données
```{r include=FALSE}
smp <- read.csv2("C:/Users/Maxime Leharanger/Desktop/ED 585/Mooc Recherche reproductible principes méthodologiques pour une science transparente/Subject6_smoking.csv")
L'âge chez les personnes fumeuses sont statistiquement associés à la mortalité (<2e-16 ***). Lorsque l'âge augmente de 1 chez les fumeurs, le niveau de mortalité augmente de plus 8%.
```{r}
x =smoker$AGE
y = as.numeric(as.character(smoker$DEATH))
#Convertion de la variable "DEATH" en variable numérique
COEFF= coef(reg.smoker)
#Assignation des coefficients de la régression logistique
L'âge chez les personnes non-fumeuses sont statistiquement associés à la mortalité (<2e-16 ***). Lorsque l'âge augmente de 1 chez les non-fumeurs, le niveau de mortalité augmente plus de 10%.
## Ces régressions vous permettent-elles de conclure sur la nocivité du tabagisme ?
Ces régressions ne permettent pas de conclure sur la nocivité du tabagisme. En effet, ces régressions permettent de quantifier le lien entre la variable "DEATH" et la variable "AGE", c'est à dire que plus les sujets sont agés plus le niveau de mortalité augmente.
Pour étudier l'effet du tabagisme sur la mortalité, il faut prendre en compte l'effet de l'âge sur le taux de mortalité. La disproportion des classes d'âge entraine un biais d'interprétation qui ne permet pas de conclure sur l'effet du tabagisme sur la mortalité.
Comme les résultats ne sont pas stockés dans les fichiers Rmd, pour faciliter la relecture de vos analyses par d'autres personnes, vous aurez donc intérêt à générer un HTML ou un PDF et à le commiter.
Maintenant, à vous de jouer! Vous pouvez effacer toutes ces informations et les remplacer par votre document computationnel.