diff --git a/module3/exo3/exercice_fr.Rmd b/module3/exo3/exercice_fr.Rmd index 7eece5e296bb586e88166aa8a263ca75b44c2b9e..cdcb87bc228fff099c6fba748326481d43a07b49 100644 --- a/module3/exo3/exercice_fr.Rmd +++ b/module3/exo3/exercice_fr.Rmd @@ -1,33 +1,347 @@ --- -title: "Votre titre" -author: "Votre nom" -date: "La date du jour" +title: "Autour du Paradoxe de Simpson" +author: "C-P" +date: "11/30/2022" output: html_document --- -```{r setup, include=FALSE} -knitr::opts_chunk$set(echo = TRUE) +
+ +### *Importer les données* + + +```{r} +a<-read.csv(file='/Users/camille/Downloads/Subject6_smoking.csv',header=TRUE,sep=',') +head(a) +``` + +
+ +## **Table des matières** + +``` +1- Contexte + +2- Question 1 + - Calcul du taux de mortalité + - Représentation graphique du taux de mortalité chez les femmes fumeuses et non fumeuses + +3- Question 2 + - Taux de mortalité chez les 18-34 ans + - Taux de mortalité chez les 35-54 ans + - Taux de mortalité chez les 55-64 ans + - Taux de mortalité chez les plus de 65 ans + - Représentation graphique du taux de mortalité en fonction des différentes classes d’âges + +4- Question 3 + +``` +
+ +## **Contexte** + +``` +Deux études ont été réalisées à 20 ans d'intervalle dans le but de comparer le taux de mortalité des femmes +fumeuses et des femmes non fumeuses. + +Ici, nous nous intéressons à 1314 femmes qui ont participé à ces études et qui ont été catégorisées en 2 groupes : +"fumeuses" et "non fumeuses", en fonction de leur état (en vie / décédé) et de leur âge. +``` + +
+
+ +## **Question 1** + +
+ +
*Représentez dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe). Vous pourrez proposer une représentation graphique de ces données. En quoi ce résultat est-il surprenant ?* + +
+ +```{r} +a$Smoker<-as.factor(a$Smoker) +a$Status<-as.factor(a$Status) + +b<-table(a$Smoker,a$Status) +addmargins(b) + +``` + +``` +Tableau représentant le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme + +D'après ce tableau : + +- 732 femmes appartiennent au groupe "non fumeuses". Et parmi ces 732 femmes non fumeuses, 230 sont décédées. + +- 582 femmes appartiennent au groupe "fumeuses". Et parmi ces 582 femmes fumeuses, 139 sont décédées. +``` + +
+ +### *Calcul du taux de mortalité* + +
+ +```{r} +mortnofum<-b[1,2]/(b[1,1]+b[1,2])*100 +mortnofum + +mortfum<-b[2,2]/(b[2,1]+b[2,2])*100 +mortfum + +``` + +``` +Le taux de mortalité chez les femmes non fumeuses est égal à environ 31 %. +Le taux de mortalité chez les femmes fumeuses est égal à environ 24 %. + +Le taux de mortalité des femmes non fumeuses est plus élevé que le taux de mortalité des femmes fumeuses. +``` +```{r} + +t1<-data.frame(a$Smoker,a$Status) +head(t1) +``` +
+ +### *Représentation graphique du taux de mortalité chez les femmes fumeuses et non fumeuses* + +
+ +```{r} +barplot(c(mortnofum,mortfum),ylim = c(0,100),names.arg = c("non fumeuse","fumeuse"),ylab = "taux de mortalité",main="Taux de mortalité chez les femmes fumeuses et non fumeuses",las=1, col=c("blue4","magenta")) +``` + +
+
+ +## **Question 2** + +
+ +
*Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera par exemple les classes suivantes : 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans. En quoi ce résultat est-il surprenant ? Arrivez-vous à expliquer ce paradoxe ? De même, vous pourrez proposer une représentation graphique de ces données pour étayer vos explications.* + +
+ +```{r} +a$age20<-cut(a$Age,c(18,34,54,64,95),include.lowest=TRUE, labels=c("18-34ans","35-54ans","55-64ans",">65ans")) + +table(a$age20) + +t2<-data.frame(t1,a$age20) +head(t2) + +summary(a) + +``` + +``` +Ici, les femmes "fumeuses" et "non fumeuses" ont été classés en fonction de l'âge et de leur état (en vie / décédé). + +On retrouve 4 tranches d'âges : 18-34 ans, 35-54 ans, 55-64 ans et > 65 ans. +``` + +
+ + +### *Taux de mortalité chez les 18-34 ans* + +
+ +```{r} +age18_34<-t2[t2$a.age20=="18-34ans",] +head(age18_34) + +age18_34ta<-table(age18_34$a.Smoker,age18_34$a.Status) +age18_34ta + +mortnofum18_34<-age18_34ta[1,2]/(age18_34ta[1,1]+age18_34ta[1,2])*100 +mortnofum18_34 + +mortfum18_34<-age18_34ta[2,2]/(age18_34ta[2,1]+age18_34ta[2,2])*100 +mortfum18_34 +``` + ``` +Le taux de mortalité chez les 18-34 ans est de 2.74% chez les femmes non fumeuses et 2.76% chez les femmes fumeuses. +``` + +
+ +### *Taux de mortalité chez les 35-54 ans* + +
+ +```{r} +age35_54<-t2[t2$a.age20=="35-54ans",] +head(age35_54) + +age35_54ta<-table(age35_54$a.Smoker,age35_54$a.Status) +age35_54ta + +mortnofum35_54<-age35_54ta[1,2]/(age35_54ta[1,1]+age35_54ta[1,2])*100 +mortnofum35_54 + +mortfum35_54<-age35_54ta[2,2]/(age35_54ta[2,1]+age35_54ta[2,2])*100 +mortfum35_54 +``` + +``` +Le taux de mortalité chez les 35-54 ans est de 9.5% chez les femmes non fumeuses et 17.3% chez les femmes fumeuses. +``` + +
+ +### *Taux de mortalité chez les 55-64 ans* + +
+ +```{r} +age55_64<-t2[t2$a.age20=="55-64ans",] +head(age55_64) + +age55_64ta<-table(age55_64$a.Smoker,age55_64$a.Status) +age55_64ta + +mortnofum55_64<-age55_64ta[1,2]/(age55_64ta[1,1]+age55_64ta[1,2])*100 +mortnofum55_64 + +mortfum55_64<-age55_64ta[2,2]/(age55_64ta[2,1]+age55_64ta[2,2])*100 +mortfum55_64 +``` +``` +Le taux de mortalité chez les 55-64 ans est de 33% chez les femmes non fumeuses et 44.3% chez les femmes fumeuses. +``` + +
+ +### *Taux de mortalité chez les plus de 65 ans* + +
+ +```{r} +ageplusde65<-t2[t2$a.age20==">65ans",] +head(ageplusde65) + +ageplusde65ta<-table(ageplusde65$a.Smoker,ageplusde65$a.Status) +ageplusde65ta + +mortnofumplusde65<-ageplusde65ta[1,2]/(ageplusde65ta[1,1]+ageplusde65ta[1,2])*100 +mortnofumplusde65 + +mortfumplusde65<-ageplusde65ta[2,2]/(ageplusde65ta[2,1]+ageplusde65ta[2,2])*100 +mortfumplusde65 +``` + +``` +Le taux de mortalité chez les plus de 65 ans est de 85.5% chez les femmes non fumeuses et 85.7% chez les femmes fumeuses. +``` + +
+ +### *Explication du paradoxe* + +
+ +``` +Lorsque l'on classe les 2 groupes de femmes en fonction de leur âge, on remarque que dans chaque tranche d'âges, le taux de mortalité est plus élevé chez les femmes du groupe "fumeuses" que chez les femmes du groupe "non fumeuses". -## Quelques explications +Si on s'intéresse aux 2 groupes "fumeuses" et "non fumeuses", on remarque que dans le groupe de plus de 65 ans, les femmes "non fumeuses" sont beaucoup plus nombreuses (n = 193 dont 165 sont décédées) que les femmes "fumeuses" (n = 49 dont 42 décédées). L'échantillon n'est donc pas distribué de façon homogène. -Ceci est un document R markdown que vous pouvez aisément exporter au format HTML, PDF, et MS Word. Pour plus de détails sur R Markdown consultez . +Cela pourrait expliquer un taux de mortalité plus élevé (retrouvé dans la question 1) chez les femmes non fumeuses par rapport aux femmes fumeuses. -Lorsque vous cliquerez sur le bouton **Knit** ce document sera compilé afin de ré-exécuter le code R et d'inclure les résultats dans un document final. Comme nous vous l'avons montré dans la vidéo, on inclue du code R de la façon suivante: -```{r cars} -summary(cars) +Car même si dans chacune des classes d'âges 18-34 ans, 35-54 ans, 55-64 ans et plus de 65 ans, le taux de mortalité des femmes non fumeuses est inférieur à celui des femmes fumeuses, il est compensé par le nombre plus important de femmes non fumeuses dans les classes d'âges élevées (> 65 ans) où la mortalité est plus élevée que dans les classes d'âges plus faibles. ``` -Et on peut aussi aisément inclure des figures. Par exemple: +
+ +### *Représentation graphique du taux de mortalité en fonction des différentes classes d’âges* + +
+ +```{r} +mortalite<-c(mortnofum18_34,mortnofum35_54,mortnofum55_64,mortnofumplusde65,mortfum18_34,mortfum35_54,mortfum55_64,mortfumplusde65) + +des<-matrix(mortalite,nc=4,nr=2,byrow = T) + +type=c("18-34 ans ","35-54 ans","55-64 ans","> 65 ans") + +des<-matrix(mortalite,nc=4,nr=2,byrow = T) +colnames(des)=type + +barplot(des,beside = T,ylim = c(0,100),ylab = "taux de mortalité",main="Taux de mortalité chez les femmes fumeuses et non fumeuses",las=1, col=c("blue4","magenta"),legend.text = c("Non fumeuse", "Fumeuse"),args.legend = list(x="topleft"),font=2) ; box() + -```{r pressure, echo=FALSE} -plot(pressure) ``` +
+
+ +## **Question 3** + +
+ +
*Afin d'éviter un biais induit par des regroupements en tranches d'âges arbitraires et non régulières, il est envisageable d'essayer de réaliser une régression logistique. Si on introduit une variable Death valant 1 ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans, on peut étudier le modèle Death ~ Age pour étudier la probabilité de décès en fonction de l'âge selon que l'on considère le groupe des fumeuses ou des non fumeuses. * + +
+ +```` +Nous réalisons une régression logistique afin d'éviter un biais induit par des regroupements en tranches d'âges arbitraires et non réguliers. +```` +
+ +```{r} +a$death<-factor(x=rep(0,length(a$Status)), levels=c(0,1)) + +for (i in 1:length(a$Status)){ + if (a$Status[i]=="Dead"){a$death[i]<-1} +} + + +modele<-glm(formula=death~Age,data=a,family=binomial) +modele + +summary(modele)$coefficients -Vous remarquerez le paramètre `echo = FALSE` qui indique que le code ne doit pas apparaître dans la version finale du document. Nous vous recommandons dans le cadre de ce MOOC de ne pas utiliser ce paramètre car l'objectif est que vos analyses de données soient parfaitement transparentes pour être reproductibles. +nofum<-a[a$Smoker=="No",] +summary(nofum) -Comme les résultats ne sont pas stockés dans les fichiers Rmd, pour faciliter la relecture de vos analyses par d'autres personnes, vous aurez donc intérêt à générer un HTML ou un PDF et à le commiter. +fum<-a[a$Smoker=="Yes",] +summary(fum) + +modelenofum<-glm(formula=death~Age,data=nofum,family=binomial) + +modelefum<-glm(formula=death~Age,data=fum,family=binomial) + +``` + + +```{r} +summary(modelenofum)$coefficients +``` + +
+ +``` +On retrouve un effet de l'âge sur la mortalité chez les femmes non fumeuses. + +``` +
+ +```{r} +summary(modelefum)$coefficients +``` + +
+``` +On retrouve un effet de l'âge sur la mortalité chez les femmes non fumeuses. + +``` +
-Maintenant, à vous de jouer! Vous pouvez effacer toutes ces informations et les remplacer par votre document computationnel. +```` +Ainsi, dans les 2 groupes "fumeuses" et "non fumeuses", l'âge a un effet significatif sur la mortalité. Cela est en accord avec le fait que le taux de mortalité augmente avec le vieillissement. +``` \ No newline at end of file