--- title: 'Sujet 6 : Autour du Paradoxe de Simpson' author: "Pauline Hardouin" date: "27 mai 2020" output: pdf_document: default html_document: default --- ```{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE) ``` En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage d'un sixième des électeurs a été effectué afin d'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et cherchaient à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme "fumant actuellement" ou "n'ayant jamais fumé". Il y avait relativement peu de femmes dans le sondage initial ayant fumé et ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage. ## Préparation des données Les données sont disponibles dans un fichier CSV. Chaque ligne représente les données pour chaque femme ayant participé au sondage. Les données sont si la personne fume ou non, si elle est vivante ou décédée au moment de la seconde étude, et son âge lors du premier sondage. ```{r} all_data = read.csv("module3_Practical_session_Subject6_smoking.csv",header=T) all_data ``` ## Représentez dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe). ```{r} summary(all_data) ``` ```{r} summary(all_data[all_data$Smoker=="Yes",]) ``` ```{r} summary(all_data[all_data$Smoker=="No",]) ``` ```{r} T <- data.frame(Alive=c("Yes","No"), Smoker=c(443,139), NonSmoker=c(502,230)) T ``` ```{r} m1=139/582 m2=230/732 m1 m2 ``` m1 est le taux de mortalité pour le groupe Smoker et m2 est le taux de mortalité pour le groupe NonSmoker. D'après le calcul, on observe que le taux de mortalité du groupe NonSmoker est plus élevé que celui du groupe Smoker. En effet, environ 314 sur 1000 femmes non fumeuses décèdent contre 239 pour une population fumeuse. Cette observation est surprenante en regard des conséquences négatives du tabagisme sur la santé! ## Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera par exemple les classes suivantes : 18-34 ans, 35-54 ans, 55-64 ans, plus de 65 ans. En quoi ce résultat est-il surprenant ? Arrivez-vous à expliquer ce paradoxe ? De même, vous pourrez proposer une représentation graphique de ces données pour étayer vos explications. Groupe g1 : 18-34 ans Smoker ```{r} summary(all_data[all_data$Age<=34 & all_data$Smoker=="Yes",]) ``` NonSmoker ```{r} summary(all_data[all_data$Age<=34 & all_data$Smoker=="No",]) ``` ```{r} T1 <- data.frame(Alive=c("Yes","No"), Smoker=c(176,5), NonSmoker=c(213,6)) T1 ``` Groupe g2 :35-54 ans ```{r} summary(all_data[all_data$Age>34 & all_data$Age<=54 & all_data$Smoker=="Yes",]) ``` NonSmoker ```{r} summary(all_data[all_data$Age>34 & all_data$Age<=54 & all_data$Smoker=="No",]) ``` ```{r} T2 <- data.frame(Alive=c("Yes","No"), Smoker=c(196,41), NonSmoker=c(180,19)) T2 ``` Groupe g3 : 55-64 ans Smoker ```{r} summary(all_data[all_data$Age>55 & all_data$Age<=64 & all_data$Smoker=="Yes",]) ``` NonSmoker ```{r} summary(all_data[all_data$Age>55 & all_data$Age<=64 & all_data$Smoker=="No",]) ``` ```{r} T3 <- data.frame(Alive=c("Yes","No"), Smoker=c(64,50), NonSmoker=c(81,40)) T3 ``` Groupe g4 : 65 ans et plus Smoker ```{r} summary(all_data[all_data$Age>64 & all_data$Smoker=="Yes",]) ``` NonSmoker ```{r} summary(all_data[all_data$Age>64 & all_data$Smoker=="No",]) ``` ```{r} T4 <- data.frame(Alive=c("Yes","No"), Smoker=c(7,42), NonSmoker=c(28,165)) T4 ``` m1s, m2s, m3s, m4s correspondent respectivement aux taux de mortalité des personnes fumeuses des groupes g1, g2, g3 et g4. m1, m2, m3, m4 correspondent respectivement aux taux de mortalité des personnes non fumeuses des groupes g1, g2, g3 et g4. ```{r} m1=6/219 m2=19/199 m3=40/121 m4=165/193 m=c(m1,m2,m3,m4) m1s=5/181 m2s=41/237 m3s=50/114 m4s=42/49 ms=c(m1s,m2s,m3s,m4s) TA <- data.frame(Age=c("18-34","35-54","55-64",">65"), Smoker=ms, NonSmoker=m) TA ``` Ce tableau regroupe le taux de mortalité en fonction des classes d'âge et l'habitude de tabagisme. On obtient ici une observation inverse qu'à la première analyse (lorsque toutes classes d'âge étaient cofondues); mais qui est désormais plus logique. En effet, le taux de mortalité observés chez les fumeuses est plus important pour les tranches d'âge 35-54 et 55-64 ans. Pour les tranches d'âge 18-34 et >65, les taux de mortalité sont quasi identiques pour les fumeuses et les non-fumeuses. Ce qui est tout à fait normal puisque les effets graves du tabac sur la santé s'observent sur la durée et non au début du tabagisme. De plus, au delà de 65 ans, des facteurs de risques autres que le tabagisme impactent la santé des personnes qu'elles soient fumeuses ou non; même si nous pouvions nous attendre à ce que le taux de mortalité des fumeuses soit plus élevé pour cette tranche d'âge. Le paramètre Classe d'âge est le facteur de confusion. Il a un impact significatif sur les rapports. En effet, lorsque les données ne sont pas regroupées en fonction des tranches d'âge, nous observons que le taux de mortalité est plus important pour les personnes non-fumeuses; ce qui laisserait penser que le tabagisme est positif. Or nous savons que ce n'est pas le cas. Lorsque les résultats sont regroupés en fonction des tranches d'âge, nous observons pour les tranches d'âge un effet négatif du tabagisme; observation contredite par la première analyse. Il existe des différences entre les deux groupes Smoker et NonSmoker qui n'avaient pas été pris en compte lors de la première analyse. Ici, la tranche d'âge. En négligeant ces différences, nous aboutissons à une analyse éronnée et à des observations contradictoires. Il s'agit là d'une illustration du paradoxe de Simpson. Cependant, le regroupement en tranche d'âge peut induire des biais puisque les tranches ne sont pas régulières : 18-34, 35-54, 55-65, >65 ans. ## Afin d'éviter un biais induit par des regroupements en tranches d'âges arbitraires et non régulières, il est envisageable d'essayer de réaliser une régression logistique. Si on introduit une variable Death valant 1 ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans, on peut étudier le modèle Death ~ Age pour étudier la probabilité de décès en fonction de l'âge selon que l'on considère le groupe des fumeuses ou des non fumeuses. Ces régressions vous permettent-elles de conclure sur la nocivité du tabagisme ? On introduit la variable Death valant 1 ou 0 pour indique si l'individu est décédé durant la période de 20 ans. ```{r} Death ``` On réalise une régression logistique pour le groupe des fumeuses. ```{r} data1=all_data[all_data$Smoker=="Yes",] data1 ``` Code pour la régression logistique : logistic_reg = glm(data1=data, Death ~ Age, weights=Count, family=binomial(link='logit')) summary(logistic_reg) On réalise une régression logistique pour le groupe des non-fumeuses. ```{r} data2=all_data[all_data$Smoker=="No",] data2 ``` Code pour la régression logistique : logistic_reg = glm(data2=data2, Death ~ Age, weights=Count, family=binomial(link='logit')) summary(logistic_reg) Conclusion sur la nocivité du tabagisme.