Autour du Paradoxe de Simpson
Table des matières
1 Analyse des données
1.1 Question 1
dead_or_alive <- simpson_data%>% group_by(Smoker)%>% summarise(Number = n(), Alive = sum(Status == "Alive"), Dead = sum(Status == "Dead"), mortality = (sum(Status == "Dead")/n())*100) dead_or_alive$mortality <- round(dead_or_alive$mortality, 2)
Smoker | Number | Alive | Dead | mortality |
---|---|---|---|---|
No | 732 | 502 | 230 | 31.42 |
Yes | 582 | 443 | 139 | 23.88 |
mortality <- ggplot(dead_or_alive, aes(x = Smoker, y = mortality, fill = Smoker)) + geom_bar(stat = "identity") + labs(x = "Smoker", y = "Mortality rate", title = "Mortality rate by behaviour") mortality
Le résultat est surprenant car on observe un plus fort taux de
mortalité chez les non-fumeur que chez les fumeur.
1.2 Question 2
On recrée un data-frame pour ne pas interagir avec les résultats précédent.
simpson_data_q2 <- simpson_data simpson_data_q2$Age <- as.numeric(simpson_data_q2$Age)
On regroupe les ages en catégories
simpson_data_q2$Age <- cut(simpson_data_q2$Age, c(18, 34, 54, 64, 200), include.lowest = TRUE, labels = c("18-34", "35-54", "55-64", "plus de 65")) table(simpson_data_q2$Age)
18-34 35-54 55-64 plus de 65 400 436 236 242
dead_or_alive2 <- simpson_data_q2%>% group_by(Smoker, Age)%>% summarise(Number = n(), Alive = sum(Status == "Alive"), Dead = sum(Status == "Dead"))%>% ungroup()%>% group_by(Smoker)%>% mutate(mortality = (Dead/sum(Number))*100) dead_or_alive$mortality <- round(dead_or_alive$mortality, 2)
Smoker | Age | Number | Alive | Dead | mortality |
---|---|---|---|---|---|
No | 18-34 | 219 | 213 | 6 | 0.819672131147541 |
No | 35-54 | 199 | 180 | 19 | 2.59562841530055 |
No | 55-64 | 121 | 81 | 40 | 5.46448087431694 |
No | plus de 65 | 193 | 28 | 165 | 22.5409836065574 |
Yes | 18-34 | 181 | 176 | 5 | 0.859106529209622 |
Yes | 35-54 | 237 | 196 | 41 | 7.0446735395189 |
Yes | 55-64 | 115 | 64 | 51 | 8.76288659793814 |
Yes | plus de 65 | 49 | 7 | 42 | 7.21649484536082 |
mortality2 <- ggplot(dead_or_alive2, aes(x = Smoker, y = mortality, fill = Age))+ geom_bar(stat = "identity", position = position_dodge()) + labs(x = "Smoker", y = "Mortality rate", title = "Mortality rate by behaviour") mortality2
On observe une diminution du taux de mortalité chez les moins de 65 ans parmis les non fumeur par rapport au fumeur. Cependant, chez les plus de 65 ans, la tendence s'inverse avec un plus grande mortalité chez les fumeurs par rappor au non fumeur (3 fois plus).
Cela peut s'expliquer par le fait que le corps des fumeurs se soit habituer aux toxines alors que les non-fumeur subissant le tabagisme passif et ayant atteint un age où ils sont plus à risque soit plus à même de décédé à cause des toxines du tabac.
1.3 Question 3
On recrée un data-frame pour ne pas interagir avec les résultats précédent.
simpson_data_q3 <- simpson_data simpson_data_q3$Death <- factor(simpson_data_q3$Status) simpson_data_q3$Death <- fct_recode(simpson_data_q3$Death, "1"="Alive", "0"="Dead") simpson_data_q3$Death <- as.numeric(as.character(simpson_data_q3$Death)) simpson_data_q3$Age <- as.numeric(as.character(simpson_data_q3$Age))
head(simpson_data_q3)
Smoker Status Age Death 1 Yes Alive 21.0 1 2 Yes Alive 19.3 1 3 No Dead 57.5 0 4 No Alive 47.1 1 5 Yes Alive 81.4 1 6 No Alive 36.8 1
reg_log_total <- ggplot(simpson_data_q3, aes(x=Age,y=Death)) + geom_point(alpha=.3,size=3) + theme_bw() + geom_smooth(method = "glm", method.args = list(family = "binomial"),fullrange = TRUE) reg_log_fumeur <- ggplot(simpson_data_q3[simpson_data_q3$Smoker == "Yes",], aes(x=Age,y=Death)) + geom_point(alpha=.3,size=3) + theme_bw() + geom_smooth(method = "glm", method.args = list(family = "binomial"),fullrange = TRUE) reg_log_non_fumeur <- ggplot(simpson_data_q3[simpson_data_q3$Smoker == "No",], aes(x=Age,y=Death)) + geom_point(alpha=.3,size=3) + theme_bw() + geom_smooth(method = "glm", method.args = list(family = "binomial"),fullrange = TRUE)
reg_log
reg_log_fumeur
reg_log_non_fumeur
Passer 60 ans, bien que les courbes soient semblable, on voit que l'intervalle de confiance chez les fumeurs
est plus grands que chez les non fumeur. Il est donc possible qu'il y
est moins de mort chez les fumeurs car le corps est habitué à la cigarette.