Autour du Paradoxe de Simpson

Table des matières

1 Analyse des données

1.1 Question 1

dead_or_alive <- simpson_data%>%
  group_by(Smoker)%>%
summarise(Number = n(), Alive = sum(Status == "Alive"), Dead = sum(Status == "Dead"), mortality = (sum(Status == "Dead")/n())*100)
dead_or_alive$mortality <- round(dead_or_alive$mortality, 2)
Smoker Number Alive Dead mortality
No 732 502 230 31.42
Yes 582 443 139 23.88
mortality <- ggplot(dead_or_alive, aes(x = Smoker, y = mortality, fill = Smoker)) + geom_bar(stat = "identity") + 
    labs(x = "Smoker", y = "Mortality rate", title = "Mortality rate by behaviour")
mortality

figurezRqW9s.png Le résultat est surprenant car on observe un plus fort taux de mortalité chez les non-fumeur que chez les fumeur.

1.2 Question 2

On recrée un data-frame pour ne pas interagir avec les résultats précédent.

simpson_data_q2 <- simpson_data
simpson_data_q2$Age <- as.numeric(simpson_data_q2$Age)

On regroupe les ages en catégories

simpson_data_q2$Age <- cut(simpson_data_q2$Age, c(18, 34, 54, 64, 200), include.lowest = TRUE, labels = c("18-34", "35-54", "55-64", "plus de 65"))
table(simpson_data_q2$Age)

18-34      35-54      55-64 plus de 65 
  400        436        236        242

dead_or_alive2 <- simpson_data_q2%>%
  group_by(Smoker, Age)%>%
summarise(Number = n(), Alive = sum(Status == "Alive"), Dead = sum(Status == "Dead"))%>%
ungroup()%>%
group_by(Smoker)%>%
mutate(mortality = (Dead/sum(Number))*100)
dead_or_alive$mortality <- round(dead_or_alive$mortality, 2)
Smoker Age Number Alive Dead mortality
No 18-34 219 213 6 0.819672131147541
No 35-54 199 180 19 2.59562841530055
No 55-64 121 81 40 5.46448087431694
No plus de 65 193 28 165 22.5409836065574
Yes 18-34 181 176 5 0.859106529209622
Yes 35-54 237 196 41 7.0446735395189
Yes 55-64 115 64 51 8.76288659793814
Yes plus de 65 49 7 42 7.21649484536082
mortality2 <- ggplot(dead_or_alive2, aes(x = Smoker, y = mortality, fill = Age))+ geom_bar(stat = "identity", position = position_dodge()) + 
    labs(x = "Smoker", y = "Mortality rate", title = "Mortality rate by behaviour")
mortality2

figureQLQAz5.png

On observe une diminution du taux de mortalité chez les moins de 65 ans parmis les non fumeur par rapport au fumeur. Cependant, chez les plus de 65 ans, la tendence s'inverse avec un plus grande mortalité chez les fumeurs par rappor au non fumeur (3 fois plus).

Cela peut s'expliquer par le fait que le corps des fumeurs se soit habituer aux toxines alors que les non-fumeur subissant le tabagisme passif et ayant atteint un age où ils sont plus à risque soit plus à même de décédé à cause des toxines du tabac.

1.3 Question 3

On recrée un data-frame pour ne pas interagir avec les résultats précédent.

simpson_data_q3 <- simpson_data
simpson_data_q3$Death <-  factor(simpson_data_q3$Status)
simpson_data_q3$Death <-  fct_recode(simpson_data_q3$Death, "1"="Alive", "0"="Dead")
simpson_data_q3$Death <- as.numeric(as.character(simpson_data_q3$Death))
simpson_data_q3$Age <- as.numeric(as.character(simpson_data_q3$Age))
head(simpson_data_q3)
  Smoker Status  Age Death
1    Yes  Alive 21.0     1
2    Yes  Alive 19.3     1
3     No   Dead 57.5     0
4     No  Alive 47.1     1
5    Yes  Alive 81.4     1
6     No  Alive 36.8     1

reg_log_total <- ggplot(simpson_data_q3, aes(x=Age,y=Death)) + geom_point(alpha=.3,size=3) + 
    theme_bw() + 
    geom_smooth(method = "glm", 
        method.args = list(family = "binomial"),fullrange = TRUE)

reg_log_fumeur <- ggplot(simpson_data_q3[simpson_data_q3$Smoker == "Yes",], aes(x=Age,y=Death)) + geom_point(alpha=.3,size=3) + 
    theme_bw() + 
    geom_smooth(method = "glm", 
        method.args = list(family = "binomial"),fullrange = TRUE)

reg_log_non_fumeur <- ggplot(simpson_data_q3[simpson_data_q3$Smoker == "No",], aes(x=Age,y=Death)) + geom_point(alpha=.3,size=3) + 
    theme_bw() + 
    geom_smooth(method = "glm", 
        method.args = list(family = "binomial"),fullrange = TRUE)
reg_log

figureSDZwCf.png

reg_log_fumeur

figureu04D5C.png

reg_log_non_fumeur

figuregIqfqf.png Passer 60 ans, bien que les courbes soient semblable, on voit que l'intervalle de confiance chez les fumeurs est plus grands que chez les non fumeur. Il est donc possible qu'il y est moins de mort chez les fumeurs car le corps est habitué à la cigarette.

Date: \daily

Auteur: Adam Taheraly

Created: 2020-04-05 dim. 01:48

Validate