#Le résultat est surprenant car le taux de mortalité est légèrement plus élevé chez les fumeurs que chez les non fumeurs. Il n'ya pas beaucoup de diffrences.
#Graphique du taux e mortalité par âge et par tabagime
library(ggplot2)
ggplot(table_summary, aes(x = AgeClass, y = Mortality_Rate, fill = Smoker)) +
geom_bar(stat = "identity", position = "dodge") +
ylab("Taux de mortalité sur 20 ans") +
xlab("Classe d'âge") +
ggtitle("Taux de mortalité selon le tabagisme et l'âge") +
scale_fill_manual(values=c("red", "green")) +
theme_minimal()
#Explication du paradoxe
#Globalement, les fumeuses ont un taux de mortalité plus élevé, comme montré précédemment. Cependant, stratifié par âge : les fumeuses peuvent avoir un taux de mortalité inférieur à celui des non-fumeuses dans chaque tranche. Cela s'explique par le fait que les fumeuses sont souvent plus jeunes dans l'échantillon.Les non-fumeuses incluent proportionnellement plus de femmes âgées, donc plus à risque de décès.
ggplot(age_plot, aes(x = Age, y = Death_Prob, color = Group)) +
geom_line(size = 1) +
ylab("Probabilité de décès sur 20 ans") +
xlab("Âge initial") +
ggtitle("Régression logistique : probabilité de décès selon l'âge et le tabagisme") +
scale_color_manual(values = c("red", "green")) +
theme_minimal()
#Discussion
#La probabilité de décès augmente avec l’âge dans les deux groupes, comme attendu. #À âge égal, les fumeuses ont toujours une probabilité de décès plus élevée que les non-fumeuses, ce qui confirme la nocivité du tabagisme.Cette approche évite le biais du paradoxe de Simpson, car elle compare les individus à âge égal au lieu de faire des regroupements arbitraires. A noter selon le graphique que cette tendance s'inverse à partir d'un certains âge, notamment du à d'autres multiples facteurs.