Autour du Paradoxe de Simpson
Table des matières
1 Chargement des librairies R
2 Mise en place des données
2.1 Chargement
simpson_data <- read.csv("Subject6_smoking.csv")
Les données sont sous la forme :
Libellé | Description |
---|---|
Smoker | Fume (Yes) ou non (No) |
Status | En vie (Alive) ou mort (Dead) |
Age | Age du sujet |
2.2 Vérification
Vérification du bon chargement des données en visualisant le début et la fin des données.
head(simpson_data) tail(simpson_data)
Smoker Status Age 1 Yes Alive 21.0 2 Yes Alive 19.3 3 No Dead 57.5 4 No Alive 47.1 5 Yes Alive 81.4 6 No Alive 36.8 Smoker Status Age 1309 No Alive 42.1 1310 Yes Alive 35.9 1311 No Alive 22.3 1312 Yes Dead 62.1 1313 No Dead 88.6 1314 No Alive 39.1
Vérification de la présence de données manquante.
na_records <- apply(simpson_data, 1, function(x) any(is.na(x))) simpson_data[na_records,]
[1] Smoker Status Age <0 lignes> (ou 'row.names' de longueur nulle)
Vérification de la classe des données et du nombre de data.
nrow(simpson_data) class(simpson_data$Smoker) class(simpson_data$Status) class(simpson_data$Age)
[1] 1314 [1] "factor" [1] "factor" [1] "numeric"
3 Analyse des données
3.1 Question 1
dead_or_alive <- simpson_data%>% group_by(Smoker)%>% summarise(Number = n(), Alive = sum(Status == "Alive"), Dead = sum(Status == "Dead"), mortality_rate = (sum(Status == "Dead")/n())*100) xtable(dead_or_alive)
% latex table generated in R 3.6.3 by xtable 1.8-4 package % Fri Apr 3 16:36:26 2020 \begin{table}[ht] \centering \begin{tabular}{rlrrrr} \hline & Smoker & Number & Alive & Dead & mortality\_rate \\ \hline 1 & No & 732 & 502 & 230 & 31.42 \\ 2 & Yes & 582 & 443 & 139 & 23.88 \\ \hline \end{tabular} \end{table}