Autour du Paradoxe de Simpson

Table des matières

1 Chargement des librairies R

2 Mise en place des données

2.1 Chargement

simpson_data <- read.csv("Subject6_smoking.csv")

Les données sont sous la forme :

Libellé Description
Smoker Fume (Yes) ou non (No)
Status En vie (Alive) ou mort (Dead)
Age Age du sujet

2.2 Vérification

Vérification du bon chargement des données en visualisant le début et la fin des données.

head(simpson_data)
tail(simpson_data)
  Smoker Status  Age
1    Yes  Alive 21.0
2    Yes  Alive 19.3
3     No   Dead 57.5
4     No  Alive 47.1
5    Yes  Alive 81.4
6     No  Alive 36.8

     Smoker Status  Age
1309     No  Alive 42.1
1310    Yes  Alive 35.9
1311     No  Alive 22.3
1312    Yes   Dead 62.1
1313     No   Dead 88.6
1314     No  Alive 39.1

Vérification de la présence de données manquante.

na_records <- apply(simpson_data, 1, function(x) any(is.na(x)))
simpson_data[na_records,]

[1] Smoker Status Age   
<0 lignes> (ou 'row.names' de longueur nulle)

Vérification de la classe des données et du nombre de data.

nrow(simpson_data)
class(simpson_data$Smoker)
class(simpson_data$Status)
class(simpson_data$Age)
[1] 1314

[1] "factor"

[1] "factor"

[1] "numeric"

3 Analyse des données

3.1 Question 1

dead_or_alive <- simpson_data%>%
  group_by(Smoker)%>%
summarise(Number = n(), Alive = sum(Status == "Alive"), Dead = sum(Status == "Dead"), mortality_rate = (sum(Status == "Dead")/n())*100)
xtable(dead_or_alive)

% latex table generated in R 3.6.3 by xtable 1.8-4 package
% Fri Apr  3 16:36:26 2020
\begin{table}[ht]
\centering
\begin{tabular}{rlrrrr}
  \hline
 & Smoker & Number & Alive & Dead & mortality\_rate \\ 
  \hline
1 & No & 732 & 502 & 230 & 31.42 \\ 
  2 & Yes & 582 & 443 & 139 & 23.88 \\ 
   \hline
\end{tabular}
\end{table}

Date: \daily

Auteur: Adam Taheraly

Created: 2020-04-03 ven. 16:36

Validate