# Autour du paradoxe de Simpson

Ce document présente une analyse de données pour le MOOC recherche reproductible. Le but est d'analyser les données autour du paradoxe de Simpson, qui donne l'impression - en premier lieu - donner des conclusions surprenantes sur l'effet du tabagisme sur la santé.

## Importing and checking the data

In [2]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd

Nous récupérons les données sous format CSV depuis le Gitlab du MOOC.

In [3]:
data_url ="https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/-/raw/master/module3/Practical_session/Subject6_smoking.csv?inline=false"

In [4]:
raw_data = pd.read_csv(data_url)

Regardons visuellement le dataset.

In [5]:
raw_data

Unnamed: 0,Smoker,Status,Age
0,Yes,Alive,21.0
1,Yes,Alive,19.3
2,No,Dead,57.5
3,No,Alive,47.1
4,Yes,Alive,81.4
5,No,Alive,36.8
6,No,Alive,23.8
7,Yes,Dead,57.5
8,Yes,Alive,24.8
9,Yes,Alive,49.5


Nous allons maintenant vérifier si aucune donnée n'est manquante, et si les différentes lignes concordent entre elles.

In [6]:
raw_data[raw_data.isnull().any(axis=1)]

Unnamed: 0,Smoker,Status,Age


In [7]:
raw_data[(raw_data['Smoker'] != "Yes") & (raw_data['Smoker'] != "No")]

Unnamed: 0,Smoker,Status,Age


In [8]:
raw_data[(raw_data['Status'] != "Alive") & (raw_data['Status'] != "Dead")]

Unnamed: 0,Smoker,Status,Age


There seems to be no error in the dataset.

In [9]:
data = raw_data.copy()

## Taux de mortalité (question 1)

Nous allons calculer le taux de mortalité sur la période pour les deux groupes de femmes: fumeuses et non fumeuses, et représenter les résultats sous forme d'un tableau.

In [10]:
alive = [len(data[(data['Smoker'] == "Yes") & (data['Status'] == "Alive")].index), len(data[(data['Smoker'] == "No") & (data['Status'] == "Alive")].index)]
dead = [len(data[(data['Smoker'] == "Yes") & (data['Status'] == "Dead")].index), len(data[(data['Smoker'] == "No") & (data['Status'] == "Dead")].index)]
deathrate = [dead[0]/(alive[0] + dead[0]), dead[1]/(alive[1] + dead[1])]

print(pd.DataFrame([alive, dead, deathrate], ["Vivantes", "Mortes", "Taux mortalité"], ["Smokers", "Non-Smokers"]))

                   Smokers  Non-Smokers
Vivantes        443.000000   502.000000
Mortes          139.000000   230.000000
Taux mortalité    0.238832     0.314208


On remarque que le taux de mortalité est - nettement - plus élevé dans le groupe des non fumeuses, ce qui constitue le paradoxe de Simpson

## Taux de mortalité par classes d'age (question 2)

Nous allons regarder si les résultats persistent en prenant en compte les différentes classes d'age

In [11]:
classes_breaks = [0,35,55,65,150] 
tab_alive = [ [len(data[(data['Smoker'] == "Yes") & (data['Status'] == "Alive") & (classes_breaks[i] <= data['Age']) & (data['Age'] < classes_breaks[i+1])]), len(data[(data['Smoker'] == "No") & (data['Status'] == "Alive") & (classes_breaks[i] <= data['Age']) & (data['Age'] < classes_breaks[i+1])])] for i in [0,1,2,3]]
tab_dead = [ [len(data[(data['Smoker'] == "Yes") & (data['Status'] == "Dead") & (classes_breaks[i] <= data['Age']) & (data['Age'] < classes_breaks[i+1])]), len(data[(data['Smoker'] == "No") & (data['Status'] == "Dead") & (classes_breaks[i] <= data['Age']) & (data['Age'] < classes_breaks[i+1])])] for i in [0,1,2,3]]
tab_deathrate = [ [tab_dead[i][0]/(tab_dead[i][0]+tab_alive[i][0]) , tab_dead[i][1]/(tab_dead[i][1]+tab_alive[i][1])] for i in [0,1,2,3]]

print(pd.DataFrame(tab_deathrate, ["18-34","35-54","55-64","65+"], ["Smokers", "Non-Smokers"]))

        Smokers  Non-Smokers
18-34  0.037037     0.026432
35-54  0.170306     0.099476
55-64  0.443478     0.330579
65+    0.857143     0.854922


On remarque cette fois que, pour chaque classe d'âge, le résultat est attendu où le taux de mortalité est nettement supérieur pour le groupe des fumeuses, sauf pour les plus de 65 ans où les résultats sont sensiblement égaux.

blabla il y a plus de vieilles non fumeuses, donc plus de morts

## Vérification de l'hypothèse - régression logistique (question 3)

Pour commencer on va rajouter les variables de type boolean dans le dataset, pour représenter les variables Status et Smoker.

In [15]:
dead_bool = [(data['Status'][i] == "Dead") for i in range(len(data))]

In [None]:
data.insert(4, "Dead?",data)

In [16]:
data['Dead?'] = dead_bool

In [17]:
data

Unnamed: 0,Smoker,Status,Age,Dead?
0,Yes,Alive,21.0,False
1,Yes,Alive,19.3,False
2,No,Dead,57.5,True
3,No,Alive,47.1,False
4,Yes,Alive,81.4,False
5,No,Alive,36.8,False
6,No,Alive,23.8,False
7,Yes,Dead,57.5,True
8,Yes,Alive,24.8,False
9,Yes,Alive,49.5,False
