# Autour du Paradoxe de Simpson

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd

En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage d'un sixième des électeurs a été effectué afin d'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et cherchaient à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme "fumant actuellement" ou "n'ayant jamais fumé". Il y avait relativement peu de femmes dans le sondage initial ayant fumé et ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage.

Les données de ces études sont disponibles  sur le gitlab de l'inria dans un [document csv](https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/-/blob/master/module3/Practical_session/Subject6_smoking.csv). Dans ce document, chaque ligne indique si la personne fume ou non, si elle est vivante ou décédée au moment de la seconde étude, et son âge lors du premier sondage. Nous téléchargeons toujours l'ensemble complet des données du document.


In [2]:
data_url = "https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/-/raw/master/module3/Practical_session/Subject6_smoking.csv" 

Pour nous protéger contre une éventuelle disparition ou modification du serveur du gitlab, nous faisons une copie locale de ce jeux de données que nous préservons avec notre analyse. Il est inutile et même risquée de télécharger les données à chaque exécution, car dans le cas d'une panne nous pourrions remplacer nos données par un fichier défectueux. Pour cette raison, nous téléchargeons les données seulement si la copie locale n'existe pas.

In [3]:
data_file = "survey-data-subject6.csv"

import os
import urllib.request
if not os.path.exists(data_file):
    urllib.request.urlretrieve(data_url, data_file)

Le document comporte trois colonnes : la première colonne indique leur habitude de tabagisme, la deuxième renseigne si la personne est vivante ou décédée au moment de la seconde étude et enfin, la troisième colonne indique leur âge lors de la première étude

In [6]:
raw_data = pd.read_csv(data_file)
raw_data

Unnamed: 0,Smoker,Status,Age
0,Yes,Alive,21.0
1,Yes,Alive,19.3
2,No,Dead,57.5
3,No,Alive,47.1
4,Yes,Alive,81.4
5,No,Alive,36.8
6,No,Alive,23.8
7,Yes,Dead,57.5
8,Yes,Alive,24.8
9,Yes,Alive,49.5


Pour nous assurer que le jeu de données est complet, nous vérifions qu'il n'y a pas d'informations manquantes conernant l'une des personnes du sondage. Après vérification, il n'y a pas de données manquantes.

In [8]:
raw_data[raw_data.isnull().any(axis=1)]

Unnamed: 0,Smoker,Status,Age


Nous calculons le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme

In [23]:
alive_and_smoker = 0
alive_and_non_smoker = 0
dead_and_smoker = 0
dead_and_non_smoker = 0
for i in range(len(raw_data)):
    if raw_data.iloc[i][0] == "Yes":
        if raw_data.iloc[i][1] == "Alive":
            alive_and_smoker += 1
        else :
            dead_and_smoker += 1
    else :
        if raw_data.iloc[i][1] == "Alive":
            alive_and_non_smoker += 1
        else :
            dead_and_non_smoker += 1

Nous représentons ensuite ces données sous la forme d'un tableau. 

In [24]:
data = [[alive_and_smoker,alive_and_non_smoker],[dead_and_smoker, dead_and_non_smoker]]

pd.DataFrame(data, columns=["Smoker", "Non-Smoker"], index = ["Alive", "Dead"])

Unnamed: 0,Smoker,Non-Smoker
Alive,443,502
Dead,139,230
