{ "cells": [ { "cell_type": "markdown", "metadata": { "hideCode": true, "hidePrompt": true }, "source": [ "# Sujet 6 : Autour du Paradoxe de Simpson" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Contexte :" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage d'un sixième des électeurs a été effectué afin d'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et cherchaient à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme \"fumant actuellement\" ou \"n'ayant jamais fumé\". Il y avait relativement peu de femmes dans le sondage initial ayant fumé et ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## L'étude de ce sujet se fera en 3 étapes :" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "1. Représenter dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculer dans chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe). Analyser ce résultat.\n", "\n", "2. Reprendre la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera les classes suivantes : 18-34 ans, 35-54 ans, 55-64 ans, plus de 65 ans. Analyser le résultat.\n", "\n", "3. Etablir une régression logistique en introduisant un variable Death valant 1 ou 0 si la personne est morte ou pas au cours des 20 années entre le premier sondage et la suite de l'étude. Conclure." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Etape 1 : Calcul du taux de mortalité pour les fumeuses et les non fumeuses" ] }, { "cell_type": "markdown", "metadata": { "hideCode": true, "hidePrompt": true }, "source": [ "Tout d'abord, il faut commencer par inclure les bibliothèques dont nous aurons besoin." ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "import matplotlib.pyplot as plt\n", "import pandas as pd\n", "import statsmodels.api as sm\n", "import numpy as np\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Il faut ensuite charger et lire le fichier" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [], "source": [ "data_file = \"Subject6_smoking.csv\"\n", "#data_file = \"https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/blob/master/module3/Practical_session/Subject6_smoking.csv\"" ] }, { "cell_type": "code", "execution_count": 17, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", " | Smoker | \n", "Status | \n", "Age | \n", "
---|---|---|---|
0 | \n", "Yes | \n", "Alive | \n", "21.0 | \n", "
1 | \n", "Yes | \n", "Alive | \n", "19.3 | \n", "
2 | \n", "No | \n", "Dead | \n", "57.5 | \n", "
3 | \n", "No | \n", "Alive | \n", "47.1 | \n", "
4 | \n", "Yes | \n", "Alive | \n", "81.4 | \n", "
5 | \n", "No | \n", "Alive | \n", "36.8 | \n", "
6 | \n", "No | \n", "Alive | \n", "23.8 | \n", "
7 | \n", "Yes | \n", "Dead | \n", "57.5 | \n", "
8 | \n", "Yes | \n", "Alive | \n", "24.8 | \n", "
9 | \n", "Yes | \n", "Alive | \n", "49.5 | \n", "
10 | \n", "Yes | \n", "Alive | \n", "30.0 | \n", "
11 | \n", "No | \n", "Dead | \n", "66.0 | \n", "
12 | \n", "Yes | \n", "Alive | \n", "49.2 | \n", "
13 | \n", "No | \n", "Alive | \n", "58.4 | \n", "
14 | \n", "No | \n", "Dead | \n", "60.6 | \n", "
15 | \n", "No | \n", "Alive | \n", "25.1 | \n", "
16 | \n", "No | \n", "Alive | \n", "43.5 | \n", "
17 | \n", "No | \n", "Alive | \n", "27.1 | \n", "
18 | \n", "No | \n", "Alive | \n", "58.3 | \n", "
19 | \n", "Yes | \n", "Alive | \n", "65.7 | \n", "
20 | \n", "No | \n", "Dead | \n", "73.2 | \n", "
21 | \n", "Yes | \n", "Alive | \n", "38.3 | \n", "
22 | \n", "No | \n", "Alive | \n", "33.4 | \n", "
23 | \n", "Yes | \n", "Dead | \n", "62.3 | \n", "
24 | \n", "No | \n", "Alive | \n", "18.0 | \n", "
25 | \n", "No | \n", "Alive | \n", "56.2 | \n", "
26 | \n", "Yes | \n", "Alive | \n", "59.2 | \n", "
27 | \n", "No | \n", "Alive | \n", "25.8 | \n", "
28 | \n", "No | \n", "Dead | \n", "36.9 | \n", "
29 | \n", "No | \n", "Alive | \n", "20.2 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "
1284 | \n", "Yes | \n", "Dead | \n", "36.0 | \n", "
1285 | \n", "Yes | \n", "Alive | \n", "48.3 | \n", "
1286 | \n", "No | \n", "Alive | \n", "63.1 | \n", "
1287 | \n", "No | \n", "Alive | \n", "60.8 | \n", "
1288 | \n", "Yes | \n", "Dead | \n", "39.3 | \n", "
1289 | \n", "No | \n", "Alive | \n", "36.7 | \n", "
1290 | \n", "No | \n", "Alive | \n", "63.8 | \n", "
1291 | \n", "No | \n", "Dead | \n", "71.3 | \n", "
1292 | \n", "No | \n", "Alive | \n", "57.7 | \n", "
1293 | \n", "No | \n", "Alive | \n", "63.2 | \n", "
1294 | \n", "No | \n", "Alive | \n", "46.6 | \n", "
1295 | \n", "Yes | \n", "Dead | \n", "82.4 | \n", "
1296 | \n", "Yes | \n", "Alive | \n", "38.3 | \n", "
1297 | \n", "Yes | \n", "Alive | \n", "32.7 | \n", "
1298 | \n", "No | \n", "Alive | \n", "39.7 | \n", "
1299 | \n", "Yes | \n", "Dead | \n", "60.0 | \n", "
1300 | \n", "No | \n", "Dead | \n", "71.0 | \n", "
1301 | \n", "No | \n", "Alive | \n", "20.5 | \n", "
1302 | \n", "No | \n", "Alive | \n", "44.4 | \n", "
1303 | \n", "Yes | \n", "Alive | \n", "31.2 | \n", "
1304 | \n", "Yes | \n", "Alive | \n", "47.8 | \n", "
1305 | \n", "Yes | \n", "Alive | \n", "60.9 | \n", "
1306 | \n", "No | \n", "Dead | \n", "61.4 | \n", "
1307 | \n", "Yes | \n", "Alive | \n", "43.0 | \n", "
1308 | \n", "No | \n", "Alive | \n", "42.1 | \n", "
1309 | \n", "Yes | \n", "Alive | \n", "35.9 | \n", "
1310 | \n", "No | \n", "Alive | \n", "22.3 | \n", "
1311 | \n", "Yes | \n", "Dead | \n", "62.1 | \n", "
1312 | \n", "No | \n", "Dead | \n", "88.6 | \n", "
1313 | \n", "No | \n", "Alive | \n", "39.1 | \n", "
1314 rows × 3 columns
\n", "\n", " | Smoker | \n", "Status | \n", "Age | \n", "
---|---|---|---|
0 | \n", "Yes | \n", "Alive | \n", "21.0 | \n", "
1 | \n", "Yes | \n", "Alive | \n", "19.3 | \n", "
4 | \n", "Yes | \n", "Alive | \n", "81.4 | \n", "
7 | \n", "Yes | \n", "Dead | \n", "57.5 | \n", "
8 | \n", "Yes | \n", "Alive | \n", "24.8 | \n", "
9 | \n", "Yes | \n", "Alive | \n", "49.5 | \n", "
10 | \n", "Yes | \n", "Alive | \n", "30.0 | \n", "
12 | \n", "Yes | \n", "Alive | \n", "49.2 | \n", "
19 | \n", "Yes | \n", "Alive | \n", "65.7 | \n", "
21 | \n", "Yes | \n", "Alive | \n", "38.3 | \n", "
23 | \n", "Yes | \n", "Dead | \n", "62.3 | \n", "
26 | \n", "Yes | \n", "Alive | \n", "59.2 | \n", "
30 | \n", "Yes | \n", "Alive | \n", "34.6 | \n", "
31 | \n", "Yes | \n", "Alive | \n", "51.9 | \n", "
32 | \n", "Yes | \n", "Alive | \n", "49.9 | \n", "
35 | \n", "Yes | \n", "Alive | \n", "46.7 | \n", "
36 | \n", "Yes | \n", "Alive | \n", "44.4 | \n", "
37 | \n", "Yes | \n", "Alive | \n", "29.5 | \n", "
38 | \n", "Yes | \n", "Dead | \n", "33.0 | \n", "
39 | \n", "Yes | \n", "Alive | \n", "35.6 | \n", "
40 | \n", "Yes | \n", "Alive | \n", "39.1 | \n", "
42 | \n", "Yes | \n", "Alive | \n", "35.7 | \n", "
46 | \n", "Yes | \n", "Dead | \n", "44.3 | \n", "
48 | \n", "Yes | \n", "Alive | \n", "37.5 | \n", "
49 | \n", "Yes | \n", "Alive | \n", "22.1 | \n", "
53 | \n", "Yes | \n", "Alive | \n", "39.0 | \n", "
56 | \n", "Yes | \n", "Alive | \n", "40.1 | \n", "
60 | \n", "Yes | \n", "Alive | \n", "58.1 | \n", "
61 | \n", "Yes | \n", "Alive | \n", "37.3 | \n", "
63 | \n", "Yes | \n", "Dead | \n", "36.3 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "
1240 | \n", "Yes | \n", "Alive | \n", "29.7 | \n", "
1243 | \n", "Yes | \n", "Alive | \n", "40.1 | \n", "
1251 | \n", "Yes | \n", "Alive | \n", "27.8 | \n", "
1252 | \n", "Yes | \n", "Alive | \n", "52.4 | \n", "
1253 | \n", "Yes | \n", "Alive | \n", "27.8 | \n", "
1254 | \n", "Yes | \n", "Alive | \n", "41.0 | \n", "
1259 | \n", "Yes | \n", "Alive | \n", "40.8 | \n", "
1260 | \n", "Yes | \n", "Alive | \n", "20.4 | \n", "
1263 | \n", "Yes | \n", "Alive | \n", "20.9 | \n", "
1264 | \n", "Yes | \n", "Alive | \n", "45.5 | \n", "
1269 | \n", "Yes | \n", "Alive | \n", "38.8 | \n", "
1270 | \n", "Yes | \n", "Alive | \n", "55.5 | \n", "
1271 | \n", "Yes | \n", "Alive | \n", "24.9 | \n", "
1273 | \n", "Yes | \n", "Alive | \n", "55.7 | \n", "
1276 | \n", "Yes | \n", "Alive | \n", "58.5 | \n", "
1278 | \n", "Yes | \n", "Alive | \n", "43.7 | \n", "
1282 | \n", "Yes | \n", "Alive | \n", "51.2 | \n", "
1284 | \n", "Yes | \n", "Dead | \n", "36.0 | \n", "
1285 | \n", "Yes | \n", "Alive | \n", "48.3 | \n", "
1288 | \n", "Yes | \n", "Dead | \n", "39.3 | \n", "
1295 | \n", "Yes | \n", "Dead | \n", "82.4 | \n", "
1296 | \n", "Yes | \n", "Alive | \n", "38.3 | \n", "
1297 | \n", "Yes | \n", "Alive | \n", "32.7 | \n", "
1299 | \n", "Yes | \n", "Dead | \n", "60.0 | \n", "
1303 | \n", "Yes | \n", "Alive | \n", "31.2 | \n", "
1304 | \n", "Yes | \n", "Alive | \n", "47.8 | \n", "
1305 | \n", "Yes | \n", "Alive | \n", "60.9 | \n", "
1307 | \n", "Yes | \n", "Alive | \n", "43.0 | \n", "
1309 | \n", "Yes | \n", "Alive | \n", "35.9 | \n", "
1311 | \n", "Yes | \n", "Dead | \n", "62.1 | \n", "
582 rows × 3 columns
\n", "\n", " | Smoker | \n", "Status | \n", "Age | \n", "
---|---|---|---|
2 | \n", "No | \n", "Dead | \n", "57.5 | \n", "
3 | \n", "No | \n", "Alive | \n", "47.1 | \n", "
5 | \n", "No | \n", "Alive | \n", "36.8 | \n", "
6 | \n", "No | \n", "Alive | \n", "23.8 | \n", "
11 | \n", "No | \n", "Dead | \n", "66.0 | \n", "
13 | \n", "No | \n", "Alive | \n", "58.4 | \n", "
14 | \n", "No | \n", "Dead | \n", "60.6 | \n", "
15 | \n", "No | \n", "Alive | \n", "25.1 | \n", "
16 | \n", "No | \n", "Alive | \n", "43.5 | \n", "
17 | \n", "No | \n", "Alive | \n", "27.1 | \n", "
18 | \n", "No | \n", "Alive | \n", "58.3 | \n", "
20 | \n", "No | \n", "Dead | \n", "73.2 | \n", "
22 | \n", "No | \n", "Alive | \n", "33.4 | \n", "
24 | \n", "No | \n", "Alive | \n", "18.0 | \n", "
25 | \n", "No | \n", "Alive | \n", "56.2 | \n", "
27 | \n", "No | \n", "Alive | \n", "25.8 | \n", "
28 | \n", "No | \n", "Dead | \n", "36.9 | \n", "
29 | \n", "No | \n", "Alive | \n", "20.2 | \n", "
33 | \n", "No | \n", "Alive | \n", "19.4 | \n", "
34 | \n", "No | \n", "Alive | \n", "56.9 | \n", "
41 | \n", "No | \n", "Dead | \n", "69.7 | \n", "
43 | \n", "No | \n", "Dead | \n", "75.8 | \n", "
44 | \n", "No | \n", "Alive | \n", "25.3 | \n", "
45 | \n", "No | \n", "Dead | \n", "83.0 | \n", "
47 | \n", "No | \n", "Alive | \n", "18.5 | \n", "
50 | \n", "No | \n", "Alive | \n", "82.8 | \n", "
51 | \n", "No | \n", "Alive | \n", "45.0 | \n", "
52 | \n", "No | \n", "Dead | \n", "73.3 | \n", "
54 | \n", "No | \n", "Alive | \n", "28.4 | \n", "
55 | \n", "No | \n", "Dead | \n", "73.7 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "
1262 | \n", "No | \n", "Alive | \n", "41.2 | \n", "
1265 | \n", "No | \n", "Alive | \n", "26.7 | \n", "
1266 | \n", "No | \n", "Alive | \n", "41.8 | \n", "
1267 | \n", "No | \n", "Alive | \n", "33.7 | \n", "
1268 | \n", "No | \n", "Alive | \n", "56.5 | \n", "
1272 | \n", "No | \n", "Alive | \n", "33.0 | \n", "
1274 | \n", "No | \n", "Alive | \n", "25.7 | \n", "
1275 | \n", "No | \n", "Alive | \n", "19.5 | \n", "
1277 | \n", "No | \n", "Alive | \n", "23.4 | \n", "
1279 | \n", "No | \n", "Alive | \n", "34.4 | \n", "
1280 | \n", "No | \n", "Dead | \n", "83.9 | \n", "
1281 | \n", "No | \n", "Alive | \n", "34.9 | \n", "
1283 | \n", "No | \n", "Dead | \n", "86.3 | \n", "
1286 | \n", "No | \n", "Alive | \n", "63.1 | \n", "
1287 | \n", "No | \n", "Alive | \n", "60.8 | \n", "
1289 | \n", "No | \n", "Alive | \n", "36.7 | \n", "
1290 | \n", "No | \n", "Alive | \n", "63.8 | \n", "
1291 | \n", "No | \n", "Dead | \n", "71.3 | \n", "
1292 | \n", "No | \n", "Alive | \n", "57.7 | \n", "
1293 | \n", "No | \n", "Alive | \n", "63.2 | \n", "
1294 | \n", "No | \n", "Alive | \n", "46.6 | \n", "
1298 | \n", "No | \n", "Alive | \n", "39.7 | \n", "
1300 | \n", "No | \n", "Dead | \n", "71.0 | \n", "
1301 | \n", "No | \n", "Alive | \n", "20.5 | \n", "
1302 | \n", "No | \n", "Alive | \n", "44.4 | \n", "
1306 | \n", "No | \n", "Dead | \n", "61.4 | \n", "
1308 | \n", "No | \n", "Alive | \n", "42.1 | \n", "
1310 | \n", "No | \n", "Alive | \n", "22.3 | \n", "
1312 | \n", "No | \n", "Dead | \n", "88.6 | \n", "
1313 | \n", "No | \n", "Alive | \n", "39.1 | \n", "
732 rows × 3 columns
\n", "\n", " | Statut | \n", "tauxMortalite | \n", "
---|---|---|
0 | \n", "Fumeuses | \n", "23.883162 | \n", "
1 | \n", "nonFumeuses | \n", "31.420765 | \n", "
\n", " | Smoker | \n", "Status | \n", "Age | \n", "Death | \n", "
---|---|---|---|---|
0 | \n", "Yes | \n", "Alive | \n", "21.0 | \n", "0 | \n", "
1 | \n", "Yes | \n", "Alive | \n", "19.3 | \n", "0 | \n", "
2 | \n", "No | \n", "Dead | \n", "57.5 | \n", "1 | \n", "
3 | \n", "No | \n", "Alive | \n", "47.1 | \n", "0 | \n", "
4 | \n", "Yes | \n", "Alive | \n", "81.4 | \n", "0 | \n", "
5 | \n", "No | \n", "Alive | \n", "36.8 | \n", "0 | \n", "
6 | \n", "No | \n", "Alive | \n", "23.8 | \n", "0 | \n", "
7 | \n", "Yes | \n", "Dead | \n", "57.5 | \n", "1 | \n", "
8 | \n", "Yes | \n", "Alive | \n", "24.8 | \n", "0 | \n", "
9 | \n", "Yes | \n", "Alive | \n", "49.5 | \n", "0 | \n", "
10 | \n", "Yes | \n", "Alive | \n", "30.0 | \n", "0 | \n", "
11 | \n", "No | \n", "Dead | \n", "66.0 | \n", "1 | \n", "
12 | \n", "Yes | \n", "Alive | \n", "49.2 | \n", "0 | \n", "
13 | \n", "No | \n", "Alive | \n", "58.4 | \n", "0 | \n", "
14 | \n", "No | \n", "Dead | \n", "60.6 | \n", "1 | \n", "
15 | \n", "No | \n", "Alive | \n", "25.1 | \n", "0 | \n", "
16 | \n", "No | \n", "Alive | \n", "43.5 | \n", "0 | \n", "
17 | \n", "No | \n", "Alive | \n", "27.1 | \n", "0 | \n", "
18 | \n", "No | \n", "Alive | \n", "58.3 | \n", "0 | \n", "
19 | \n", "Yes | \n", "Alive | \n", "65.7 | \n", "0 | \n", "
20 | \n", "No | \n", "Dead | \n", "73.2 | \n", "1 | \n", "
21 | \n", "Yes | \n", "Alive | \n", "38.3 | \n", "0 | \n", "
22 | \n", "No | \n", "Alive | \n", "33.4 | \n", "0 | \n", "
23 | \n", "Yes | \n", "Dead | \n", "62.3 | \n", "1 | \n", "
24 | \n", "No | \n", "Alive | \n", "18.0 | \n", "0 | \n", "
25 | \n", "No | \n", "Alive | \n", "56.2 | \n", "0 | \n", "
26 | \n", "Yes | \n", "Alive | \n", "59.2 | \n", "0 | \n", "
27 | \n", "No | \n", "Alive | \n", "25.8 | \n", "0 | \n", "
28 | \n", "No | \n", "Dead | \n", "36.9 | \n", "1 | \n", "
29 | \n", "No | \n", "Alive | \n", "20.2 | \n", "0 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
1284 | \n", "Yes | \n", "Dead | \n", "36.0 | \n", "1 | \n", "
1285 | \n", "Yes | \n", "Alive | \n", "48.3 | \n", "0 | \n", "
1286 | \n", "No | \n", "Alive | \n", "63.1 | \n", "0 | \n", "
1287 | \n", "No | \n", "Alive | \n", "60.8 | \n", "0 | \n", "
1288 | \n", "Yes | \n", "Dead | \n", "39.3 | \n", "1 | \n", "
1289 | \n", "No | \n", "Alive | \n", "36.7 | \n", "0 | \n", "
1290 | \n", "No | \n", "Alive | \n", "63.8 | \n", "0 | \n", "
1291 | \n", "No | \n", "Dead | \n", "71.3 | \n", "1 | \n", "
1292 | \n", "No | \n", "Alive | \n", "57.7 | \n", "0 | \n", "
1293 | \n", "No | \n", "Alive | \n", "63.2 | \n", "0 | \n", "
1294 | \n", "No | \n", "Alive | \n", "46.6 | \n", "0 | \n", "
1295 | \n", "Yes | \n", "Dead | \n", "82.4 | \n", "1 | \n", "
1296 | \n", "Yes | \n", "Alive | \n", "38.3 | \n", "0 | \n", "
1297 | \n", "Yes | \n", "Alive | \n", "32.7 | \n", "0 | \n", "
1298 | \n", "No | \n", "Alive | \n", "39.7 | \n", "0 | \n", "
1299 | \n", "Yes | \n", "Dead | \n", "60.0 | \n", "1 | \n", "
1300 | \n", "No | \n", "Dead | \n", "71.0 | \n", "1 | \n", "
1301 | \n", "No | \n", "Alive | \n", "20.5 | \n", "0 | \n", "
1302 | \n", "No | \n", "Alive | \n", "44.4 | \n", "0 | \n", "
1303 | \n", "Yes | \n", "Alive | \n", "31.2 | \n", "0 | \n", "
1304 | \n", "Yes | \n", "Alive | \n", "47.8 | \n", "0 | \n", "
1305 | \n", "Yes | \n", "Alive | \n", "60.9 | \n", "0 | \n", "
1306 | \n", "No | \n", "Dead | \n", "61.4 | \n", "1 | \n", "
1307 | \n", "Yes | \n", "Alive | \n", "43.0 | \n", "0 | \n", "
1308 | \n", "No | \n", "Alive | \n", "42.1 | \n", "0 | \n", "
1309 | \n", "Yes | \n", "Alive | \n", "35.9 | \n", "0 | \n", "
1310 | \n", "No | \n", "Alive | \n", "22.3 | \n", "0 | \n", "
1311 | \n", "Yes | \n", "Dead | \n", "62.1 | \n", "1 | \n", "
1312 | \n", "No | \n", "Dead | \n", "88.6 | \n", "1 | \n", "
1313 | \n", "No | \n", "Alive | \n", "39.1 | \n", "0 | \n", "
1314 rows × 4 columns
\n", "