{ "cells": [ { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "# Autour du Paradoxe de Simpson" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Import des bibliothèses Pyhtons" ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [], "source": [ "%matplotlib inline\n", "import matplotlib.pyplot as plt\n", "import numpy as np\n", "import pandas as pd\n", "import statsmodels.formula.api as smf\n", "import seaborn as sns" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "## Contexte et objectifs du travail" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "### Quelques éléments de contexte" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située à environ 6,5 kilomètres au sud ouest de Newcastle upon Tyne, un sondage d'un sixième des électeurs a été effectué afin d'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme \"fumant actuellement\" ou \"n'ayant jamais fumé\". Il y avait relativement peu de femmes dans le sondage initial ayant fumé mais ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage." ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "### Objectifs du travail" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "1. Représentez dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculez dans chaque groupe (fumeuses/ non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe avec le nombre total de femmes dans ce groupe). Vous pourrez proposer une représentation graphique de ces données et calculer des intervalles de confiance si vous le souhaitez. En quoi ce résultat est-il surprenant ?\n", "2. Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera par exemple les classes suivantes: 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans. En quoi ce résultat est-il surprenant ? Arrivez vous à expliquer ce paradoxe ? De même, vous pourrez proposer une représentation graphique de ces données pour étayer vos explications.\n", "3. Afin d'éviter un biais induis par des regroupements en tranches d'âges arbitraires et non régulières, il est envisageable d'essayer de réaliser une régression logistique. Si on introduit une variable Death valant 1 ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans, on peut étudier le modèle Death ~ Age pour étudier la probabilité de décès en fonction de l'âge selon que l'on considère le groupe des fumeuses ou des non fumeuses. Ces régressions vous permettent de conclure ou pas sur la nocivité du tabagisme ? Vous pourrez proposer une représentation graphique de ces régressions (en n'omettant pas les régions de confiance)." ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "## Réponse aux objectifs" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Les données sont disponibles sur l'espace gitlab [suivant](https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/blob/master/module3/Practical_session/Subject6_smoking.csv). Elles sont importées directement depuis le lien correspondant dans la variable data_url:" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [], "source": [ "data_url = \"https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/-/raw/master/module3/Practical_session/Subject6_smoking.csv?inline=false\"" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Import des données dans Python et vérification que le fichier ne contient pas de ligne vide (ce n'est pas le cas)." ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
SmokerStatusAge
\n", "
" ], "text/plain": [ "Empty DataFrame\n", "Columns: [Smoker, Status, Age]\n", "Index: []" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "raw_data = pd.read_csv(data_url)\n", "raw_data[raw_data.isnull().any(axis=1)]" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "### Relation décès - tabagisme" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Affichage d'un tableau représentant le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme ainsi que le taux de mortalité." ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Smoker Status\n", "No Alive 502\n", " Dead 230\n", "Yes Alive 443\n", " Dead 139\n", "Name: Status, dtype: int64\n" ] } ], "source": [ "Table_1 = raw_data.groupby('Smoker').Status.value_counts()\n", "print(Table_1)" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Calcul du taux de mortalité par groupe et affichage des résultats." ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Taux_mortalite_fumeur = 0.23883161512027493\n", "Taux_mortalite_non_fumeur = 0.31420765027322406\n" ] } ], "source": [ "Taux_mortalite_fumeur = Table_1.Yes.Dead /(Table_1.Yes.Dead + Table_1.Yes.Alive)\n", "Taux_mortalite_non_fumeur = Table_1.No.Dead/(Table_1.No.Dead + Table_1.No.Alive)\n", "print(\"Taux_mortalite_fumeur =\", Taux_mortalite_fumeur)\n", "print(\"Taux_mortalite_non_fumeur =\", Taux_mortalite_non_fumeur)" ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "hideCode": false, "hidePrompt": false, "scrolled": true }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "Taux_vivant = [1-Taux_mortalite_fumeur, 1-Taux_mortalite_non_fumeur]\n", "Taux_mort = [Taux_mortalite_fumeur, Taux_mortalite_non_fumeur]\n", "Habitude_tabagisme = ['Fumeuse','Non fumeuse']\n", "\n", "width = 0.35\n", "x = np.arange(len(Habitude_tabagisme))\n", "\n", "fig, ax = plt.subplots()\n", "ax.bar(x - width/2, Taux_mort, width,label = 'Mortes', color='k')\n", "ax.bar(x + width/2, Taux_vivant, width,label = 'Vivantes', color='b')\n", "\n", "ax.set_ylabel('Taux')\n", "ax.set_title('Taux de femmes mortes et vivantes suivant leur habitude de tabagisme')\n", "ax.set_xticks(x)\n", "ax.set_xticklabels(Habitude_tabagisme)\n", "ax.legend(loc='center left', bbox_to_anchor=(1, 0.5))" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "A première vue ces résultats sont donc contre-intuitifs et indiquent une mortalité plus importantes chez les individus non-fumeuses. L'analyse requiert donc une investigation supplémentaire des données." ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "### Prise en compte de l'age des individus" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Afin d'approfondir l'analyse, prenons en compte l'age des individus en les répatissant en quatre classes d'age : 18-34 ans, 35-54 ans, 55-64 ans, plus de 65 ans. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Création de la colonne listant les catégories d'age." ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [], "source": [ "Data_cat = raw_data\n", "Classe_age = [\"18-34\", \"35-54\", \"55-64\", \"65+\" ]\n", "Data_cat['Cat_age'] = pd.cut(Data_cat.Age, [18, 34, 54, 64, 200],include_lowest = True, labels=Classe_age)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Reprenons l'analyse précédente mais cette fois par classe d'age et non par habitude de tabagisme." ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Smoker Status\n", "No Alive 502\n", " Dead 230\n", "Yes Alive 443\n", " Dead 139\n", "Name: Status, dtype: int64\n" ] }, { "data": { "text/plain": [ "" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "Table_2 = raw_data.groupby('Cat_age').Status.value_counts()\n", "print(Table_1)\n", "\n", "Taux_m_clas1 = Table_2['18-34'].Dead /(Table_2['18-34'].Dead + Table_2['18-34'].Alive)\n", "Taux_m_clas2 = Table_2['35-54'].Dead /(Table_2['35-54'].Dead + Table_2['35-54'].Alive)\n", "Taux_m_clas3 = Table_2['55-64'].Dead /(Table_2['55-64'].Dead + Table_2['55-64'].Alive)\n", "Taux_m_clas4 = Table_2['65+'].Dead /(Table_2['65+'].Dead + Table_2['65+'].Alive)\n", "\n", "Taux_vivant = [1-Taux_m_clas1, 1-Taux_m_clas2, 1-Taux_m_clas3, 1-Taux_m_clas4]\n", "Taux_mort = [Taux_m_clas1, Taux_m_clas2, Taux_m_clas3, Taux_m_clas4]\n", "\n", "width = 0.35\n", "x = np.arange(len(Classe_age))\n", "\n", "fig, ax = plt.subplots()\n", "ax.bar(x - width/2, Taux_mort, width,label = 'Mortes', color='k')\n", "ax.bar(x + width/2, Taux_vivant, width,label = 'Vivantes', color='b')\n", "\n", "ax.set_ylabel('Taux')\n", "ax.set_title('Taux de femmes mortes et vivantes suivant leur age')\n", "ax.set_xticks(x)\n", "ax.set_xticklabels(Classe_age)\n", "ax.legend(loc='center left', bbox_to_anchor=(1, 0.5))\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Or, il apparait que les individus \"fumeuses\" de l'échantillon sont plus jeunes que les \"non-fumeuses\". Les moyennes d'age pour chaque groupe sont en effet de:" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " Age\n", "Smoker \n", "No 49.815847\n", "Yes 44.269759\n" ] } ], "source": [ "Moyenne_age = raw_data.groupby('Smoker').mean()\n", "print(Moyenne_age)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Avec un écart type de :" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " Age\n", "Smoker \n", "No 20.898294\n", "Yes 16.217886\n" ] } ], "source": [ "Std_age = raw_data.groupby('Smoker').std()\n", "print(Std_age)" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Visualisons la répartition en classe d'age par habitude de tabagisme." ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "Table_2 = raw_data.groupby('Smoker').Cat_age.value_counts()\n", "Habitude_tabagisme = ['Fumeuse','Non fumeuse']\n", "Clas_1 = [Table_2.Yes['18-34'], Table_2.No['18-34']]\n", "Clas_2 = [Table_2.Yes['35-54'], Table_2.No['35-54']]\n", "Clas_3 = [Table_2.Yes['55-64'], Table_2.No['55-64']]\n", "Clas_4 = [Table_2.Yes['65+'], Table_2.No['65+']]\n", "\n", "width = 0.2\n", "x = np.arange(len(Habitude_tabagisme))\n", "\n", "fig, ax = plt.subplots()\n", "ax.bar(x - 3*width/2, Clas_1, width,label = '18-34')\n", "ax.bar(x - width/2, Clas_2, width,label = '35-54')\n", "ax.bar(x + width/2, Clas_3, width,label = '55-64')\n", "ax.bar(x + 3*width/2, Clas_4, width,label = '65+')\n", "\n", "ax.set_ylabel('Taux')\n", "ax.set_title('Taux de femmes mortes et vivantes suivant leur habitude de tabagisme')\n", "ax.set_xticks(x)\n", "ax.set_xticklabels(Habitude_tabagisme)\n", "ax.legend(loc='center left', bbox_to_anchor=(1, 0.5))\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Cete analyse complémentaire semble ainsi montrer que la surmortalité chez les non-fumeuse est avant tout liée à une suresprésentation des catégories d'age plus élevée, le taux de mortalité étant fortement lié à l'age." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Utilisation d'une regression logistique" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Afin d'éviter un biais induis par des regroupements en tranches d'âges arbitraires et non régulières, utilisons une regresion logistique. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Une variable Death qui vaut 0 ou 1 suivant que l'individu est décédé ou non est introduite." ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Text(0.5,1,'Regression logistique - Death vs Age')" ] }, "execution_count": 16, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "Data_deat = raw_data\n", "Data_deat['Death'] = np.where(Data_deat['Status'] == 'Alive', 0, 1)\n", "\n", "sns.regplot(x= Data_deat.Age, y= Data_deat.Death, logistic= True).set_title(\"Regression logistique - Death vs Age\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Cette regression logistique confirme bien la forte dépendance entre age et taux de mortalité." ] } ], "metadata": { "hide_code_all_hidden": false, "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.4" } }, "nbformat": 4, "nbformat_minor": 2 }