"# Étude du Paradoxe de Simpson : Effet du Tabagisme sur la Survie des Femmes à Whickham"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Introduction\n",
"En 1972-1974, une enquête a été menée sur la santé des femmes à Whickham, en Angleterre. L'objectif était d'évaluer la relation entre le tabagisme et la survie à long terme. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme __fumant actuellement__ ou __n'ayant jamais fumé__. Nous allons analyser ces données pour explorer le Paradoxe de Simpson."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Étape 1 : Préparation des Données"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [],
"source": [
"import pandas as pd\n",
"import numpy as np\n",
"import seaborn as sns\n",
"import matplotlib.pyplot as plt\n",
"import statsmodels.api as sm\n",
"import statsmodels.formula.api as smf"
]
},
{
"cell_type": "code",
"execution_count": 12,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Noms des colonnes dans le DataFrame : Index(['Smoker', 'Status', 'Age'], dtype='object')\n"
"# Visualisation des taux de mortalité selon le statut de tabagisme\n",
"sns.barplot(x=table_smoking.index, y=table_smoking['Taux de mortalité'])\n",
"plt.title('Taux de mortalité selon le statut de tabagisme')\n",
"plt.ylabel('Taux de mortalité')\n",
"plt.xlabel('Statut de tabagisme')\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Interprétation : \n",
"La cigarette est souvent blâmée pour sa dangerosité. Cependant, d'après les résultats, les fumeurs semblent vivre plus longtemps. Ce résultat est surprenant, c'est pour ça qu'il est nommé « paradoxe », le paradoxe de Simpson."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Étape 3 : Analyse par Catégories d'Âge"
]
},
{
"cell_type": "code",
"execution_count": 38,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Table de survie par âge et statut de tabagisme :\n",
"sns.barplot(data=table_smoking_reset, x='GroupeAge', y='Taux de mortalité', hue='Smoker')\n",
"plt.title('Taux de mortalité selon le statut de tabagisme par groupe d\\'âge', fontsize=16)\n",
"plt.ylabel('Taux de mortalité', fontsize=12)\n",
"plt.xlabel('Groupe d\\'âge', fontsize=12)\n",
"plt.legend(title='Statut de tabagisme')\n",
"plt.xticks(rotation=45)\n",
"plt.ylim(0, 1)\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Interprétation : \n",
"Instinctivement, on pourrait s'attendre à ce que le tabagisme entraîne un risque de mortalité plus élevé, mais ce n'est pas forcément le cas ici. Ce paradoxe vient du fait que l'on n'a pas le contrôle absolu des personnes observées. En effet, il est possible que les non-fumeurs dans l'ensemble des données soient plus âgés en moyenne que les fumeurs."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Étape 4 : Régression Logistique"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# Création de la variable 'Death' pour indiquer si l'individu est décédé durant la période de 20 ans\n",
"data['Death'] = data['survived'].apply(lambda x: 0 if x == 'alive' else 1)\n",
"\n",
"# Modèle de régression logistique pour les fumeuses\n",
"plt.title('Probabilité de décès en fonction de l\\'âge et du statut de tabagisme')\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Conclusion\n",
"Le Paradoxe de Simpson apparaît ici car les taux de mortalité semblent diverger en fonction du tabagisme dans les groupes d'âge, suggérant une conclusion différente lorsque l'on analyse toutes les femmes en tant que groupe unique comparé à une analyse par tranche d'âge."
"# Étude du Paradoxe de Simpson : Effet du Tabagisme sur la Survie des Femmes à Whickham"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Introduction\n",
"En 1972-1974, une enquête a été menée sur la santé des femmes à Whickham, en Angleterre. L'objectif était d'évaluer la relation entre le tabagisme et la survie à long terme. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme __fumant actuellement__ ou __n'ayant jamais fumé__. Nous allons analyser ces données pour explorer le Paradoxe de Simpson."
"# Visualisation des taux de mortalité selon le statut de tabagisme\n",
"sns.barplot(x=table_smoking.index, y=table_smoking['Taux de mortalité'])\n",
"plt.title('Taux de mortalité selon le statut de tabagisme')\n",
"plt.ylabel('Taux de mortalité')\n",
"plt.xlabel('Statut de tabagisme')\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Interprétation : \n",
"La cigarette est souvent blâmée pour sa dangerosité. Instinctivement, on pourrait s'attendre à ce que le tabagisme entraîne un risque de mortalité plus élevé, mais ce n'est pas forcément le cas ici. Cependant, d'après les résultats, les fumeurs semblent vivre plus longtemps. Ce résultat est surprenant, c'est pour ça qu'il est nommé « paradoxe », le paradoxe de Simpson. Ce paradoxe vient du fait que l'on n'a pas le contrôle absolu des personnes observées. En effet, il est possible que les non-fumeurs dans l'ensemble des données soient plus âgés en moyenne que les fumeurs."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Étape 3 : Analyse par Catégories d'Âge"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Table de survie par âge et statut de tabagisme :\n",
"sns.barplot(data=table_smoking_reset, x='GroupeAge', y='Taux de mortalité', hue='Smoker')\n",
"plt.title('Taux de mortalité selon le statut de tabagisme par groupe d\\'âge', fontsize=16)\n",
"plt.ylabel('Taux de mortalité', fontsize=12)\n",
"plt.xlabel('Groupe d\\'âge', fontsize=12)\n",
"plt.legend(title='Statut de tabagisme')\n",
"plt.xticks(rotation=45)\n",
"plt.ylim(0, 1)\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Interprétation : \n",
"Les taux de mortalité augmentent généralement avec l'âge, mais il est intéressant de noter que les fumeuses ont un taux de mortalité plus élevé à chaque classe d'âge, ce qui est un indicateur de l'impact du tabagisme sur la santé. Ce phénomène peut être expliqué par les effets à long terme du tabagisme sur des maladies telles que le cancer, les maladies cardiovasculaires, et les maladies pulmonaires. Ce qui est étrange ici c'est que le taux de mortalité est similaire pour les femmes de +65 ans.\n",
"\n",
"Ce paradoxe peut être expliqué simplement : Les fumeuses qui atteignent 85 ans sont donc une population sélectionnée, ayant survécu aux effets du tabac, tandis que les non-fumeuses à cet âge ont généralement une meilleure espérance de vie, malgré un nombre absolu de décès plus élevé. Ainsi, le taux de mortalité reste similaire en raison de la taille relative des groupes."
"plt.title('Probabilité de décès en fonction de l\\'âge et du statut de tabagisme')\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Interprétation : \n",
"Les régressions montrent une différence de probabilité de décès entre les fumeuses et les non-fumeuses en fonction de l'âge. Bien que ces modèles indiquent une tendance générale, ils ne peuvent pas prouver de manière définitive que le tabagisme est la seule cause de ces décès. En effet, d'autres facteurs (comme l'alimentation, l'activité physique, etc.) peuvent influencer la santé. Cependant, si on observe que les fumeuses ont une probabilité plus élevée de décéder à des âges plus jeunes, cela suggère clairement que le tabagisme a un impact négatif sur la santé. C'est un indice fort de la nocivité du tabac, même si ce n'est pas une preuve absolue."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Conclusion\n",
"Le Paradoxe de Simpson apparaît ici car les taux de mortalité semblent diverger en fonction du tabagisme dans les groupes d'âge, suggérant une conclusion différente lorsque l'on analyse toutes les femmes en tant que groupe unique comparé à une analyse par tranche d'âge."
"# Étude du Paradoxe de Simpson : Effet du Tabagisme sur la Survie des Femmes à Whickham"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Introduction\n",
"En 1972-1974, une enquête a été menée sur la santé des femmes à Whickham, en Angleterre. L'objectif était d'évaluer la relation entre le tabagisme et la survie à long terme. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme __fumant actuellement__ ou __n'ayant jamais fumé__. Nous allons analyser ces données pour explorer le Paradoxe de Simpson."
"# Visualisation des taux de mortalité selon le statut de tabagisme\n",
"sns.barplot(x=table_smoking.index, y=table_smoking['Taux de mortalité'])\n",
"plt.title('Taux de mortalité selon le statut de tabagisme')\n",
"plt.ylabel('Taux de mortalité')\n",
"plt.xlabel('Statut de tabagisme')\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Interprétation : \n",
"La cigarette est souvent blâmée pour sa dangerosité. Instinctivement, on pourrait s'attendre à ce que le tabagisme entraîne un risque de mortalité plus élevé, mais ce n'est pas forcément le cas ici. Cependant, d'après les résultats, les fumeurs semblent vivre plus longtemps. Ce résultat est surprenant, c'est pour ça qu'il est nommé « paradoxe », le paradoxe de Simpson. Ce paradoxe vient du fait que l'on n'a pas le contrôle absolu des personnes observées. En effet, il est possible que les non-fumeurs dans l'ensemble des données soient plus âgés en moyenne que les fumeurs."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Étape 3 : Analyse par Catégories d'Âge"
]
},
{
"cell_type": "code",
"execution_count": 40,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Table de survie par âge et statut de tabagisme :\n",
"sns.barplot(data=table_smoking_reset, x='GroupeAge', y='Taux de mortalité', hue='Smoker')\n",
"plt.title('Taux de mortalité selon le statut de tabagisme par groupe d\\'âge', fontsize=16)\n",
"plt.ylabel('Taux de mortalité', fontsize=12)\n",
"plt.xlabel('Groupe d\\'âge', fontsize=12)\n",
"plt.legend(title='Statut de tabagisme')\n",
"plt.xticks(rotation=45)\n",
"plt.ylim(0, 1)\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Interprétation : \n",
"Les taux de mortalité augmentent généralement avec l'âge, mais il est intéressant de noter que les fumeuses ont un taux de mortalité plus élevé à chaque classe d'âge, ce qui est un indicateur de l'impact du tabagisme sur la santé. Ce phénomène peut être expliqué par les effets à long terme du tabagisme sur des maladies telles que le cancer, les maladies cardiovasculaires, et les maladies pulmonaires. Ce qui est étrange ici c'est que le taux de mortalité est similaire pour les femmes de +65 ans.\n",
"\n",
"Ce paradoxe peut être expliqué simplement : Les fumeuses qui atteignent 85 ans sont donc une population sélectionnée, ayant survécu aux effets du tabac, tandis que les non-fumeuses à cet âge ont généralement une meilleure espérance de vie, malgré un nombre absolu de décès plus élevé. Ainsi, le taux de mortalité reste similaire en raison de la taille relative des groupes."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Étape 4 : Régression Logistique"
]
},
{
"cell_type": "code",
"execution_count": 52,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Erreur : Un ou plusieurs groupes sont vides.\n"
]
}
],
"source": [
"# Vérification si les groupes 'fumeuses' et 'non-fumeuses' ont des données\n",
" plt.title('Probabilité de décès en fonction de l\\'âge et du statut de tabagisme')\n",
" plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Conclusion\n",
"Le Paradoxe de Simpson apparaît ici car les taux de mortalité semblent diverger en fonction du tabagisme dans les groupes d'âge, suggérant une conclusion différente lorsque l'on analyse toutes les femmes en tant que groupe unique comparé à une analyse par tranche d'âge."