{
"cells": [
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"# Sujet 6 : Autour du Paradoxe de Simpson"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"**Prérequis** : calcul de moyennes et de ratios, techniques de présentations graphiques simples, éventuellement régression logistique"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage d'un sixième des électeurs a été effectué afin d'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et cherchaient à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme \"fumant actuellement\" ou \"n'ayant jamais fumé\". Il y avait relativement peu de femmes dans le sondage initial ayant fumé et ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage."
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"## Étape 1 : Importation des bibliothèques et des données"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"La première étape consiste à importer les bibliothèques nécessaires (Pandas pour la gestion des données, Statsmodels pour la régression logistique, Seaborn et Matplotlib pour les visualisations), puis à charger les données depuis un fichier CSV."
]
},
{
"cell_type": "code",
"execution_count": 109,
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"outputs": [],
"source": [
"%matplotlib inline\n",
"import matplotlib.pyplot as plt # Pour afficher les graphiques\n",
"import seaborn as sns # Pour la visualisation\n",
"import pandas as pd\n",
"import isoweek\n",
"import numpy as np\n",
"import statsmodels.api as sm # Pour la régression logistique"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"### Charger les données depuis un fichier CSV"
]
},
{
"cell_type": "code",
"execution_count": 72,
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"outputs": [],
"source": [
"df = pd.read_csv('Subject6_smoking.csv')"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"On affiche les 5 premières lignes du fichier pour vérifier si tout fonctionne bien"
]
},
{
"cell_type": "code",
"execution_count": 73,
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
Smoker
\n",
"
Status
\n",
"
Age
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
Yes
\n",
"
Alive
\n",
"
21.0
\n",
"
\n",
"
\n",
"
1
\n",
"
Yes
\n",
"
Alive
\n",
"
19.3
\n",
"
\n",
"
\n",
"
2
\n",
"
No
\n",
"
Dead
\n",
"
57.5
\n",
"
\n",
"
\n",
"
3
\n",
"
No
\n",
"
Alive
\n",
"
47.1
\n",
"
\n",
"
\n",
"
4
\n",
"
Yes
\n",
"
Alive
\n",
"
81.4
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" Smoker Status Age\n",
"0 Yes Alive 21.0\n",
"1 Yes Alive 19.3\n",
"2 No Dead 57.5\n",
"3 No Alive 47.1\n",
"4 Yes Alive 81.4"
]
},
"execution_count": 73,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df.head()"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"## Étape 2 : Calcul des effectifs vivants et décédés par statut de fumeur"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"Dans cette étape, nous voulons calculer combien de femmes sont vivantes ou décédées en fonction de leur statut de fumeur (fumeuse ou non). On utilise ```groupby()``` pour regrouper les données par ```Smoker``` et ```Status```, puis on utilise ```size()``` pour compter le nombre d'éléments dans chaque groupe."
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"### Groupement des données par statut de fumeur et statut de vie/mort"
]
},
{
"cell_type": "code",
"execution_count": 74,
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"outputs": [],
"source": [
"grouped = df.groupby(['Smoker', 'Status']).size().unstack(fill_value=0)"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"Affichage du tableau des effectifs"
]
},
{
"cell_type": "code",
"execution_count": 75,
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
Status
\n",
"
Alive
\n",
"
Dead
\n",
"
\n",
"
\n",
"
Smoker
\n",
"
\n",
"
\n",
"
\n",
" \n",
" \n",
"
\n",
"
No
\n",
"
502
\n",
"
230
\n",
"
\n",
"
\n",
"
Yes
\n",
"
443
\n",
"
139
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
"Status Alive Dead\n",
"Smoker \n",
"No 502 230\n",
"Yes 443 139"
]
},
"execution_count": 75,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"grouped"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"## Étape 3 : Calcul du taux de mortalité"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"Le taux de mortalité est défini comme le nombre de décès divisé par le nombre total de personnes dans chaque groupe (vivantes + décédées)."
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"### Calcul du taux de mortalité par groupe de fumeur"
]
},
{
"cell_type": "code",
"execution_count": 76,
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"outputs": [],
"source": [
"grouped['Mortality Rate'] = grouped['Dead'] / (grouped['Alive'] + grouped['Dead'])"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"Affichage des résultats avec le taux de mortalité"
]
},
{
"cell_type": "code",
"execution_count": 77,
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"outputs": [
{
"data": {
"text/html": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"plt.figure(figsize=(8, 6))\n",
"sns.barplot(data=grouped, x=grouped.index, y='Mortality Rate', palette='Set2')\n",
"\n",
"# Ajout des labels et du titre\n",
"plt.xlabel('Statut de fumeur')\n",
"plt.ylabel('Taux de mortalité')\n",
"plt.title('Taux de mortalité en fonction du statut de fumeur')\n",
"\n",
"# Affichage du graphique\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Ces résultats semblent à première vue contre-intuitifs, car on pourrait s'attendre à ce que les fumeuses aient un taux de mortalité plus élevé que les non-fumeuses. On sait depuis longtemps que le tabagisme est largement reconnu comme un facteur de risque majeur pour diverses maladies graves, telles que les maladies cardiaques, les cancers et d'autres troubles respiratoires, qui peuvent entraîner un taux de mortalité plus élevé."
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"## Étape 4 : Introduction des classes d'âge"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"Les classes d'âge sont divisées en intervalles (18-34, 34-54, 55-64, 65+), et ces catégories sont ajoutées à notre DataFrame à l'aide de la fonction ```pd.cut()```."
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"Définition des tranches d'âge"
]
},
{
"cell_type": "code",
"execution_count": 78,
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"outputs": [],
"source": [
"bins = [0, 34, 54, 64, 100] # Tranches d'âge\n",
"labels = ['18-34', '34-54', '55-64', '65+']"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"Ajouter une colonne 'Age Group' à df"
]
},
{
"cell_type": "code",
"execution_count": 79,
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"outputs": [],
"source": [
"df['Age Group'] = pd.cut(df['Age'], bins=bins, labels=labels, right=False)"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"Groupement par statut de fumeur, groupe d'âge et statut de vie/mort"
]
},
{
"cell_type": "code",
"execution_count": 80,
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"outputs": [],
"source": [
"grouped_age = df.groupby(['Smoker', 'Age Group', 'Status']).size().unstack(fill_value=0)"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"Calcul du taux de mortalité par groupe d'âge et statut de fumeur"
]
},
{
"cell_type": "code",
"execution_count": 81,
"metadata": {},
"outputs": [],
"source": [
"grouped_age['Mortality Rate'] = grouped_age['Dead'] / (grouped_age['Alive'] + grouped_age['Dead'])"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
" Affichage des effectifs et du taux de mortalité par groupe d'âge et statut de fumeur"
]
},
{
"cell_type": "code",
"execution_count": 82,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
Status
\n",
"
Alive
\n",
"
Dead
\n",
"
Mortality Rate
\n",
"
\n",
"
\n",
"
Smoker
\n",
"
Age Group
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" \n",
"
\n",
"
No
\n",
"
18-34
\n",
"
213
\n",
"
6
\n",
"
0.027397
\n",
"
\n",
"
\n",
"
34-54
\n",
"
180
\n",
"
19
\n",
"
0.095477
\n",
"
\n",
"
\n",
"
55-64
\n",
"
80
\n",
"
39
\n",
"
0.327731
\n",
"
\n",
"
\n",
"
65+
\n",
"
29
\n",
"
166
\n",
"
0.851282
\n",
"
\n",
"
\n",
"
Yes
\n",
"
18-34
\n",
"
174
\n",
"
5
\n",
"
0.027933
\n",
"
\n",
"
\n",
"
34-54
\n",
"
198
\n",
"
41
\n",
"
0.171548
\n",
"
\n",
"
\n",
"
55-64
\n",
"
64
\n",
"
51
\n",
"
0.443478
\n",
"
\n",
"
\n",
"
65+
\n",
"
7
\n",
"
42
\n",
"
0.857143
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
"Status Alive Dead Mortality Rate\n",
"Smoker Age Group \n",
"No 18-34 213 6 0.027397\n",
" 34-54 180 19 0.095477\n",
" 55-64 80 39 0.327731\n",
" 65+ 29 166 0.851282\n",
"Yes 18-34 174 5 0.027933\n",
" 34-54 198 41 0.171548\n",
" 55-64 64 51 0.443478\n",
" 65+ 7 42 0.857143"
]
},
"execution_count": 82,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"grouped_age"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Le résultat est surprenant car, à première vue, on pourrait s'attendre à ce que les fumeuses aient un taux de mortalité plus élevé que les non-fumeuses à chaque tranche d'âge, étant donné que le tabagisme est un facteur de risque bien documenté pour de nombreuses maladies mortelles (comme les maladies cardiaques, le cancer, etc.). Cependant, le tableau montre que ce n'est pas toujours le cas."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Le paradoxe de Simpson survient lorsque des tendances apparentes dans plusieurs groupes sont inversées lorsqu'on regroupe ces groupes ensemble. Dans ce cas, bien que le tabagisme semble augmenter la mortalité dans certaines tranches d'âge, l'âge joue un rôle plus important dans les tranches plus âgées."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On a par exemple un effet confondant de l'âge : Les non-fumeuses âgées dans les tranches 55-64 ans et 65+ ont probablement d'autres facteurs de risque de mortalité (comme des maladies cardiovasculaires, l'hypertension, le diabète, etc.) qui contribuent à leur taux de mortalité élevé. À l'inverse, les fumeuses dans ces tranches d'âge peuvent être relativement jeunes et en meilleure santé globale, ce qui réduit l'impact apparent du tabagisme."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Étape 5 : Régression logistique"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Ici, nous analysons la probabilité de décès en fonction de l'âge et du statut de fumeur à l'aide d'une régression logistique."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Création de la variable binaire 'Death' où 1 = mort, 0 = vivant"
]
},
{
"cell_type": "code",
"execution_count": 83,
"metadata": {},
"outputs": [],
"source": [
"df['Death'] = df['Status'].apply(lambda x: 1 if x == 'Dead' else 0)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Modèle de régression logistique : 'Death' ~ 'Age' + 'Smoker'"
]
},
{
"cell_type": "code",
"execution_count": 84,
"metadata": {},
"outputs": [],
"source": [
"X = pd.get_dummies(df[['Age', 'Smoker']], drop_first=True) # Convertir 'Smoker' en variables binaires\n",
"y = df['Death']"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Ajouter une constante pour l'interception"
]
},
{
"cell_type": "code",
"execution_count": 85,
"metadata": {},
"outputs": [],
"source": [
"X = sm.add_constant(X)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Création du modèle logistique"
]
},
{
"cell_type": "code",
"execution_count": 93,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Optimization terminated successfully.\n",
" Current function value: 0.381244\n",
" Iterations 7\n"
]
}
],
"source": [
"model = sm.Logit(y, X)\n",
"result = model.fit()"
]
},
{
"cell_type": "code",
"execution_count": 94,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"
Logit Regression Results
\n",
"
\n",
"
Dep. Variable:
Death
No. Observations:
1314
\n",
"
\n",
"
\n",
"
Model:
Logit
Df Residuals:
1311
\n",
"
\n",
"
\n",
"
Method:
MLE
Df Model:
2
\n",
"
\n",
"
\n",
"
Date:
Sun, 10 Nov 2024
Pseudo R-squ.:
0.3579
\n",
"
\n",
"
\n",
"
Time:
20:08:45
Log-Likelihood:
-500.95
\n",
"
\n",
"
\n",
"
converged:
True
LL-Null:
-780.16
\n",
"
\n",
"
\n",
"
LLR p-value:
5.534e-122
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
coef
std err
z
P>|z|
[0.025
0.975]
\n",
"
\n",
"
\n",
"
const
-6.3519
0.360
-17.637
0.000
-7.058
-5.646
\n",
"
\n",
"
\n",
"
Age
0.0998
0.006
17.290
0.000
0.089
0.111
\n",
"
\n",
"
\n",
"
Smoker_Yes
0.2787
0.165
1.689
0.091
-0.045
0.602
\n",
"
\n",
"
"
],
"text/plain": [
"\n",
"\"\"\"\n",
" Logit Regression Results \n",
"==============================================================================\n",
"Dep. Variable: Death No. Observations: 1314\n",
"Model: Logit Df Residuals: 1311\n",
"Method: MLE Df Model: 2\n",
"Date: Sun, 10 Nov 2024 Pseudo R-squ.: 0.3579\n",
"Time: 20:08:45 Log-Likelihood: -500.95\n",
"converged: True LL-Null: -780.16\n",
" LLR p-value: 5.534e-122\n",
"==============================================================================\n",
" coef std err z P>|z| [0.025 0.975]\n",
"------------------------------------------------------------------------------\n",
"const -6.3519 0.360 -17.637 0.000 -7.058 -5.646\n",
"Age 0.0998 0.006 17.290 0.000 0.089 0.111\n",
"Smoker_Yes 0.2787 0.165 1.689 0.091 -0.045 0.602\n",
"==============================================================================\n",
"\"\"\""
]
},
"execution_count": 94,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"result.summary()"
]
},
{
"cell_type": "code",
"execution_count": 110,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"# Calcul des odds ratios (exp(coef)) et intervalles de confiance\n",
"coefficients = result.params\n",
"conf_int = result.conf_int()\n",
"conf_int['OR'] = np.exp(coefficients)\n",
"conf_int['OR Lower'] = np.exp(conf_int[0])\n",
"conf_int['OR Upper'] = np.exp(conf_int[1])\n",
"\n",
"# Affichage des résultats sous forme de graphique\n",
"plt.figure(figsize=(10, 6))\n",
"sns.barplot(x=conf_int.index, y=conf_int['OR'], yerr=[conf_int['OR Lower'], conf_int['OR Upper']])\n",
"plt.ylabel('Odds Ratio (OR)')\n",
"plt.title('Effet du Tabagisme et de l\\'Âge sur la Probabilité de Décès')\n",
"\n",
"# Affichage du graphique\n",
"plt.xticks(rotation=45)\n",
"plt.show()\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"L'âge est un facteur significatif dans la probabilité de décès, ce qui n'est pas surprenant, car la mortalité augmente généralement avec l'âge.\n",
"\n",
"Mais les résultats de la régression logistique montrent que l'effet du tabagisme sur la probabilité de décès est positif, mais statistiquement non significatif. Le coefficient pour le tabagisme (Smoker_Yes) est de 0.2787, avec un p-value de 0.091. Cela signifie que, bien qu'il existe une tendance suggérant que les fumeuses ont une probabilité plus élevée de décéder que les non-fumeuses, cette relation n'est pas suffisamment robuste pour conclure que le tabagisme est un facteur significatif de la mortalité dans ce modèle. L'intervalle de confiance pour ce coefficient inclut 0, ce qui confirme cette absence de significativité."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Étape 6: Visualisation des résultats"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Dans cette étape, nous créons un graphique pour visualiser le taux de mortalité par groupe d'âge et statut de fumeur. Nous utilisons Seaborn pour créer un diagramme à barres."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Calcul du taux de mortalité par statut de fumeur et groupe d'âge"
]
},
{
"cell_type": "code",
"execution_count": 96,
"metadata": {
"scrolled": true
},
"outputs": [],
"source": [
"mortality_by_group = df.groupby(['Age Group', 'Smoker'])['Death'].mean().reset_index()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Renommer la colonne 'Death' en 'Mortality Rate'"
]
},
{
"cell_type": "code",
"execution_count": 97,
"metadata": {},
"outputs": [],
"source": [
"mortality_by_group.rename(columns={'Death': 'Mortality Rate'}, inplace=True)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Graphique des taux de mortalité par groupe d'âge et statut de fumeur"
]
},
{
"cell_type": "code",
"execution_count": 98,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
""
]
},
"execution_count": 98,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"sns.barplot(data=mortality_by_group, x='Age Group', y='Mortality Rate', hue='Smoker')"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Titre et affichage du graphique"
]
},
{
"cell_type": "code",
"execution_count": 101,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"sns.lmplot(data=df, x='Age', y='Predicted Death Probability', hue='Smoker', logistic=True)\n",
"\n",
"plt.title(\"Probabilité de décès par âge et statut de fumeur\")\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Conclusion sur l'Analyse des Données de Mortalité en Fonction du Statut de Fumeur\n",
"\n",
"L’étude des données de mortalité entre fumeuses et non-fumeuses révèle des résultats complexes et surprenants, illustrant un phénomène lié au **paradoxe de Simpson**. Les taux de mortalité, lorsqu’ils sont analysés en fonction des groupes d'âge, montrent que les fumeuses ont un taux de mortalité plus élevé dans chaque catégorie d'âge par rapport aux non-fumeuses. Cependant, lorsqu’on observe les taux globaux sans tenir compte de l'âge, les non-fumeuses présentent un taux de mortalité plus élevé, ce qui semble contre-intuitif.\n",
"\n",
"Ce paradoxe s'explique en grande partie par la **composition d'âge différente** des deux groupes. En effet, la population de fumeuses est généralement plus jeune, tandis que celle des non-fumeuses est souvent plus âgée. Cette différence d'âge entraîne un biais dans les taux de mortalité globaux. Les femmes plus âgées, même non-fumeuses, présentent un risque de mortalité plus élevé que les jeunes, indépendamment de leur statut de fumeuses ou non. Ainsi, lorsque l’âge n’est pas contrôlé, il semble que le tabagisme n’a pas d’effet sur la mortalité, voire que le taux est plus faible chez les fumeuses. Cependant, une analyse plus détaillée révèle que le tabagisme est bien associé à un risque accru de mortalité dans chaque groupe d’âge.\n",
"\n",
"### Confirmation par Régression Logistique\n",
"\n",
"Les régressions logistiques réalisées, en tenant compte de l'âge, confirment que **l’âge est un facteur déterminant** de la probabilité de décès, tandis que l’impact du statut de fumeur apparaît plus faible. Bien que le coefficient du tabagisme soit positif, ce résultat indique que le **tabagisme augmente légèrement la probabilité de décès** au sein de chaque groupe d’âge, mais cet effet est atténué par la composition d’âge des groupes.\n",
"\n",
"### Synthèse et Implications\n",
"\n",
"Ce travail illustre comment l'analyse des données sans prise en compte des variables de contrôle (ici, l’âge) peut mener à des conclusions erronées. Le paradoxe de Simpson démontre ici que le tabagisme est bien associé à une mortalité plus élevée lorsqu’on considère les groupes d'âge séparément, bien que les résultats globaux suggèrent le contraire. Ce paradoxe souligne l'importance des méthodes statistiques adaptées, telles que la régression logistique, pour évaluer les effets réels des facteurs de risque.\n",
"\n",
"En conclusion, **le tabagisme est un facteur de risque de mortalité**, mais son effet peut être masqué si l'on ne prend pas en compte la variable de l’âge. Cette analyse illustre l’importance de regarder au-delà des statistiques globales et de creuser dans les sous-groupes pour identifier les véritables relations entre les variables.\n"
]
}
],
"metadata": {
"hide_code_all_hidden": false,
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.6.4"
}
},
"nbformat": 4,
"nbformat_minor": 2
}