"En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage d'un sixième des électeurs a été effectué afin d'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et cherchaient à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme \"fumant actuellement\" ou \"n'ayant jamais fumé\". Il y avait relativement peu de femmes dans le sondage initial ayant fumé et ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage."
"plt.title(\"Taux de mortalité par tranche d'age\")\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Ces résultats semblent contredire les résultats obtenus lors de la première partie. En effet On constate que pour chaque tranche d'age prise séparément, le taux de mortalité est plus élevé chez les fumeuses que chez les non-fumeuses. Cela semble bien illustrer le paradoxe de Simpson. Ces résultats contradictoires peuvent-être expliqués en affichant les effectifs de chaque catégorie:"
]
},
{
"cell_type": "code",
"execution_count": 41,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>Age</th>\n",
" <th>Fumeur</th>\n",
" <th>Non fumeur</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>(18, 34)</td>\n",
" <td>179</td>\n",
" <td>219</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>(35, 54)</td>\n",
" <td>229</td>\n",
" <td>191</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>(55, 64)</td>\n",
" <td>115</td>\n",
" <td>119</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>(65, 999)</td>\n",
" <td>49</td>\n",
" <td>193</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" Age Fumeur Non fumeur\n",
"0 (18, 34) 179 219\n",
"1 (35, 54) 229 191\n",
"2 (55, 64) 115 119\n",
"3 (65, 999) 49 193"
]
},
"execution_count": 41,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"tab = pd.DataFrame({'Age': slices,\n",
" 'Fumeur': [nbs[sli][0] for sli in slices],\n",
" 'Non fumeur': [nbs[sli][1] for sli in slices],\n",
"On peut constater que la réparttion des fumeuses / non fumeuses est relativement équilibrée par tranche d'age, mis à part pour la dernière tranche 65+ ans. En effet, dans cet age, le nombre de non fumeuses est 4 fois supérieur. Or c'est aussi dans cette tranche qu'on enregistre logiquement le plus haut taux de mortalité, et ce quelle que soit la catégorie. Ainsi, ce grand nombre de personnes agées ayant participé à l'étude couplé au fort taux de mortalité pour cette tranche d'age augmente fortement le taux de mortalité total pour les non fuemurs, ce qui est moins le cas chez les fumeurs. Cela peut être confirmé en calculant les taux de mortalité totaux en retirant les 65+ ans:"
]
},
{
"cell_type": "code",
"execution_count": 101,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Taux de mortalité chez les fumeuses: 0.182\n",
"Taux de mortalité chez les non-fumeuses: 0.121\n",
"plt.title(\"Probabilité de décès en fonction de l'age.\")\n",
"plt.legend()\n",
"plt.show() \n",
" "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On peut constater sur ce graphique que jusqu'à 65 ans, fumer semble augmeneter la probabilité de décès sur une période de 20 ans, ce qui prouve une diminution de l'espérance de vie. La tendance s'inverse à partir de 65 ans, explicable en partie par la différence d'effectifs dans cette tranche d'age."