"Ce premier résultat indique que le groupe de fumeur à un taux de mortalité moins élevé que le groupe de non fumeurs. Mais il faut aller plus loin dans l'analyse.\n",
"Nous commençont par représenter la distribution des deux groupes."
"On s'aperçoit que la distribution des données est différente dans les deux groupes. La population des non fumeurs est globalement plus âgée (ci-dessous)."
]
},
{
"cell_type": "code",
"execution_count": 45,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"(44.26975945017182, 49.815846994535534)"
]
},
"execution_count": 45,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"def mean(arr):\n",
" sum = 0\n",
" for el in arr:\n",
" sum += el\n",
" return sum / len(arr)\n",
"\n",
"( mean([ age(r) for r in smokers ]), mean([ age(r) for r in non_smokers ]) )"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"On calcule alors la regression logistique pour chacun des deux groupes."
"On voit sur les courbes ci dessus que le groupe non fumeur à une probabilité plus élevée jeune alors que le groupe fumeur à une probabilié plus élevée en fin de vie.\n",
"Je ne suis pas arrivé à calculer l'erreur standard de la regression, mais on voit clairement que le faible nombre de non fumeur au dela de 65 ans à un impact sur les résultats.\n",
"Pour palier à se problème, j'effectue une regression, non seuleument sur l'âge mais j'introduis également le status de fumeur dans les coordonnées."
"Le graphique ci-dessus représente la regression en tenant compte de l'âge de la personne et de son status de fumeur. On voit ici que le fait de fumer à un impact notable sur la santé, la courbe de survie étant en dessous de celle des non fumeurs."