"Le taux de mortalité est plus élevé chez les femmes non fumeuses que les femmes fumeuses, ce qui semble surprenant. \n",
"On peut regarder la significativité de ce résultat en faisant un test de comparaison des proportions de ces deux populations différentes (fumeuses et non fumeuses).\n"
"La p-value est inférieur à 0.05, nous considérons donc que la proportion de fumeuses est significativement différente de celle des non fumeuses."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Taux de mortalité: Non fumeuse VS Fumeuse en fonction de la tranche d'âge"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On considére maintenant les classes suivantes : 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans afin de voir s'il y a des différences de taux de mortalité entre les fumeuses et les non-fumeuses."
"plt.xticks([r + barWidth for r in range(len(bars1))], ['18-34','35-54','55-64','65-Plus'])\n",
"plt.ylabel('Mortality Rate')\n",
"plt.legend()\n",
" \n",
"# Show graphic\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"En considérant les catégories d'âge, il n'y a pas de différences entre le taux de mortalité des fumeuses et les non fumeuses pour les 18-34 ans et pour les 65-plus ans. \n",
"En revanche pour les catégories 35-54 et 55-64, le taux de mortalité des fumeuses est plus élevé. "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Regression logistique: Mortalité en fonction de l'âge"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Afin d'éviter un biais induit par des regroupements en tranches d'âges arbitraires et non régulières, il est envisageable d'essayer de réaliser une régression logistique. Si on introduit une variable Death valant 1 ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans, on peut étudier le modèle Death ~ Age pour étudier la probabilité de décès en fonction de l'âge selon que l'on considère le groupe des fumeuses ou des non fumeuses. "
"A value is trying to be set on a copy of a slice from a DataFrame.\n",
"Try using .loc[row_indexer,col_indexer] = value instead\n",
"\n",
"See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy\n",
" \"\"\"\n"
]
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"[4.63502546]\n",
"[[-0.0730934]]\n"
]
},
{
"name": "stderr",
"output_type": "stream",
"text": [
"/opt/conda/lib/python3.6/site-packages/scipy/stats/stats.py:1713: FutureWarning: Using a non-tuple sequence for multidimensional indexing is deprecated; use `arr[tuple(seq)]` instead of `arr[seq]`. In the future this will be interpreted as an array index, `arr[np.array(seq)]`, which will result either in an error or a different result.\n",
"Le coefficient de régression du modèle avec les fumeuses est supérieur à celui avec les non fumeuses; la mortalité des jeunes commencerait plus tôt chez les fumeuses. \n",
"Ces régressions ne permettent pas de conclure sur la nocivité du tabagisme.\n",