"2. Reprendre la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera les classes suivantes : 18-34 ans, 35-54 ans, 55-64 ans, plus de 65 ans. Analyser le résultat.\n",
"\n",
"3. Etablir une régression logistique en introduisant un variable Death valant 1 ou 0 si la personne est morte ou pas au cours des 20 années entre les 2 sondages. Conclure."
"3. Etablir une régression logistique en introduisant un variable Death valant 1 ou 0 si la personne est morte ou pas au cours des 20 années entre le premier sondage et la suite de l'étude. Conclure."
]
},
{
...
...
@@ -573,7 +573,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
" Création de 2 \"tableaux\" à partir du contenu du fichier csv :\n",
" Création de 2 DataFrames à partir du contenu du fichier csv :\n",
" *nonFumeuses* contient les données des personnes qui ne fument pas (qui ont \"No\" dans la colonne \"Smoker\")\n",
" et *fumeuses* contient les données des personnes qui fument (qui ont \"Yes\" dans la colonne \"Smoker\")"
]
...
...
@@ -2063,7 +2063,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"Ajout d'une colonne Death contenant 1 si la personne est morte pendant la période entre le premier sondage et la suite de l'étude et 0 sinon."
"Ajout d'une colonne Death contenant 1 si la personne est morte pendant la période entre le premier sondage et la suite de l'étude et 0 sinon pour toutes les lignes de la DataFrame."
]
},
{
...
...
@@ -2612,12 +2612,12 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"Création de nouveaux DataFrame contenant les mêmes valeurs que *fumeuses* et *nonFumeuses* ainsi que la colonne Death ajoutée juste au-dessus."
"Création de nouvelles DataFrames contenant les mêmes valeurs que *fumeuses* et *nonFumeuses* ainsi que la colonne Death ajoutée juste au-dessus."
"Analyse des résultats obtenus avec la régression logistique pour les fumeuses :"
"**Analyse** des résultats obtenus avec la régression logistique pour les fumeuses :"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"La p-value (P>|z|) de l'âge est inférieure à 0.005, ce qui signifie que l'âge a un effet significatif sur la probabilité du décès chez les fumeuses. Son coefficient est de 0.0890 et son intervalle de confiance est \\[0.025, 0.975]."
"La p-value (P>|z|) de l'âge est inférieure à 0.005, ce qui signifie que l'âge a un effet significatif sur la probabilité du décès chez les fumeuses. Son coefficient est de 0.0890 et son intervalle de confiance est \\[0.072, 0.106]. Le coefficient étant positif, cela signifie que la probabilité de décès augmente en fonction de l'âge.\n",
"Le pseudo R-carré établit la qualité du modèle. Dans le cas de la régression logistique pour les fumeuses, il est de 0.2492, ce qui n'est pas très élevé et signifie donc que le modèle actuel n'est pas d'une très grande qualité. Cependant, cela confirme toujours que l'âge a un certain effet sur la probabilité de décès.\n",
"La constante représente la probabilité de base de décès pour les fumeuses lorsqu'on ne prend pas en compte l'âge. Elle est ici de -5.5081."
"**Analyse** des résultats obtenus avec la régression logistique pour les non fumeuses :"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"La p-value (P>|z|) de l'âge est inférieure à 0.005, ce qui signifie que l'âge a un effet significatif sur la probabilité du décès chez les non fumeuses. Son coefficient est de 0.1073 et son intervalle de confiance est \\[0.092, 0.123]. Le coefficient étant positif, cela signifie que la probabilité de décès augmente en fonction de l'âge.\n",
"Dans le cas de la régression logistique pour les non fumeuses, le pseudo R-carré est de 0.4304, ce qui est assez élevé et signifie donc que le modèle actuel est d'assez bonne qualité.\n",
"La constante est ici de -6.7955.\n",
"\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**Comparaison** des résultats obtenus pour les 2 régressions logistiques réalisées précédemment :"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Le coefficient de l'âge de la régression logistique pour les non fumeuses est plus élevé que celui de la régression logistique pour les fumeuses, ce qui signifie que l'âge a un effet un peu plus fort sur la probabilité de décès des non fumeuses. \n",
"Si l'on ne prend pas en compte l'âge et que l'on regarde les chances de décès de base, c'est-à-dire que l'on regarde les constantes, on observe que celle des non fumeuses est inférieure à celle des fumeuses, ce qui veut dire que la chance de base de décès pour les non fumeuses est plus petite que celle des fumeuses. \n",
"Ces résultats suggèrent que l'âge a un effet plus important sur la mortalité des non fumeuses que des fumeuses.\n",
"Ce qui pourrait nous faire penser que le tabagisme semble diminuer les effets de l'âge, mais cela peut être dû à un biais dans les donnée ou à un autre facteur qui n'a pas été pris en compte dans cette étude et qui influence plus le groupe des fumeuses que celui des non fumeuses."
"Sur ce graphique, on peut observer que les probabilités de décès pour les fumeuses et les non fumeuses entre 18 et 34 ans et entre 64 et 90 ans sont presques égales, ce qui correspond aux résultats des calculs et au diagramme en barre réalisés à l'étape 2.\n",
"Entre 34 et 64 ans, la probabilité de décès des fumeuses est supérieure à celle des non fumeuses, ce qui correspond également aux résultats obtenus à l'étape 2. \n",
"D'après ce graphique, la probabilité de décès des fumeuses serait plus élevée que celle des non fumeuses pour un âge allant de 18 à 70 ans puis la tendance s'inverserait. \n",
"Cela signifierait que le tabagisme augmente les chances de décès des femmes le pratiquant jusqu'à un certain âge."