From 82aa0780b0a6b21670fc52253742352e90c8c3c1 Mon Sep 17 00:00:00 2001 From: e33eb88ad13e77fcab40e23aa5b9eb7e Date: Sun, 12 Apr 2020 18:18:07 +0000 Subject: [PATCH] =?UTF-8?q?"derni=C3=A8re=20version=20l=C3=A9g=C3=A8rement?= =?UTF-8?q?=20modifi=C3=A9e=20=C3=A0=20prendre=20en=20compte"?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- module3/exo3/exercice.ipynb | 32 ++++++++++++++++---------------- 1 file changed, 16 insertions(+), 16 deletions(-) diff --git a/module3/exo3/exercice.ipynb b/module3/exo3/exercice.ipynb index df92102..5357246 100644 --- a/module3/exo3/exercice.ipynb +++ b/module3/exo3/exercice.ipynb @@ -37,7 +37,7 @@ ] }, { - "cell_type": "raw", + "cell_type": "markdown", "metadata": {}, "source": [ "Remarque préliminaire : \n", @@ -370,7 +370,7 @@ ] }, { - "cell_type": "raw", + "cell_type": "markdown", "metadata": {}, "source": [ "On voit que, sur 1314 femmes, il y a 732 specimens du type 'No' ; \n", @@ -404,7 +404,7 @@ ] }, { - "cell_type": "raw", + "cell_type": "markdown", "metadata": {}, "source": [ "On voit que, sur 1314 femmes, il y a 945 specimens du type 'Alive' ; \n", @@ -563,7 +563,7 @@ ] }, { - "cell_type": "raw", + "cell_type": "markdown", "metadata": {}, "source": [ "On voit que, parmi les 582 femmes fumeuses, 443 sont toujours vivantes à l'issue des 20 ans, 139 sont mortes." @@ -612,7 +612,7 @@ ] }, { - "cell_type": "raw", + "cell_type": "markdown", "metadata": {}, "source": [ "On voit qu'il y a 732 femmes non-fumeuses (on peut vérifier que 732 + 582 = 1314 au total)" @@ -706,12 +706,13 @@ ] }, { - "cell_type": "raw", + "cell_type": "markdown", "metadata": {}, "source": [ "Ainsi, il apparait que le taux de mortalité est plus élevé chez les femmes non-fumeuses que chez les femmes fumeuses !!??\n", "C'est l'illustration du paradoxe de Simpson que l'on va maintenant analyser. \n", "!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!\n", + "\n", "A partir de maintenant, on va prendre en compte une variable qui n'a pas été explicitée jusqu'ici et qui introduit la confusion en influencant le résultat final : il s’agit de l’âge des personnes qui joue lui-aussi sur la mortalité.\n", "Pour ce faire, on va répéter les opérations précédentes mais en opérant par tranches d'age ; \n", "on en choisit 4 : [18:34] ; ]34:54] ; ]54:64] ; >64 ans ." @@ -1447,7 +1448,7 @@ ] }, { - "cell_type": "raw", + "cell_type": "markdown", "metadata": {}, "source": [ "Les tableaux 'ResumeX' et le graphique montrant le taux de mortalité par tranche d'age permet de conclure que le tabac constitue un facteur de mortalité ." @@ -1461,7 +1462,7 @@ ] }, { - "cell_type": "raw", + "cell_type": "markdown", "metadata": {}, "source": [ "Afin d'éviter un biais induit par des regroupements en tranches d'âges arbitraires et non régulières, on peut essayer de réaliser d'autres analyse (par exemple, une régression logistique). \n", @@ -2125,7 +2126,7 @@ ] }, { - "cell_type": "raw", + "cell_type": "markdown", "metadata": {}, "source": [ "La valeur du 1er coeff indique l'intensité de la probabilité de la mortalité en fonction de la caractéristique Tabagisme\n", @@ -2749,13 +2750,12 @@ ] }, { - "cell_type": "raw", + "cell_type": "markdown", "metadata": {}, "source": [ - "La valeur du 1er coeff indique l'intensité de la probabilité de la mortalité en fonction de la caractéristique Tabagisme\n", - "La valeur du 2nd coeff indique l'intensité de la probabilité de la mortalité en fonction de la caractéristique Age\n", + "Rappelons que la valeur du 1er coeff indique l'intensité de la probabilité de la mortalité en fonction de la caractéristique Tabagisme ; tandis que la valeur du 2nd coeff indique l'intensité de la probabilité de la mortalité en fonction de la caractéristique Age\n", "\n", - "On note le coeff nul pour la probabilité de la mortalité en fonction de la caractéristique Tabagisme : ce qui est un résultat attendu , puisqu'il s'agit du groupe des non fumeuses ; \n", + "On note le coeff nul pour la probabilité de la mortalité en fonction de la caractéristique Tabagisme: ce qui est un résultat attendu , puisqu'il s'agit du groupe des non fumeuses ; \n", "tout se passe comme si la mortalité était seulement le fait de l'age (aucune autre cause n'étant considérée ici)." ] }, @@ -2892,7 +2892,7 @@ ] }, { - "cell_type": "raw", + "cell_type": "markdown", "metadata": {}, "source": [ "Commençons par rappeler que le même modele de régression logistique (de base mais très classique, sans inclure d'interception avec une constante, issu des librairies \"scikit learn\" d'une part \"statmodels\" d'autre part) a été utilisé pour les 3 types de groupes, en considérant tous ensemble les différents ages (afin de s'affranchir d'un biais induit par des regroupements en tranches d'âges arbitraires et non régulières) ; et que le score reflète la capacité de ce modèle de régression logistique à prédire la mortalité en fonction de l'age.\n", @@ -2968,7 +2968,7 @@ ] }, { - "cell_type": "raw", + "cell_type": "markdown", "metadata": {}, "source": [ "Sans donner d'explication sur la mise en oeuvre de cet autre modèle qui est appliqué à l'identique aux 2 groupes de femmes,\n", @@ -3070,7 +3070,7 @@ ] }, { - "cell_type": "raw", + "cell_type": "markdown", "metadata": {}, "source": [ "Sans explication sur l'application à l'identique aux 2 groupes de femmes ni sur la qualité relative des coefficients de correlation obtenus,\n", -- 2.18.1