diff --git a/module3/exo3/exercice.ipynb b/module3/exo3/exercice.ipynb index 65f021d070566c5e2bedbcd03352e21b8b29922d..1135815b67a0881933f38cdfe0107e00ac244575 100644 --- a/module3/exo3/exercice.ipynb +++ b/module3/exo3/exercice.ipynb @@ -32,7 +32,9 @@ { "cell_type": "code", "execution_count": 3, - "metadata": {}, + "metadata": { + "scrolled": true + }, "outputs": [ { "data": { @@ -211,7 +213,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "On compte les morts." + "On compte les morts, les vivants, les fumeurs et non-fumeurs. Cela permet notamment de vérifier rapidement l'intégrité des données. " ] }, { @@ -227,7 +229,9 @@ "number dead = 369\n", "total number = 1314\n", "number smoker = 582\n", - "number non smoker = 732\n" + "number non smoker = 732\n", + "total number = 1314\n", + "Number of data : 1314\n" ] } ], @@ -240,7 +244,10 @@ "smoker = raw_data['Smoker'].value_counts()['Yes']\n", "non_smoker = raw_data['Smoker'].value_counts()['No']\n", "print(f'number smoker = {smoker}')\n", - "print(f'number non smoker = {non_smoker}')\n" + "print(f'number non smoker = {non_smoker}')\n", + "print(f'total number = {smoker + non_smoker}')\n", + "\n", + "print(f'Number of data : {len(raw_data)}')" ] }, { @@ -346,7 +353,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Ah bah c'est dommage, les gens qui ne fument pas meurent plus que les gens qui fument... embêtant." + "C'est dommage, il semblerait que les gens qui ne fument pas meurent plus que les gens qui fument... embêtant." ] }, { @@ -825,15 +832,183 @@ "**Analyse :** \n", "- Dans le groupe 1 : chez les plus jeunes (18-34 ans), le fait de fumer n'influe pas énormément sur le taux de mortalité. \n", "- Dans le groupe 2 : fumer tue, le taux de mortalité est presque 2 fois plus élévé chez les fumeurs. \n", - "- Dans le groupe 3 : tout le monde meurt. Mais un peu plus souvent chez les fumeurs. \n", - "- Dans le groupe 4 : c'est catastrophique (mais normal, ils sont vieux), tout le monde meurt. " + "- Dans le groupe 3 : ici, le tabac semble augmenter un peu le taux de mortalité. \n", + "- Dans le groupe 4 : c'est catastrophique, tout le monde meurt. Les fumeurs ont le même taux de mortalité que les non-fumeurs, ce qui est normal puisque c'est la catégorie où l'âge est le plus élevé. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "C'est donc le nombre de membres de la catégorie 4 qui biaise les données globales : il y en a beaucoup, dont une grande partie de non-fumeurs, là où pour les autres catégories, la proportion de fumeurs et de non-fumeurs est presque équivalente. Puisque beaucoup de vieux meurent, la consommation de tabac ne semble pas faire varier le taux, ce qui biaise le ratio global." + "C'est donc la catégorie 4 qui semble biaiser les données globales." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Question 3" + ] + }, + { + "cell_type": "code", + "execution_count": 16, + "metadata": {}, + "outputs": [], + "source": [ + "raw_data.loc[(raw_data.Status =='Dead'),'Death'] = 1\n", + "raw_data.loc[(raw_data.Status =='Alive'),'Death'] = 0" + ] + }, + { + "cell_type": "code", + "execution_count": 17, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + " | Smoker | \n", + "Status | \n", + "Age | \n", + "AgeGroup | \n", + "Death | \n", + "Intercept | \n", + "
---|---|---|---|---|---|---|
0 | \n", + "Yes | \n", + "Alive | \n", + "21.0 | \n", + "1 | \n", + "0 | \n", + "1 | \n", + "
1 | \n", + "Yes | \n", + "Alive | \n", + "19.3 | \n", + "1 | \n", + "0 | \n", + "1 | \n", + "
2 | \n", + "No | \n", + "Dead | \n", + "57.5 | \n", + "3 | \n", + "1 | \n", + "1 | \n", + "
3 | \n", + "No | \n", + "Alive | \n", + "47.1 | \n", + "2 | \n", + "0 | \n", + "1 | \n", + "
4 | \n", + "Yes | \n", + "Alive | \n", + "81.4 | \n", + "4 | \n", + "0 | \n", + "1 | \n", + "
5 | \n", + "No | \n", + "Alive | \n", + "36.8 | \n", + "2 | \n", + "0 | \n", + "1 | \n", + "
6 | \n", + "No | \n", + "Alive | \n", + "23.8 | \n", + "1 | \n", + "0 | \n", + "1 | \n", + "
7 | \n", + "Yes | \n", + "Dead | \n", + "57.5 | \n", + "3 | \n", + "1 | \n", + "1 | \n", + "
8 | \n", + "Yes | \n", + "Alive | \n", + "24.8 | \n", + "1 | \n", + "0 | \n", + "1 | \n", + "
9 | \n", + "Yes | \n", + "Alive | \n", + "49.5 | \n", + "2 | \n", + "0 | \n", + "1 | \n", + "