"print(f'total number = {smoker + non_smoker}')\n",
"\n",
"print(f'Number of data : {len(raw_data)}')"
]
]
},
},
{
{
...
@@ -346,7 +353,7 @@
...
@@ -346,7 +353,7 @@
"cell_type": "markdown",
"cell_type": "markdown",
"metadata": {},
"metadata": {},
"source": [
"source": [
"Ah bah c'est dommage, les gens qui ne fument pas meurent plus que les gens qui fument... embêtant."
"C'est dommage, il semblerait que les gens qui ne fument pas meurent plus que les gens qui fument... embêtant."
]
]
},
},
{
{
...
@@ -825,15 +832,183 @@
...
@@ -825,15 +832,183 @@
"**Analyse :** \n",
"**Analyse :** \n",
"- Dans le groupe 1 : chez les plus jeunes (18-34 ans), le fait de fumer n'influe pas énormément sur le taux de mortalité. \n",
"- Dans le groupe 1 : chez les plus jeunes (18-34 ans), le fait de fumer n'influe pas énormément sur le taux de mortalité. \n",
"- Dans le groupe 2 : fumer tue, le taux de mortalité est presque 2 fois plus élévé chez les fumeurs. \n",
"- Dans le groupe 2 : fumer tue, le taux de mortalité est presque 2 fois plus élévé chez les fumeurs. \n",
"- Dans le groupe 3 : tout le monde meurt. Mais un peu plus souvent chez les fumeurs. \n",
"- Dans le groupe 3 : ici, le tabac semble augmenter un peu le taux de mortalité. \n",
"- Dans le groupe 4 : c'est catastrophique (mais normal, ils sont vieux), tout le monde meurt. "
"- Dans le groupe 4 : c'est catastrophique, tout le monde meurt. Les fumeurs ont le même taux de mortalité que les non-fumeurs, ce qui est normal puisque c'est la catégorie où l'âge est le plus élevé. "
]
]
},
},
{
{
"cell_type": "markdown",
"cell_type": "markdown",
"metadata": {},
"metadata": {},
"source": [
"source": [
"C'est donc le nombre de membres de la catégorie 4 qui biaise les données globales : il y en a beaucoup, dont une grande partie de non-fumeurs, là où pour les autres catégories, la proportion de fumeurs et de non-fumeurs est presque équivalente. Puisque beaucoup de vieux meurent, la consommation de tabac ne semble pas faire varier le taux, ce qui biaise le ratio global."
"C'est donc la catégorie 4 qui semble biaiser les données globales."