diff --git a/module3/exo3/exercice.ipynb b/module3/exo3/exercice.ipynb
index 0bbbe371b01e359e381e43239412d77bf53fb1fb..4bbfd07b14090fff0edaac32333bcc9808087e0f 100644
--- a/module3/exo3/exercice.ipynb
+++ b/module3/exo3/exercice.ipynb
@@ -1,5 +1,755 @@
{
- "cells": [],
+ "cells": [
+ {
+ "cell_type": "code",
+ "execution_count": 85,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "import pandas as pd\n",
+ "import numpy as np\n",
+ "import matplotlib.pyplot as plt\n",
+ "import statsmodels.formula.api as smf"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Autour du paradoxe de Simpson\n",
+ "### Contexte\n",
+ "En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage d'un sixième des électeurs a été effectué afin d'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et cherchaient à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme \"fumant actuellement\" ou \"n'ayant jamais fumé\". Il y avait relativement peu de femmes dans le sondage initial ayant fumé et ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage.\n",
+ " \n",
+ " \n",
+ "Lien du jeu de données : [jeu de données](https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/blob/master/module3/Practical_session/Subject6_smoking.csv)"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 2,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/html": [
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
\n",
+ "
Smoker
\n",
+ "
Status
\n",
+ "
Age
\n",
+ "
\n",
+ " \n",
+ " \n",
+ "
\n",
+ "
0
\n",
+ "
Yes
\n",
+ "
Alive
\n",
+ "
21.0
\n",
+ "
\n",
+ "
\n",
+ "
1
\n",
+ "
Yes
\n",
+ "
Alive
\n",
+ "
19.3
\n",
+ "
\n",
+ "
\n",
+ "
2
\n",
+ "
No
\n",
+ "
Dead
\n",
+ "
57.5
\n",
+ "
\n",
+ "
\n",
+ "
3
\n",
+ "
No
\n",
+ "
Alive
\n",
+ "
47.1
\n",
+ "
\n",
+ "
\n",
+ "
4
\n",
+ "
Yes
\n",
+ "
Alive
\n",
+ "
81.4
\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
"
+ ],
+ "text/plain": [
+ " Smoker Status Age\n",
+ "0 Yes Alive 21.0\n",
+ "1 Yes Alive 19.3\n",
+ "2 No Dead 57.5\n",
+ "3 No Alive 47.1\n",
+ "4 Yes Alive 81.4"
+ ]
+ },
+ "execution_count": 2,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "data = pd.read_csv(\"Subject6_smoking.csv\")\n",
+ "data.head()"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Inspection des données"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 3,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "Smoker False\n",
+ "Status False\n",
+ "Age False\n",
+ "dtype: bool"
+ ]
+ },
+ "execution_count": 3,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "data.isna().any()"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Comme nous le voyons il n'y a pas de données manquantes dans ce jeu de données"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Première tache\n",
+ "Représentez dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe)"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 4,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/html": [
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
\n",
+ "
Smoker
\n",
+ "
Status
\n",
+ "
Number_of_cases
\n",
+ "
\n",
+ " \n",
+ " \n",
+ "
\n",
+ "
0
\n",
+ "
No
\n",
+ "
Alive
\n",
+ "
502
\n",
+ "
\n",
+ "
\n",
+ "
1
\n",
+ "
No
\n",
+ "
Dead
\n",
+ "
230
\n",
+ "
\n",
+ "
\n",
+ "
2
\n",
+ "
Yes
\n",
+ "
Alive
\n",
+ "
443
\n",
+ "
\n",
+ "
\n",
+ "
3
\n",
+ "
Yes
\n",
+ "
Dead
\n",
+ "
139
\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
"
+ ],
+ "text/plain": [
+ " Smoker Status Number_of_cases\n",
+ "0 No Alive 502\n",
+ "1 No Dead 230\n",
+ "2 Yes Alive 443\n",
+ "3 Yes Dead 139"
+ ]
+ },
+ "execution_count": 4,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "smoker_agg = data.groupby(['Smoker', 'Status']).agg('count')\n",
+ "smoker_agg.columns = ['Number_of_cases']\n",
+ "smoker_agg = smoker_agg.reset_index()\n",
+ "smoker_agg"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 5,
+ "metadata": {},
+ "outputs": [
+ {
+ "name": "stdout",
+ "output_type": "stream",
+ "text": [
+ "Le taux de mortalité chez les fumeuses est de : 23.88 %\n"
+ ]
+ }
+ ],
+ "source": [
+ "# Taux de mortalité dans le groupe de fumeuses\n",
+ "smoker_dead_num = float(smoker_agg[(smoker_agg.Smoker==\"Yes\") & (smoker_agg.Status==\"Dead\")]['Number_of_cases'])\n",
+ "mortality_smoke = 100*smoker_dead_num / smoker_agg[smoker_agg.Smoker=='Yes']['Number_of_cases'].sum()\n",
+ "print(\"Le taux de mortalité chez les fumeuses est de : \"+str(round(mortality_smoke,2))+' %')\n"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 7,
+ "metadata": {},
+ "outputs": [
+ {
+ "name": "stdout",
+ "output_type": "stream",
+ "text": [
+ "Le taux de mortalité chez les non fumeuses est de : 31.42 %\n"
+ ]
+ }
+ ],
+ "source": [
+ "# Taux de mortalité dans le groupe des non fumeuses\n",
+ "nosmoker_dead_num = float(smoker_agg[(smoker_agg.Smoker==\"No\") & (smoker_agg.Status==\"Dead\")]['Number_of_cases'])\n",
+ "mortality_nosmoke = 100*nosmoker_dead_num / smoker_agg[smoker_agg.Smoker=='No']['Number_of_cases'].sum()\n",
+ "print(\"Le taux de mortalité chez les non fumeuses est de : \"+str(round(mortality_nosmoke,2))+' %')\n"
+ ]
+ },
+ {
+ "cell_type": "raw",
+ "metadata": {},
+ "source": [
+ "Ce résultat est surprenant parce qu'on s'entendrait à avoir un plus grand taux de mortalité chez les non fumeuses mais ce n'est pas le cas"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Représentation graphique"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 8,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "image/png": "\n",
+ "text/plain": [
+ "
"
+ ]
+ },
+ "metadata": {
+ "needs_background": "light"
+ },
+ "output_type": "display_data"
+ }
+ ],
+ "source": [
+ "\n",
+ "labels = ['Fumeuses', 'Non fumeuses']\n",
+ "d1 = [mortality_smoke, mortality_nosmoke]\n",
+ "d2 = [100-mortality_smoke, 100-mortality_nosmoke]\n",
+ "x = np.arange(len(labels)) # the label locations\n",
+ "width = 0.35 # the width of the bars\n",
+ "fig, ax = plt.subplots(figsize = (8,8))\n",
+ "rects1 = ax.bar(x - width/2, d1, width, label='pourcentage de personnes mortes')\n",
+ "rects2 = ax.bar(x + width/2, d2, width, label = \"pourcentage de personnes vivantes \")\n",
+ "ax.set_ylabel('Pourcentage')\n",
+ "ax.set_title('Mortalité chez les groupes fumeuses/non fumeuses')\n",
+ "ax.set_xticks(x)\n",
+ "plt.yticks(np.arange(0, 100, 10))\n",
+ "ax.set_xticklabels(labels)\n",
+ "ax.legend()\n",
+ "\n",
+ "ax.bar_label(rects1, padding=3)\n",
+ "ax.bar_label(rects2, padding=3)\n",
+ "\n",
+ "\n",
+ "plt.show()"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 39,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "def ratio_mortality(df):\n",
+ " # Taux de mortalité dans le groupe des non fumeuses\n",
+ " nosmoker_dead_num = float(df[(df.Smoker==\"No\") & (df.Status==\"Dead\")]['Number_of_cases'])\n",
+ " mortality_nosmoke = 100*nosmoker_dead_num / df[df.Smoker=='No']['Number_of_cases'].sum()\n",
+ " mortality_nosmoke = round(mortality_nosmoke,2)\n",
+ " \n",
+ " # Taux de mortalité dans le groupe des fumeuses\n",
+ " smoker_dead_num = float(df[(df.Smoker==\"Yes\") & (df.Status==\"Dead\")]['Number_of_cases'])\n",
+ " mortality_smoke = 100*smoker_dead_num / df[df.Smoker=='Yes']['Number_of_cases'].sum()\n",
+ " mortality_smoke = round(mortality_smoke,2)\n",
+ " return [mortality_nosmoke, mortality_smoke]"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 40,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "def class_separation(df):\n",
+ " smoker_agg = df.groupby(['Smoker', 'Status']).agg('count')\n",
+ " smoker_agg.columns = ['Number_of_cases']\n",
+ " smoker_agg = smoker_agg.reset_index()\n",
+ " return smoker_agg\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Seconde tache\n",
+ "Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera par exemple les classes suivantes : 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans. En quoi ce résultat est-il surprenant ? Arrivez-vous à expliquer ce paradoxe ? De même, vous pourrez proposer une représentation graphique de ces données pour étayer vos explications."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 43,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "g1 = class_separation(data[(data.Age>=18)&(data.Age<34)])\n",
+ "g2 = class_separation(data[(data.Age>=34)&(data.Age<=54)])\n",
+ "g3 = class_separation(data[(data.Age>54)&(data.Age<=64)])\n",
+ "g4 = class_separation(data[data.Age>64])\n",
+ "\n",
+ "#Mortality per category\n",
+ "m1 = ratio_mortality(g1)\n",
+ "m2 = ratio_mortality(g2)\n",
+ "m3 = ratio_mortality(g3)\n",
+ "m4 = ratio_mortality(g4)"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Représentation graphique"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 45,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "image/png": "\n",
+ "text/plain": [
+ "
"
+ ]
+ },
+ "metadata": {
+ "needs_background": "light"
+ },
+ "output_type": "display_data"
+ }
+ ],
+ "source": [
+ "\n",
+ "labels = ['18-34 ans', '34-54 ans', '55-64 ans', '>55 ans']\n",
+ "d1 = [m1[0], m2[0], m3[0], m4[0]]\n",
+ "d2 = [m1[1], m2[1], m3[1], m4[1]]\n",
+ "x = np.arange(len(labels)) # the label locations\n",
+ "width = 0.35 # the width of the bars\n",
+ "fig, ax = plt.subplots(figsize = (8,8))\n",
+ "rects1 = ax.bar(x - width/2, d1 , width, label='Mortalité chez les non fumeuses')\n",
+ "rects2 = ax.bar(x + width/2, d2 , width, label = \"Mortalité chez les fumeuses\")\n",
+ "ax.set_ylabel('Pourcentage')\n",
+ "ax.set_title(\"Mortalité chez les groupes fumeuses/non fumeuses pour différentes catégories d'age'\")\n",
+ "ax.set_xticks(x)\n",
+ "plt.yticks(np.arange(0, 100, 10))\n",
+ "ax.set_xticklabels(labels)\n",
+ "ax.legend()\n",
+ "\n",
+ "ax.bar_label(rects1, padding=3)\n",
+ "ax.bar_label(rects2, padding=3)\n",
+ "\n",
+ "\n",
+ "plt.show()"
+ ]
+ },
+ {
+ "cell_type": "raw",
+ "metadata": {},
+ "source": [
+ "On constate que :\n",
+ "- Le taux de mortalité des fumeuses est casiment le meme que chez les non fumeuses entre 18 et 34 ans\n",
+ "- Pour les femmes entre 35 et 64 ans il y'a plus de morts chez les fumeuses que chez les fumeuses\n",
+ "- Pour les femmes au delà de 65 ans, le taux de mortalité est plus ou moins le meme et il est très grand, ceci semble indiquer que pour les femmes de cet age le fait de fumer ou non n'influence pas forcément ce taux de mortalit\"\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Troisième tache\n",
+ "Afin d'éviter un biais induit par des regroupements en tranches d'âges arbitraires et non régulières, il est envisageable d'essayer de réaliser une régression logistique. Si on introduit une variable Death valant 1 ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans, on peut étudier le modèle Death ~ Age pour étudier la probabilité de décès en fonction de l'âge selon que l'on considère le groupe des fumeuses ou des non fumeuses. Ces régressions vous permettent-elles de conclure sur la nocivité du tabagisme ? Vous pourrez proposer une représentation graphique de ces régressions (en n'omettant pas les régions de confiance)."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 65,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "new_data = data[data.Age<=30]\n",
+ "new_data = new_data.replace(\"Alive\", 0)\n",
+ "new_data = new_data.replace(\"Dead\", 1)"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 69,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/html": [
+ "