"Nous pouvons charger la donnée stockée dans le dossier Gitlab ou en utilisant ce [lien](https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/blob/master/module3/Practical_session/Subject6_smoking.csv)\n",
"Chaque ligne indique si la personne fume ou non, si elle est vivante ou décédée au moment de la seconde étude (1995), et son âge lors du premier sondage (1977)."
"En séparant par catégorie d'âge, le taux de mortalité des fumeurs est toujours supérieur à celui des non fumeurs. Cela peut s'expliquer par le fait que certaines variables ne sont pas indépendantes."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Régression logistique\n",
"\n",
"Créons dans un premier temps la variable Death"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [],
"source": [
"raw_data['Death'] = raw_data['Status'].apply(lambda x: 1 if x == 'Dead' else 0)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Séparons ensuite les données en fonction du groupe fumeurs ou non-fumeurs"