"Je vérifie qu'il n'y ai pas de ligne avec des données manquantes dans une des lignes, auquel cas je devrais la supprimer."
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {
"hideOutput": true
},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>Smoker</th>\n",
" <th>Status</th>\n",
" <th>Age</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
"Empty DataFrame\n",
"Columns: [Smoker, Status, Age]\n",
"Index: []"
]
},
"execution_count": 4,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"raw_data[raw_data.isnull().any(axis=1)] "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"La seule ligne qui contient un manque d'information est la premère qui correspond en fait aux légendes. Du coup aucune lignes de \"vrai\" données n'est pas complète, je n'ai donc pas besoin de supprimer de ligne."
]
},
{
"cell_type": "markdown",
"metadata": {
"hideOutput": true
},
"source": [
"## Question 1"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Je ne sais pas faire de tableau (j'apprends tout justz à coder); Par contre je sais calculer le taux de mortalité (dead/alive) pour chaque groupe"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Je commence par regarder ce qu'il se passe chez les fumeuse. Pour commencer je selectionne que les fumeuse et je regarde combien il y en a."
"Ces résultats sont suprenants car ils tendant à dire que les femmes qui ne fumment pas ont un taux de mortalité plus élevé alors que l'on s'attend à l'inverse (PS: je n'ai pas envie de faire une représentation graphique)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Question 2\n",
"\n",
"Je refais les calcules du taux de mortalité en ajoutant les tranches d'âge 18-34 ans, 35-54 ans, 55-64 ans, plus de 65 ans."
"Parmis les fumeuses qui sont mortes, il y a 5 personnes qui ont entre 18 et 35 ans, 41 qui ont entre 35 et 54 ans, 50 qui ont entre 55 et 64 ans et 42 qui ont plus de 64 ans. "
"Parmsi les non fumeuses qui sont mortes, il y a 6 personnes entre 18 et 34 ans, 19 entre 35 ans 54 ans, 40 entre 55 et 64 ans et 165 qui ont pluq sz 64 nq. "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Je peux maintenant calculé le taux de mortalité dans chaque catégorie\n"
"On remarque que entre 18 et 34 ans, le taux de mortalité est quasiment le même entre les fumeuses et le non fumeuses. Cependant, entre 35 et 64 ans, le taux de mortalité chez les fumeuses et bien plus élevé chez les fumeuses. On peut donc en conclure que le tabac semble induire une mortalité précoce. Etonnament, chez les plus de 34 ans, le taux de mortalité est plus élevé chez les non fumeuses. On peut expliquer ces résultats par le fait que la plupart des femmes sont mortes avant 34 ans dans le groupe des non fumeuses"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Question 3"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Cette question est trop compliqué pour mon niveau de code et il ne reste pas assez de temps avant l'évaluation du MOOC pour que j'apprenne comment faire. Désolé"