no commit message

parent 3f8c06bf
This diff is collapsed.
This diff is collapsed.
This diff is collapsed.
{ {
"cells": [], "cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Nous travaillons avec la version 6.0.3 du Notebook Jupyter en langage R version 3.4.1 (2017-06-30).\n",
"\n",
"# Sujet 6 : Autour du Paradoxe de Simpson\n",
"## Contexte\n",
"*En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage d'un sixième des électeurs a été effectué afin d'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et cherchaient à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme \"fumant actuellement\" ou \"n'ayant jamais fumé\". Il y avait relativement peu de femmes dans le sondage initial ayant fumé et ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage.*\n",
"\n",
"## Importation des données"
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<table>\n",
"<thead><tr><th scope=col>Smoker</th><th scope=col>Status</th><th scope=col>Age</th></tr></thead>\n",
"<tbody>\n",
"\t<tr><td>Yes </td><td>Alive</td><td>21.0 </td></tr>\n",
"\t<tr><td>Yes </td><td>Alive</td><td>19.3 </td></tr>\n",
"\t<tr><td>No </td><td>Dead </td><td>57.5 </td></tr>\n",
"\t<tr><td>No </td><td>Alive</td><td>47.1 </td></tr>\n",
"\t<tr><td>Yes </td><td>Alive</td><td>81.4 </td></tr>\n",
"\t<tr><td>No </td><td>Alive</td><td>36.8 </td></tr>\n",
"</tbody>\n",
"</table>\n"
],
"text/latex": [
"\\begin{tabular}{r|lll}\n",
" Smoker & Status & Age\\\\\n",
"\\hline\n",
"\t Yes & Alive & 21.0 \\\\\n",
"\t Yes & Alive & 19.3 \\\\\n",
"\t No & Dead & 57.5 \\\\\n",
"\t No & Alive & 47.1 \\\\\n",
"\t Yes & Alive & 81.4 \\\\\n",
"\t No & Alive & 36.8 \\\\\n",
"\\end{tabular}\n"
],
"text/markdown": [
"\n",
"Smoker | Status | Age | \n",
"|---|---|---|---|---|---|\n",
"| Yes | Alive | 21.0 | \n",
"| Yes | Alive | 19.3 | \n",
"| No | Dead | 57.5 | \n",
"| No | Alive | 47.1 | \n",
"| Yes | Alive | 81.4 | \n",
"| No | Alive | 36.8 | \n",
"\n",
"\n"
],
"text/plain": [
" Smoker Status Age \n",
"1 Yes Alive 21.0\n",
"2 Yes Alive 19.3\n",
"3 No Dead 57.5\n",
"4 No Alive 47.1\n",
"5 Yes Alive 81.4\n",
"6 No Alive 36.8"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"data_url = \"https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/-/raw/master/module3/Practical_session/Subject6_smoking.csv?inline=false\"\n",
"data_file = \"Subject6_smoking.csv\"\n",
"\n",
"if (!file.exists(data_file))\n",
" download.file(data_url, data_file, method=\"auto\")\n",
" \n",
"data = read.csv(data_file)\n",
"head(data)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Question 1\n",
"### Enoncé\n",
"*Représentez dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe). Vous pourrez proposer une représentation graphique de ces données et calculer des intervalles de confiance si vous le souhaitez. En quoi ce résultat est-il surprenant ?*\n",
"\n",
"### Analyse descriptive des données"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"'data.frame':\t1314 obs. of 3 variables:\n",
" $ Smoker: Factor w/ 2 levels \"No\",\"Yes\": 2 2 1 1 2 1 1 2 2 2 ...\n",
" $ Status: Factor w/ 2 levels \"Alive\",\"Dead\": 1 1 2 1 1 1 1 2 1 1 ...\n",
" $ Age : num 21 19.3 57.5 47.1 81.4 36.8 23.8 57.5 24.8 49.5 ...\n"
]
},
{
"data": {
"text/plain": [
" Smoker Status Age \n",
" No :732 Alive:945 Min. :18.00 \n",
" Yes:582 Dead :369 1st Qu.:31.30 \n",
" Median :44.80 \n",
" Mean :47.36 \n",
" 3rd Qu.:60.60 \n",
" Max. :89.90 "
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"str(data)\n",
"summary(data)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Le jeux de données contient 1314 observations. Il regroupe 3 variables : le tabagisme (oui/non), le statut de santé (vivante/morte) et l'âge des femmes au moment de la première étude.\n",
"\n",
"Première analyse descriptive :\n",
"\n",
"- L'âge moyen au moment de la première étude est de 47 ans (min : 18 ans et max : 89 ans). \n",
"- Presque la moitié de la population étudiée fumait lors de la première étude.\n",
"- Environ 1/4 des femmes sont décédées au moment de la deuxième étude. "
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": { "metadata": {
"kernelspec": { "kernelspec": {
"display_name": "Python 3", "display_name": "R",
"language": "python", "language": "R",
"name": "python3" "name": "ir"
}, },
"language_info": { "language_info": {
"codemirror_mode": { "codemirror_mode": "r",
"name": "ipython", "file_extension": ".r",
"version": 3 "mimetype": "text/x-r-source",
}, "name": "R",
"file_extension": ".py", "pygments_lexer": "r",
"mimetype": "text/x-python", "version": "3.4.1"
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.6.3"
} }
}, },
"nbformat": 4, "nbformat": 4,
"nbformat_minor": 2 "nbformat_minor": 2
} }
This diff is collapsed.
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment