"Nous travaillons avec la version 6.0.3 du Notebook Jupyter en langage R version 3.4.1 (2017-06-30).\n",
"\n",
"# Sujet 6 : Autour du Paradoxe de Simpson\n",
"# Sujet 6 : Autour du Paradoxe de Simpson\n",
"## Contexte\n",
"## Contexte\n",
"*En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage d'un sixième des électeurs a été effectué afin d'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et cherchaient à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme \"fumant actuellement\" ou \"n'ayant jamais fumé\". Il y avait relativement peu de femmes dans le sondage initial ayant fumé et ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage.*\n",
"*En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage d'un sixième des électeurs a été effectué afin d'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et cherchaient à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme \"fumant actuellement\" ou \"n'ayant jamais fumé\". Il y avait relativement peu de femmes dans le sondage initial ayant fumé et ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage.*\n",
"\n",
"\n",
"## Importation des données\n",
"## Importation des données\n",
"Nous travaillons avec la version 6.0.3 du Notebook Jupyter en langage R version 3.4.1 (2017-06-30).\n",
"\n",
"Les données sont mises à disposition sur Github. Pour nous protéger contre une éventuelle disparition ou modification du jeux de données, nous faisons une copie locale de ce jeux de données que nous préservons avec notre analyse. Il est inutile et même risquée de télécharger les données à chaque exécution, car dans le cas d'une panne nous pourrions remplacer nos données par un fichier défectueux. Pour cette raison, nous téléchargeons les données seulement si la copie locale n'existe pas."
"Les données sont mises à disposition sur Github. Pour nous protéger contre une éventuelle disparition ou modification du jeux de données, nous faisons une copie locale de ce jeux de données que nous préservons avec notre analyse. Il est inutile et même risquée de télécharger les données à chaque exécution, car dans le cas d'une panne nous pourrions remplacer nos données par un fichier défectueux. Pour cette raison, nous téléchargeons les données seulement si la copie locale n'existe pas."
]
]
},
},
...
@@ -143,12 +143,12 @@
...
@@ -143,12 +143,12 @@
"- Presque la moitié de la population étudiée fumait lors de la première étude.\n",
"- Presque la moitié de la population étudiée fumait lors de la première étude.\n",
"- Environ 1/4 des femmes sont décédées au moment de la deuxième étude. \n",
"- Environ 1/4 des femmes sont décédées au moment de la deuxième étude. \n",
"\n",
"\n",
"### Calcul de l'effectif et du taux de mortalité général"
"### Calcul de l'effectif et du taux de mortalité"
]
]
},
},
{
{
"cell_type": "code",
"cell_type": "code",
"execution_count": 21,
"execution_count": 72,
"metadata": {},
"metadata": {},
"outputs": [
"outputs": [
{
{
...
@@ -195,7 +195,7 @@
...
@@ -195,7 +195,7 @@
}
}
],
],
"source": [
"source": [
"global <- table(data$Smoker,data$Status)\n",
"global <- table(data$Smoker,data$Status) #tableau de fréquence\n",
"addmargins(global)"
"addmargins(global)"
]
]
},
},
...
@@ -235,14 +235,14 @@
...
@@ -235,14 +235,14 @@
"cell_type": "markdown",
"cell_type": "markdown",
"metadata": {},
"metadata": {},
"source": [
"source": [
"Le taux de mortalité des fumeuses est de 31% et celui des non fumeuses de 24%. Ce résultat est surprenant car le tabagisme est un facteur de risque pour de nombreuses maladies cardio-vasculaires et respiratoires.\n",
"Le taux de mortalité des fumeuses est de 31% et celui des non fumeuses de 24%. Ce résultat est surprenant car le tabagisme est un facteur de risque pour de nombreuses maladies cardio-vasculaires et respiratoires donc nous aurions pu penser que la mortalité des fumeuses soit plus élevée.\n",
"*Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera par exemple les classes suivantes : 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans. En quoi ce résultat est-il surprenant ? Arrivez-vous à expliquer ce paradoxe ? De même, vous pourrez proposer une représentation graphique de ces données pour étayer vos explications.*\n",
"*Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera par exemple les classes suivantes : 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans. En quoi ce résultat est-il surprenant ? Arrivez-vous à expliquer ce paradoxe ? De même, vous pourrez proposer une représentation graphique de ces données pour étayer vos explications.*\n",
"\n",
"\n",
"### Calcul de l'effectif et du taux de mortalité selon le groupe d'âge\n",
"### Calcul de l'effectif et du taux de mortalité selon l'âge\n",
"#### Groupe des fumeuses\n",
"#### Groupe des fumeuses\n",
"Nous étudions dans un premier temps le taux de mortalité des fumeuses selon leur groupe d'âge."
"\n",
"Nous étudions dans un premier temps le taux de mortalité des fumeuses selon leur âge."
"barplot(mortality_age,beside=T,xlab=\"Groupe d'âge\", ylab=\"Taux de Mortalité\", legend.text=c(\"Fumeuses\", \"Non fumeuses\"), ylim=c(0,1.1))"
"barplot(mortality_age,beside=T,xlab=\"Groupe d'âge\", ylab=\"Taux de Mortalité\", legend.text=c(\"Fumeuses\", \"Non fumeuses\"), ylim=c(0,1.1))"
]
]
},
},
...
@@ -506,7 +562,9 @@
...
@@ -506,7 +562,9 @@
"cell_type": "markdown",
"cell_type": "markdown",
"metadata": {},
"metadata": {},
"source": [
"source": [
"En étudiant les résultats des tableaux de fréquence nous remarquons que l'effectif des personnes âgées est plus important chez les non fumeuses que les fumeuses : il y a plus de personnes âgées non fumeuses que fumeuses. Cette différence peut expliquer les résultats contradictoires que nous observons.\n",
"Avec le graphique ci-dessus nous voyons bien que pour chaque groupe d'âge, les fumeuses ont un taux de mortalité plus élevé que les non fumeuses.\n",
"\n",
"En étudiant les résultats des tableaux de fréquence nous remarquons que l'effectif des personnes âgées est plus important chez les non fumeuses que les fumeuses : il y a plus de personnes âgées non fumeuses que fumeuses. Cette différence peut expliquer les résultats contradictoires que nous observons (question 1 et question 2).\n",
"\n",
"\n",
"## Question 3\n",
"## Question 3\n",
"### Enoncé\n",
"### Enoncé\n",
...
@@ -583,7 +641,7 @@
...
@@ -583,7 +641,7 @@
"cell_type": "markdown",
"cell_type": "markdown",
"metadata": {},
"metadata": {},
"source": [
"source": [
"### Groupe des fumeuses"
"### Régression linéaire : groupe des fumeuses"
]
]
},
},
{
{
...
@@ -632,7 +690,14 @@
...
@@ -632,7 +690,14 @@
"cell_type": "markdown",
"cell_type": "markdown",
"metadata": {},
"metadata": {},
"source": [
"source": [
"### Groupe des non fumeuses"
"L'âge influe positivement sur le risque de décès pour les fumeuses car la p_value<2e-16 et l'estimation du paramètre Age vaut 0.088977."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Régression linéaire : groupe des non fumeuses"
]
]
},
},
{
{
...
@@ -678,53 +743,26 @@
...
@@ -678,53 +743,26 @@
]
]
},
},
{
{
"cell_type": "code",
"cell_type": "markdown",
"execution_count": 64,
"metadata": {},
"metadata": {},
"outputs": [],
"source": [
"source": [
"library(ggplot2)"
"L'âge influe positivement sur le risque de décès pour les non fumeuses car la p_value<2e-16 et l'estimation du paramètre Age vaut 0.107275."
"formula = y ~ x, # Logistic regression formula\n",
"geom = \"smooth\") # Add a smoothed line)\n",
"labs(x = \"Age\", y = \"Probability of Death with smoker people\",\n",
"title = \"Logistic Regression of Death by Age\") +\n",
"theme_minimal()"
]
]
},
},
{
{
...
@@ -778,15 +816,8 @@
...
@@ -778,15 +816,8 @@
"cell_type": "markdown",
"cell_type": "markdown",
"metadata": {},
"metadata": {},
"source": [
"source": [
"Nous remarquons que le risque est plus important pour les fumeuses que les non fumeuses pour les femmes âgées de moins de 70 ans. Pour les femmes plus âgées la tendance est inversée, néanmoins comme nous avons peu de données pour ces âges les résultats sont à prendre avec des pincettes."
"Nous remarquons que le risque est plus important pour les fumeuses que les non fumeuses jusque 70 ans. Pour les femmes plus âgées la tendance est inversée, néanmoins comme nous avons peu de données pour ces âges les résultats sont à prendre avec des pincettes. Nous pouvons donc conclure quant à l'association entre le tabagisme et le risque de décès."