exercice sujet 6 fichier rmd creation

9f41d672 · Clair Ch · 330281ab · 9f41d672
Commit 9f41d672 authored Apr 20, 2020 by Clair Ch
Hide whitespace changes
Inline Side-by-side

Showing with 155 additions and 14 deletions

exercice_fr.Rmd module3/exo3/exercice_fr.Rmd +155 -14

No files found.
--- a/module3/exo3/exercice_fr.Rmd
+++ b/module3/exo3/exercice_fr.Rmd
 ---
-title: "Votre titre"
-author: "Votre nom"
-date: "La date du jour"
+title: "Sujet 6 : Autour du Paradoxe de Simpson"
+author: "Clair Ch"
+date: "20 avril 2020"
 output: html_document
 ---

@@ -10,24 +10,165 @@ output: html_document
 knitr::opts_chunk$set(echo = TRUE)
 ```

-## Quelques explications
+# Instructions

-Ceci est un document R markdown que vous pouvez aisément exporter au format HTML, PDF, et MS Word. Pour plus de détails sur R Markdown consultez <http://rmarkdown.rstudio.com>.
+Voici les instructions du Sujet 6 : Autour du Paradoxe de Simpson

-Lorsque vous cliquerez sur le bouton **Knit** ce document sera compilé afin de ré-exécuter le code R et d'inclure les résultats dans un document final. Comme nous vous l'avons montré dans la vidéo, on inclue du code R de la façon suivante:
+>En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage d'un sixième des électeurs a été effectué afin d'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et cherchaient à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme "fumant actuellement" ou "n'ayant jamais fumé". Il y avait relativement peu de femmes dans le sondage initial ayant fumé et ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage.

-```{r cars}
-summary(cars)
+>Les données sont disponibles dans ce fichier CSV. Vous trouverez sur chaque ligne si la personne fume ou non, si elle est vivante ou décédée au moment de la seconde étude, et son âge lors du premier sondage.
+
+>Cet exercice peut être réalisé indifféremment en R ou en Python.
+
+>Votre mission si vous l'acceptez :
+
+>1. Représentez dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe). Vous pourrez proposer une représentation graphique de ces données et calculer des intervalles de confiance si vous le souhaitez. En quoi ce résultat est-il surprenant ?
+>2. Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera par exemple les classes suivantes : 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans. En quoi ce résultat est-il surprenant ? Arrivez-vous à expliquer ce paradoxe ? De même, vous pourrez proposer une représentation graphique de ces données pour étayer vos explications.
+>3. Afin d'éviter un biais induit par des regroupements en tranches d'âges arbitraires et non régulières, il est envisageable d'essayer de réaliser une régression logistique. Si on introduit une variable Death valant 1 ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans, on peut étudier le modèle Death ~ Age pour étudier la probabilité de décès en fonction de l'âge selon que l'on considère le groupe des fumeuses ou des non fumeuses. Ces régressions vous permettent-elles de conclure sur la nocivité du tabagisme ? Vous pourrez proposer une représentation graphique de ces régressions (en n'omettant pas les régions de confiance).
+4. Déposez votre étude dans FUN
+
+
+# Préparation des données
+
+## Téléchargement
+
+Les données sont disponibles sur le [Gitlab](https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/blob/master/module3/Practical_session/Subject6_smoking.csv) du MOOC ["Recherche Reproductible : principes méthodologiques pour une science transparente"](https://www.fun-mooc.fr/courses/course-v1:inria+41016+session01bis/about) de l'Inria. On peut les récupérer au format .csv à cette adresse : 
+
+```{r}
+data_url<-"https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/-/raw/master/module3/Practical_session/Subject6_smoking.csv?inline=false"
 ```

-Et on peut aussi aisément inclure des figures. Par exemple:

-```{r pressure, echo=FALSE}
-plot(pressure)
+Pour nous protéger contre une éventuelle disparition ou modification du serveur du Gitlab du MOOC, nous faisons une copie locale de ce jeux de données que nous préservons avec notre analyse. Il est inutile et même risqué de télécharger les données à chaque exécution, car dans le cas d'une panne nous pourrions remplacer nos données par un fichier défectueux. Pour cette raison, nous téléchargeons les données seulement si la copie locale n'existe pas.
+
+```{r}
+data_file <- "Subject6_smoking.csv"
+if (!file.exists(data_file)) {
+    download.file(data_url, data_file, method="auto")
+}
+```
+
+## Lecture
+
+```{r}
+data<-read.csv(data_file)
 ```

-Vous remarquerez le paramètre `echo = FALSE` qui indique que le code ne doit pas apparaître dans la version finale du document. Nous vous recommandons dans le cadre de ce MOOC de ne pas utiliser ce paramètre car l'objectif est que vos analyses de données soient parfaitement transparentes pour être reproductibles. 
+Voyons voir à quoi ressemblent les données :
+
+```{r}
+head(data)
+tail(data)
+```
+
+Nous avons les données pour 1314 femmes, avec dans l'ordre : si la personne fume ou non (colonne `Smoker` : `Yes` ou `No`), si elle est morte ou vivante au moment de la deuxième étude en 1995 (colonne `Status` : `Dead` ou `Alive`) et son âge lors de la première étude faite entre 1972 et 1974 (colonne `Age`).
+
+Y a-t'il des points manquants dans nos données ?

-Comme les résultats ne sont pas stockés dans les fichiers Rmd, pour faciliter la relecture de vos analyses par d'autres personnes, vous aurez donc intérêt à générer un HTML ou un PDF et à le commiter.
+```{r}
+na_records <- apply(data,1,function(x) any(is.na(x)))
+data[na_records,]
+```
+
+Aucune donnée manquante, parfait !
+
+Vérifions la classe de chaque colonne
+
+```{r}
+class(data$Smoker)
+class(data$Status)
+class(data$Age)
+```
+La données de la colonne `Age` sont bien de classe numeric
+Les données des colonnes `Smoker`et `Status`sont de classe factor, ça posera peut-être problème par la suite ?
+
+
+# Décès et tabagisme
+
+Nous voulons étudier le taux de mortalité pour chaque groupe (fumeuses/non fumeuses)
+
+## Inspection des données
+
+Faisons un tableau représentant le nombre de femmes par habitude de tabagisme (fumeuses/non fumeuses) et statut (vivantes/mortes)
+
+```{r}
+t<-table(data$Smoker,data$Status)
+t
+```
+
+Vérifions que la somme de chaque catégorie correspond bien au nombre total de femmes de l'étude
+
+```{r}
+sum(t)==nrow(data)
+```
+
+Nous pouvons voir qu'il y a plus de femmes vivantes que de femmes mortes et plus de femmes qui ne fument pas :
+
+```{r}
+alive<-sum(t[,1]) #femmes vivantes
+alive
+dead<-sum(t[,2]) #femmes mortes
+dead
+```
+Il y a également plus de femmes non fumeuses que fumeuses :
+
+```{r}
+nsmoke<-sum(t[1,]) #femmes non fumeuses
+nsmoke
+smoke<-sum(t[2,]) #femmes fumeuses
+smoke
+```
+
+## Calcul du taux de mortalité
+
+Calculons dans chaque groupe (fumeuses/non fumeuses) le taux de mortalité (rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe)
+
+taux de mortalité pour les femmes non fumeuses :
+```{r}
+nsmoke_morta<-t[1,2]/nsmoke
+nsmoke_morta
+```
+
+taux de mortalité pour les femmes fumeuses :
+```{r}
+smoke_morta<-t[2,2]/smoke
+smoke_morta
+```
+Les femmes non fumeuses présentent un taux de mortalité plus élevé !
+
+De combien est-il plus élevé ?
+
+```{r}
+nsmoke_morta/smoke_morta
+```
+
+## Calcul de l'intervalle de confiance à 95% du taux de mortalité
+
+Pour calculer les intervalles de confiance à 95% du taux de mortalité par catégorie (fumeuses/non fumeuses), nous allons suivre les instructions de l'article [How to Determine the Confidence Interval for a Population Proportion](https://www.dummies.com/education/math/statistics/how-to-determine-the-confidence-interval-for-a-population-proportion/) du site [dummies.com](https://www.dummmies.com)
+
+mettre formule mathématique
+
+```{r}
+nsmoke_CI<-1.96*sqrt((nsmoke_morta*(1-nsmoke_morta))/nsmoke)
+smoke_CI<-1.96*sqrt((smoke_morta*(1-smoke_morta))/smoke)
+```
+
+
+
+## Représentation graphique
+
+Pour faire les graphiques, nous utiliserons la librairie `ggplot2`
+
+```{r}
+library(ggplot2)
+```
+
+
+
+# Truc
+
+```{r}
+hist(data$Age)
+summary(data$Age)
+```

-Maintenant, à vous de jouer! Vous pouvez effacer toutes ces informations et les remplacer par votre document computationnel.