Ceci est un document R markdown que vous pouvez aisément exporter au format HTML, PDF, et MS Word. Pour plus de détails sur R Markdown consultez <http://rmarkdown.rstudio.com>.
> En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage d'un sixième des électeurs a été effectué afin d'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et cherchaient à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme "fumant actuellement" ou "n'ayant jamais fumé". Il y avait relativement peu de femmes dans le sondage initial ayant fumé et ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage.
Lorsque vous cliquerez sur le bouton **Knit** ce document sera compilé afin de ré-exécuter le code R et d'inclure les résultats dans un document final. Comme nous vous l'avons montré dans la vidéo, on inclue du code R de la façon suivante:
# Les données
```{r cars}
summary(cars)
Les données sont directement accéssible depuis le [gitlab de la formation](https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/blob/master/module3/Practical_session/Subject6_smoking.csv).
Si les données ne sont pas présentent sur l'ordinateur elles sont automatiquement téléchargées
| `Smoke` | La personne fume (*Yes*) ou non (*No*) |
| `Status` | La personne est toujours vivante (*Alive*) ou non (*Dead*) |
| `Age` | Âge de la personne |
```{r pressure, echo=FALSE}
plot(pressure)
## Vérifions si le tableau contient des valeurs NA
```{r}
na_records = apply(data, 1, function (x) any(is.na(x)))
data[na_records,]
```
On peut constater qu'il n'y a aucune valeur NA dans les données.
# Analyses
## Tabagisme et taux de mortalité
Vous remarquerez le paramètre `echo = FALSE` qui indique que le code ne doit pas apparaître dans la version finale du document. Nous vous recommandons dans le cadre de ce MOOC de ne pas utiliser ce paramètre car l'objectif est que vos analyses de données soient parfaitement transparentes pour être reproductibles.
Identification des lignes en fonction des données
```{r}
fumeuses = which(data$Smoker == "Yes")
non_fumeuses = which(data$Smoker == "No")
Comme les résultats ne sont pas stockés dans les fichiers Rmd, pour faciliter la relecture de vos analyses par d'autres personnes, vous aurez donc intérêt à générer un HTML ou un PDF et à le commiter.
Calcul pour chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe).
**Affichage des taux de mortaltité dans un graphe**
```{r}
library("ggplot2")
```
```{r}
# Graphe pour le taux de mortalité
ggplot(mortalite_tranche_age,
aes(x = tranches_ages,
y = tm,
fill = status)) +
geom_bar(stat = "identity",
position = "dodge") +
labs(title = "Taux de mortalité en fonction de la tranche d'âge")
```
Ce graphe permet de voir que le taux de mortalité sont similaire entre fumeuses et non fumeuses pour la tranche d'âge la plus jeune, où ce taux est très faible, et pour la tranche d'âge la plus âgée avec un taux très élevé.
Dans les tranches intermédiaire le taux de mortalité est plus élevé chez les fumeuses. Il y avait donc un biais causé par l'âge dans la première analyse.
**Affichage des nombres de mortes dans un graphe**
```{r}
# Graphe pour le nombre de personne mortes
ggplot(mortalite_tranche_age,
aes(x = tranches_ages,
y = quantite,
fill = status)) +
geom_bar(stat = "identity",
position = "dodge") +
labs(title = "Nombre de mortes en fonction de la tranche d'âge")
```
En regardant le nombre de mortes en focntion de l'age, on peut supposer que la sur-représentation des personnes non-fumeuses mortes à potentiellement induit le biais dû à l'âge.
## L'impact de l'âge de sur la mortalité
Création d'un nouvelle colonne
```{r}
data$Death = as.numeric(data$Status == "Dead")
```
```{r}
glm(data$Death ~ data$Age + data$Smoker)
```
Maintenant, à vous de jouer! Vous pouvez effacer toutes ces informations et les remplacer par votre document computationnel.