Commit c0268ad5 authored by Olivier Messina's avatar Olivier Messina

Commit exo 3 fini

parent 9718a229
--- ---
title: "Analyse de l'incience du syndrome grippal" title: 'Sujet 6 : Autour du Paradoxe de Simpson'
author: "Olivier Messina" author: "Olivier Messina"
date: "4/25/2020" date: "25/04/2020"
output: html_document output:
pdf_document: default
html_document: default
--- ---
### Sujet 6 : Autour du Paradoxe de Simpson ```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
Prérequis : calcul de moyennes et de ratios, techniques de présentations graphiques simples, éventuellement régression logistique Prérequis : calcul de moyennes et de ratios, techniques de présentations graphiques simples, éventuellement régression logistique
...@@ -16,31 +20,215 @@ Les données sont disponibles dans ce fichier CSV. Vous trouverez sur chaque lig ...@@ -16,31 +20,215 @@ Les données sont disponibles dans ce fichier CSV. Vous trouverez sur chaque lig
Cet exercice peut être réalisé indifféremment en R ou en Python. Cet exercice peut être réalisé indifféremment en R ou en Python.
Votre mission si vous l'acceptez : Votre mission si vous l'acceptez :
Partie 1 : ### Partie 1 :
Représentez dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe). Vous pourrez proposer une représentation graphique de ces données et calculer des intervalles de confiance si vous le souhaitez. En quoi ce résultat est-il surprenant ? Représentez dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe). Vous pourrez proposer une représentation graphique de ces données et calculer des intervalles de confiance si vous le souhaitez. En quoi ce résultat est-il surprenant ?
Partie 2 : ### Partie 2 :
Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera par exemple les classes suivantes : 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans. En quoi ce résultat est-il surprenant ? Arrivez-vous à expliquer ce paradoxe ? De même, vous pourrez proposer une représentation graphique de ces données pour étayer vos explications. Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera par exemple les classes suivantes : 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans. En quoi ce résultat est-il surprenant ? Arrivez-vous à expliquer ce paradoxe ? De même, vous pourrez proposer une représentation graphique de ces données pour étayer vos explications.
Partie 3 : ### Partie 3 :
Afin d'éviter un biais induit par des regroupements en tranches d'âges arbitraires et non régulières, il est envisageable d'essayer de réaliser une régression logistique. Si on introduit une variable Death valant 1 ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans, on peut étudier le modèle Death ~ Age pour étudier la probabilité de décès en fonction de l'âge selon que l'on considère le groupe des fumeuses ou des non fumeuses. Ces régressions vous permettent-elles de conclure sur la nocivité du tabagisme ? Vous pourrez proposer une représentation graphique de ces régressions (en n'omettant pas les régions de confiance). Afin d'éviter un biais induit par des regroupements en tranches d'âges arbitraires et non régulières, il est envisageable d'essayer de réaliser une régression logistique. Si on introduit une variable Death valant 1 ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans, on peut étudier le modèle Death ~ Age pour étudier la probabilité de décès en fonction de l'âge selon que l'on considère le groupe des fumeuses ou des non fumeuses. Ces régressions vous permettent-elles de conclure sur la nocivité du tabagisme ? Vous pourrez proposer une représentation graphique de ces régressions (en n'omettant pas les régions de confiance).
Partie 4 : ### Partie 4 :
Déposez votre étude dans FUN. Déposez votre étude dans FUN.
--- ---
# Partie 1
Dans un premier temps, il s'agit d'importer les données a analyser, de representer dans un tableau le nombre total de femmes vivantes et décédée sur la période en fonction de leur habitude de tabagisme. Ensuite, nous calculerons le taux de mortalite dans chaque groupe (fumeuses / non fumeuses), nous representerons ces donnees en utilisant un graphique adapte pour finir par commenter ces resultats.
### Pakage pouvant etre utile
```{r}
library(epiDisplay)
library(epiR)
library(prettyR)
library(knitr)
library(kableExtra)
library(ggplot2)
library(mfp)
# Ajouter des packages ICI
```
### Importer les donnees
```{r}
url <- "https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/-/raw/master/module3/Practical_session/Subject6_smoking.csv?inline=false"
data <- read.csv(url)
```
Premier apercu du jeu de donne :
```{r}
head(data)
```
Colonne 1 represente le statut : fumeur / non fumer
Colonne 2 represente le statut : mort / vivant
Colonne 3 reoresente l 'age.
### Representation graphique
Nous allons calculer les pourcentages de femmes vivantes / mortes en fonction de leur status fumeuse / non fumeuse. Ceci nous permettra d avoir une idee de la distributipon des differentes populations.
```{r}
mort_fum <- sum(data$Status[data$Smoker=="Yes"]=="Dead")
mort_nonfum <- sum(data$Status[data$Smoker=="No"]=="Dead")
vivant_fum <-sum(data$Status[data$Smoker=="Yes"]=="Alive")
vivant_nonfum <- sum(data$Status[data$Smoker=="No"]=="Alive")
nb_fum <- sum(data$Smoker=="Yes")
nb_nonfum <- sum(data$Smoker=="No")
nb_viv <- sum(data$Status=="Alive")
nb_deces <-sum(data$Status=="Dead")
tot <- sum(data$Status=="Alive"|data$Status=="Dead")
tab_2 <- data.frame(cbind(rbind(mort_fum, vivant_fum, nb_fum)),
rbind(mort_nonfum,vivant_nonfum, nb_nonfum),
rbind(nb_deces,nb_viv,tot))
row.names(tab_2) <- c("Decedees", "Vivantes","Total")
names(tab_2) <- c("Fumeuses", "Non Fumeuses", "Total")
kable(tab_2,align = "c")
tab_3 <- data.frame(cbind(rbind((sum(data$Status[data$Smoker=="Yes"]=="Dead")/
sum(data$Smoker=="Yes"))*100,
(sum(data$Status[data$Smoker=="Yes"]=="Alive")/
sum(data$Smoker=="Yes"))*100)),
rbind((sum(data$Status[data$Smoker=="No"]=="Dead")/
sum(data$Smoker=="No"))*100,
(sum(data$Status[data$Smoker=="No"]=="Alive")/
sum(data$Smoker=="No"))*100))
names(tab_3) <- c("Fumeuses", "Non fumeuses")
row.names(tab_3) <- c("Decedees", "Vivantes")
kable(tab_3, align = "c")
barplot(as.matrix(tab_3), col = c("black","white"), space = 1.5,width = 0.5)
legend("center",xpd=NA, legend = c("Decedees", "Vivantes"), fill = c("black","white"))
```
On voit que, le proportion decedée chez les non fumeuses est superieur a la proportion de femme décédées chez les fumeuses. Ceci est-il significatif ? Pour verifier cela nous allons calculer les intervalles de confiance (IC).
Calcul des intervalles de confiance des proportions inspire de [lien](http://mathsp.tuxfamily.org/spip.php?article292)
```{r}
# Fonction Intervalle de confiance :
IC = function(x) {
y <- x/100
inf = y-(1.96*sqrt((y*(1-y))/n))
sup = y+(1.96*sqrt((y*(1-y))/n))
print(c(x,inf*100,sup*100))
}
```
Chez les fumeuses :
```{r}
x <- tab_3[1,1]
n <- as.numeric(tab_2[3,1])
IC(x)
```
Chez les non fumeuses :
```{r}
x <- tab_3[1,2];
n <- tab_2[3,2];
IC(x)
```
L'intervalle de confiance a 95% nous montre que la proportion de femmes fumeuses decedes est compris entre [20.4;27.34] alors que la proportion de femmes non fumeuses decedees est compris entre [28.05;34.74]. A premiere vu, on voit qu il y aurait plus de deces chez les femmes non fumeuses que chez les femmes fumeuses dans la periode a l etude ce qui est a l encontre des idees recues.
# Partie 2
Dans la partie 2 de l analyse il s'agit d ajouter une cagorie liee a l age. # colonne 3 du tableau.
Dans un premier temps je vais ajouter une colonne au tableau pour ranger chaque age dans une classe d'age
18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans.
```{r}
data$cl_age <- as.factor(ifelse(data$Age>=18&data$Age<35,"[18;34]",
ifelse(data$Age>=35&data$Age<54,"[35;54]",
ifelse(data$Age>=55&data$Age<65,"[55;64]","[65;["))))
graphics.off()
tab1(data$cl_age);
```
Verification
```{r}
head(data)
tail(data)
```
J ai donc ajoute a droite du tableau une categorie cl_age qui range les ages de la colonne 3 dans differentes classe (18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans.).
```{r}
tab_5 <- ftable(data[,c(1,2,4)]);
tab_5 <- round(prop.table(tab_5,2)*100,1);
tab_5 <- rbind(tab_5, tab1(data$cl_age)$output.table[,1]);
tab_5 <- as.table(tab_5);
row.names(tab_5) <- c("Non fumeuses vivantes ", "Non fumeuses decedees",
"Fumeuses vivantes", "Fumeuses decedees" ,"Effectifs");
colnames(tab_5) <- c("[18;34]", "[35;54]", "[55;64]", "[65;[");
```
```{r}
par(mar = c(5,5,5,13))
barplot(tab_5[c(1:4),], col = c("gray","black","gray","black"), density = c(30,30,40,100),
angle = c(70,70,0,0))
xmin <- par("usr")[1]
xmax <- par("usr")[2]
ymin <- par("usr")[3]
ymax <- par("usr")[4]
par(xpd=TRUE)
lambda <- 0.025
legend(((1 + lambda) * par("usr")[2] - lambda * par("usr")[1]),50,
legend = c("Non fumeuses vivantes", "Non fumeuses decedees",
"Fumeuses vivantes", "Fumeuses decedees"),
fill = c("gray","black","gray","black"),density = c(30,30,50,100),angle = (c(70,70,0,0)))
```
La representation ci contre nous permet de representer la repartion des effectifs dans les differentes classes d'age. Il apparait maintenant plus clair qu il y a une biais de distribution des effectifs en fonction de leur tranche d'age. En effet on remarque que les femmes non fumeuse decedee on un effectifs plus grand dans la categorie [65;[ par comparaison au femme fumeuse decedees de la meme categorie. Il va donc de soit de penser que le biais de repartition dans les differentes classe d'age peu avoir un impact sur le taux de femme decedee en fonction de leur statut fumeuse/non fumeuse. C'est le paradoxe des simpsons.
# Partie 3
Dans un premier temps on va recoder la variable deces 0 si non decede et 1 si decede.
```{r}
data$deces <- as.factor(ifelse(data$Status=="Alive",0,1))
head(data)
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
``` ```
On voit donc que la variable presente colonne 5 est bien recodee a la norme voulue.
On peut faire une premiere regression pour comparer statut fumeur/ non fumeur et statut dece / vivant.
```{r}
#Age vs statut decede
reg_log_total <- ggplot(data, aes(x=Age,y=deces)) +
geom_point() +
geom_smooth()
#Age vs statut fumeur
reg_log_fumeur <- ggplot(data[data$Smoker == "Yes",], aes(x=Age,y=deces)) +
geom_point() +
geom_smooth()
#Age vs statut NON fumeur
reg_log_non_fumeur <- ggplot(data[data$Smoker == "No",], aes(x=Age,y=deces)) +
geom_point() +
geom_smooth()
reg_log_total
reg_log_fumeur
reg_log_non_fumeur
```
Les ci-joint montre une repartition semblable entre reg_log_total et reg_log_non_fumeur. Cela peut s'expliquer par une faible population de personne agee chez les fumeurs (cf question 2). De ce fait l'augmentation de la mortalite observe chez les non fumeurs peut en parti etre explique par le biais de repartition des ages chez les deux groupes fumeur et non fumeur... Il serait donc necessaire de refaire une analyse chez des populations plus homogenes ...
......
This source diff could not be displayed because it is too large. You can view the blob instead.
This is pdfTeX, Version 3.14159265-2.6-1.40.19 (TeX Live 2019/dev/Debian) (preloaded format=pdflatex 2020.1.6) 26 APR 2020 17:33
entering extended mode
restricted \write18 enabled.
%&-line parsing enabled.
**exercice_fr.tex
(./exercice_fr.tex
LaTeX2e <2018-12-01>
(/usr/share/texlive/texmf-dist/tex/latex/base/article.cls
Document Class: article 2018/09/03 v1.4i Standard LaTeX document class
(/usr/share/texlive/texmf-dist/tex/latex/base/size10.clo
File: size10.clo 2018/09/03 v1.4i Standard LaTeX file (size option)
)
\c@part=\count80
\c@section=\count81
\c@subsection=\count82
\c@subsubsection=\count83
\c@paragraph=\count84
\c@subparagraph=\count85
\c@figure=\count86
\c@table=\count87
\abovecaptionskip=\skip41
\belowcaptionskip=\skip42
\bibindent=\dimen102
)
! LaTeX Error: File `lmodern.sty' not found.
Type X to quit or <RETURN> to proceed,
or enter new name. (Default extension: sty)
Enter file name:
! Emergency stop.
<read *>
l.6 \usepackage
{amssymb,amsmath}^^M
Here is how much of TeX's memory you used:
202 strings out of 494561
2194 string characters out of 6177455
54798 words of memory out of 5000000
3954 multiletter control sequences out of 15000+600000
3640 words of font info for 14 fonts, out of 8000000 for 9000
14 hyphenation exceptions out of 8191
23i,0n,17p,139b,36s stack positions out of 5000i,500n,10000p,200000b,80000s
! ==> Fatal error occurred, no output PDF file produced!
\PassOptionsToPackage{unicode=true}{hyperref} % options for packages loaded elsewhere
\PassOptionsToPackage{hyphens}{url}
%
\documentclass[]{article}
\usepackage{lmodern}
\usepackage{amssymb,amsmath}
\usepackage{ifxetex,ifluatex}
\usepackage{fixltx2e} % provides \textsubscript
\ifnum 0\ifxetex 1\fi\ifluatex 1\fi=0 % if pdftex
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage{textcomp} % provides euro and other symbols
\else % if luatex or xelatex
\usepackage{unicode-math}
\defaultfontfeatures{Ligatures=TeX,Scale=MatchLowercase}
\fi
% use upquote if available, for straight quotes in verbatim environments
\IfFileExists{upquote.sty}{\usepackage{upquote}}{}
% use microtype if available
\IfFileExists{microtype.sty}{%
\usepackage[]{microtype}
\UseMicrotypeSet[protrusion]{basicmath} % disable protrusion for tt fonts
}{}
\IfFileExists{parskip.sty}{%
\usepackage{parskip}
}{% else
\setlength{\parindent}{0pt}
\setlength{\parskip}{6pt plus 2pt minus 1pt}
}
\usepackage{hyperref}
\hypersetup{
pdftitle={Sujet 6 : Autour du Paradoxe de Simpson},
pdfauthor={Olivier Messina},
pdfborder={0 0 0},
breaklinks=true}
\urlstyle{same} % don't use monospace font for urls
\usepackage[margin=1in]{geometry}
\usepackage{color}
\usepackage{fancyvrb}
\newcommand{\VerbBar}{|}
\newcommand{\VERB}{\Verb[commandchars=\\\{\}]}
\DefineVerbatimEnvironment{Highlighting}{Verbatim}{commandchars=\\\{\}}
% Add ',fontsize=\small' for more characters per line
\usepackage{framed}
\definecolor{shadecolor}{RGB}{248,248,248}
\newenvironment{Shaded}{\begin{snugshade}}{\end{snugshade}}
\newcommand{\AlertTok}[1]{\textcolor[rgb]{0.94,0.16,0.16}{#1}}
\newcommand{\AnnotationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\AttributeTok}[1]{\textcolor[rgb]{0.77,0.63,0.00}{#1}}
\newcommand{\BaseNTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
\newcommand{\BuiltInTok}[1]{#1}
\newcommand{\CharTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\CommentTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textit{#1}}}
\newcommand{\CommentVarTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\ConstantTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\ControlFlowTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{\textbf{#1}}}
\newcommand{\DataTypeTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{#1}}
\newcommand{\DecValTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
\newcommand{\DocumentationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\ErrorTok}[1]{\textcolor[rgb]{0.64,0.00,0.00}{\textbf{#1}}}
\newcommand{\ExtensionTok}[1]{#1}
\newcommand{\FloatTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
\newcommand{\FunctionTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\ImportTok}[1]{#1}
\newcommand{\InformationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\KeywordTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{\textbf{#1}}}
\newcommand{\NormalTok}[1]{#1}
\newcommand{\OperatorTok}[1]{\textcolor[rgb]{0.81,0.36,0.00}{\textbf{#1}}}
\newcommand{\OtherTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{#1}}
\newcommand{\PreprocessorTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textit{#1}}}
\newcommand{\RegionMarkerTok}[1]{#1}
\newcommand{\SpecialCharTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\SpecialStringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\StringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\VariableTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\VerbatimStringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\WarningTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\usepackage{graphicx,grffile}
\makeatletter
\def\maxwidth{\ifdim\Gin@nat@width>\linewidth\linewidth\else\Gin@nat@width\fi}
\def\maxheight{\ifdim\Gin@nat@height>\textheight\textheight\else\Gin@nat@height\fi}
\makeatother
% Scale images if necessary, so that they will not overflow the page
% margins by default, and it is still possible to overwrite the defaults
% using explicit options in \includegraphics[width, height, ...]{}
\setkeys{Gin}{width=\maxwidth,height=\maxheight,keepaspectratio}
\setlength{\emergencystretch}{3em} % prevent overfull lines
\providecommand{\tightlist}{%
\setlength{\itemsep}{0pt}\setlength{\parskip}{0pt}}
\setcounter{secnumdepth}{0}
% Redefines (sub)paragraphs to behave more like sections
\ifx\paragraph\undefined\else
\let\oldparagraph\paragraph
\renewcommand{\paragraph}[1]{\oldparagraph{#1}\mbox{}}
\fi
\ifx\subparagraph\undefined\else
\let\oldsubparagraph\subparagraph
\renewcommand{\subparagraph}[1]{\oldsubparagraph{#1}\mbox{}}
\fi
% set default figure placement to htbp
\makeatletter
\def\fps@figure{htbp}
\makeatother
\usepackage{booktabs}
\usepackage{longtable}
\usepackage{array}
\usepackage{multirow}
\usepackage{wrapfig}
\usepackage{float}
\usepackage{colortbl}
\usepackage{pdflscape}
\usepackage{tabu}
\usepackage{threeparttable}
\usepackage{threeparttablex}
\usepackage[normalem]{ulem}
\usepackage{makecell}
\usepackage{xcolor}
\title{Sujet 6 : Autour du Paradoxe de Simpson}
\author{Olivier Messina}
\date{25/04/2020}
\begin{document}
\maketitle
Prérequis : calcul de moyennes et de ratios, techniques de présentations
graphiques simples, éventuellement régression logistique
En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située
à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage
d'un sixième des électeurs a été effectué afin d'éclairer des travaux
sur les maladies thyroïdiennes et cardiaques (Tunbridge et al.~1977).
Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et
al.~1995). Certains des résultats avaient trait au tabagisme et
cherchaient à savoir si les individus étaient toujours en vie lors de la
seconde étude. Par simplicité, nous nous restreindrons aux femmes et
parmi celles-ci aux 1314 qui ont été catégorisées comme ``fumant
actuellement'' ou ``n'ayant jamais fumé''. Il y avait relativement peu
de femmes dans le sondage initial ayant fumé et ayant arrêté depuis
(162) et très peu pour lesquelles l'information n'était pas disponible
(18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du
premier sondage.
Les données sont disponibles dans ce fichier CSV. Vous trouverez sur
chaque ligne si la personne fume ou non, si elle est vivante ou décédée
au moment de la seconde étude, et son âge lors du premier sondage.
Cet exercice peut être réalisé indifféremment en R ou en Python. Votre
mission si vous l'acceptez :
\hypertarget{partie-1}{%
\subsubsection{Partie 1 :}\label{partie-1}}
Représentez dans un tableau le nombre total de femmes vivantes et
décédées sur la période en fonction de leur habitude de tabagisme.
Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de
mortalité (le rapport entre le nombre de femmes décédées dans un groupe
et le nombre total de femmes dans ce groupe). Vous pourrez proposer une
représentation graphique de ces données et calculer des intervalles de
confiance si vous le souhaitez. En quoi ce résultat est-il surprenant ?
\hypertarget{partie-2}{%
\subsubsection{Partie 2 :}\label{partie-2}}
Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une
nouvelle catégorie liée à la classe d'âge. On considérera par exemple
les classes suivantes : 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans.
En quoi ce résultat est-il surprenant ? Arrivez-vous à expliquer ce
paradoxe ? De même, vous pourrez proposer une représentation graphique
de ces données pour étayer vos explications.
\hypertarget{partie-3}{%
\subsubsection{Partie 3 :}\label{partie-3}}
Afin d'éviter un biais induit par des regroupements en tranches d'âges
arbitraires et non régulières, il est envisageable d'essayer de réaliser
une régression logistique. Si on introduit une variable Death valant 1
ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans,
on peut étudier le modèle Death \textasciitilde{} Age pour étudier la
probabilité de décès en fonction de l'âge selon que l'on considère le
groupe des fumeuses ou des non fumeuses. Ces régressions vous
permettent-elles de conclure sur la nocivité du tabagisme ? Vous pourrez
proposer une représentation graphique de ces régressions (en n'omettant
pas les régions de confiance).
\hypertarget{partie-4}{%
\subsubsection{Partie 4 :}\label{partie-4}}
Déposez votre étude dans FUN.
\begin{center}\rule{0.5\linewidth}{0.5pt}\end{center}
\hypertarget{partie-1-1}{%
\section{Partie 1}\label{partie-1-1}}
Dans un premier temps, il s'agit d'importer les données a analyser, de
representer dans un tableau le nombre total de femmes vivantes et
décédée sur la période en fonction de leur habitude de tabagisme.
Ensuite, nous calculerons le taux de mortalite dans chaque groupe
(fumeuses / non fumeuses), nous representerons ces donnees en utilisant
un graphique adapte pour finir par commenter ces resultats.
\hypertarget{pakage-pouvant-etre-utile}{%
\subsubsection{Pakage pouvant etre
utile}\label{pakage-pouvant-etre-utile}}
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{library}\NormalTok{(epiDisplay)}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## Loading required package: foreign
\end{verbatim}
\begin{verbatim}
## Loading required package: survival
\end{verbatim}
\begin{verbatim}
## Loading required package: MASS
\end{verbatim}
\begin{verbatim}
## Loading required package: nnet
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{library}\NormalTok{(epiR)}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## Package epiR 1.0-14 is loaded
\end{verbatim}
\begin{verbatim}
## Type help(epi.about) for summary information
\end{verbatim}
\begin{verbatim}
## Type browseVignettes(package = 'epiR') to learn how to use epiR for applied epidemiological analyses
\end{verbatim}
\begin{verbatim}
##
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{library}\NormalTok{(prettyR)}
\KeywordTok{library}\NormalTok{(knitr)}
\KeywordTok{library}\NormalTok{(kableExtra)}
\KeywordTok{library}\NormalTok{(ggplot2)}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
##
## Attaching package: 'ggplot2'
\end{verbatim}
\begin{verbatim}
## The following object is masked from 'package:epiDisplay':
##
## alpha
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{library}\NormalTok{(mfp)}
\CommentTok{# Ajouter des packages ICI}
\end{Highlighting}
\end{Shaded}
\hypertarget{importer-les-donnees}{%
\subsubsection{Importer les donnees}\label{importer-les-donnees}}
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{url <-}\StringTok{ "https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/-/raw/master/module3/Practical_session/Subject6_smoking.csv?inline=false"}
\NormalTok{data <-}\StringTok{ }\KeywordTok{read.csv}\NormalTok{(url)}
\end{Highlighting}
\end{Shaded}
Premier apercu du jeu de donne :
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{head}\NormalTok{(data) }
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## Smoker Status Age
## 1 Yes Alive 21.0
## 2 Yes Alive 19.3
## 3 No Dead 57.5
## 4 No Alive 47.1
## 5 Yes Alive 81.4
## 6 No Alive 36.8
\end{verbatim}
Colonne 1 represente le statut : fumeur / non fumer Colonne 2 represente
le statut : mort / vivant Colonne 3 reoresente l 'age.
\hypertarget{representation-graphique}{%
\subsubsection{Representation
graphique}\label{representation-graphique}}
Nous allons calculer les pourcentages de femmes vivantes / mortes en
fonction de leur status fumeuse / non fumeuse. Ceci nous permettra d
avoir une idee de la distributipon des differentes populations.
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{mort_fum <-}\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"Yes"}\NormalTok{]}\OperatorTok{==}\StringTok{"Dead"}\NormalTok{)}
\NormalTok{mort_nonfum <-}\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"No"}\NormalTok{]}\OperatorTok{==}\StringTok{"Dead"}\NormalTok{)}
\NormalTok{vivant_fum <-}\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"Yes"}\NormalTok{]}\OperatorTok{==}\StringTok{"Alive"}\NormalTok{)}
\NormalTok{vivant_nonfum <-}\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"No"}\NormalTok{]}\OperatorTok{==}\StringTok{"Alive"}\NormalTok{)}
\NormalTok{nb_fum <-}\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"Yes"}\NormalTok{)}
\NormalTok{nb_nonfum <-}\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"No"}\NormalTok{)}
\NormalTok{nb_viv <-}\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status}\OperatorTok{==}\StringTok{"Alive"}\NormalTok{)}
\NormalTok{nb_deces <-}\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status}\OperatorTok{==}\StringTok{"Dead"}\NormalTok{)}
\NormalTok{tot <-}\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status}\OperatorTok{==}\StringTok{"Alive"}\OperatorTok{|}\NormalTok{data}\OperatorTok{$}\NormalTok{Status}\OperatorTok{==}\StringTok{"Dead"}\NormalTok{)}
\NormalTok{tab_}\DecValTok{2}\NormalTok{ <-}\StringTok{ }\KeywordTok{data.frame}\NormalTok{(}\KeywordTok{cbind}\NormalTok{(}\KeywordTok{rbind}\NormalTok{(mort_fum, vivant_fum, nb_fum)), }
\KeywordTok{rbind}\NormalTok{(mort_nonfum,vivant_nonfum, nb_nonfum),}
\KeywordTok{rbind}\NormalTok{(nb_deces,nb_viv,tot))}
\KeywordTok{row.names}\NormalTok{(tab_}\DecValTok{2}\NormalTok{) <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"Decedees"}\NormalTok{, }\StringTok{"Vivantes"}\NormalTok{,}\StringTok{"Total"}\NormalTok{)}
\KeywordTok{names}\NormalTok{(tab_}\DecValTok{2}\NormalTok{) <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"Fumeuses"}\NormalTok{, }\StringTok{"Non Fumeuses"}\NormalTok{, }\StringTok{"Total"}\NormalTok{)}
\KeywordTok{kable}\NormalTok{(tab_}\DecValTok{2}\NormalTok{,}\DataTypeTok{align =} \StringTok{"c"}\NormalTok{)}
\end{Highlighting}
\end{Shaded}
\begin{tabular}{l|c|c|c}
\hline
& Fumeuses & Non Fumeuses & Total\\
\hline
Decedees & 139 & 230 & 369\\
\hline
Vivantes & 443 & 502 & 945\\
\hline
Total & 582 & 732 & 1314\\
\hline
\end{tabular}
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{tab_}\DecValTok{3}\NormalTok{ <-}\StringTok{ }\KeywordTok{data.frame}\NormalTok{(}\KeywordTok{cbind}\NormalTok{(}\KeywordTok{rbind}\NormalTok{((}\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"Yes"}\NormalTok{]}\OperatorTok{==}\StringTok{"Dead"}\NormalTok{)}\OperatorTok{/}
\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"Yes"}\NormalTok{))}\OperatorTok{*}\DecValTok{100}\NormalTok{,}
\NormalTok{ (}\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"Yes"}\NormalTok{]}\OperatorTok{==}\StringTok{"Alive"}\NormalTok{)}\OperatorTok{/}
\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"Yes"}\NormalTok{))}\OperatorTok{*}\DecValTok{100}\NormalTok{)), }
\KeywordTok{rbind}\NormalTok{((}\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"No"}\NormalTok{]}\OperatorTok{==}\StringTok{"Dead"}\NormalTok{)}\OperatorTok{/}
\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"No"}\NormalTok{))}\OperatorTok{*}\DecValTok{100}\NormalTok{,}
\NormalTok{ (}\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"No"}\NormalTok{]}\OperatorTok{==}\StringTok{"Alive"}\NormalTok{)}\OperatorTok{/}
\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"No"}\NormalTok{))}\OperatorTok{*}\DecValTok{100}\NormalTok{))}
\KeywordTok{names}\NormalTok{(tab_}\DecValTok{3}\NormalTok{) <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"Fumeuses"}\NormalTok{, }\StringTok{"Non fumeuses"}\NormalTok{)}
\KeywordTok{row.names}\NormalTok{(tab_}\DecValTok{3}\NormalTok{) <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"Decedees"}\NormalTok{, }\StringTok{"Vivantes"}\NormalTok{)}
\KeywordTok{kable}\NormalTok{(tab_}\DecValTok{3}\NormalTok{, }\DataTypeTok{align =} \StringTok{"c"}\NormalTok{)}
\end{Highlighting}
\end{Shaded}
\begin{tabular}{l|c|c}
\hline
& Fumeuses & Non fumeuses\\
\hline
Decedees & 23.88316 & 31.42076\\
\hline
Vivantes & 76.11684 & 68.57923\\
\hline
\end{tabular}
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{barplot}\NormalTok{(}\KeywordTok{as.matrix}\NormalTok{(tab_}\DecValTok{3}\NormalTok{), }\DataTypeTok{col =} \KeywordTok{c}\NormalTok{(}\StringTok{"black"}\NormalTok{,}\StringTok{"white"}\NormalTok{), }\DataTypeTok{space =} \FloatTok{1.5}\NormalTok{,}\DataTypeTok{width =} \FloatTok{0.5}\NormalTok{) }
\KeywordTok{legend}\NormalTok{(}\StringTok{"center"}\NormalTok{,}\DataTypeTok{xpd=}\OtherTok{NA}\NormalTok{, }\DataTypeTok{legend =} \KeywordTok{c}\NormalTok{(}\StringTok{"Decedees"}\NormalTok{, }\StringTok{"Vivantes"}\NormalTok{), }\DataTypeTok{fill =} \KeywordTok{c}\NormalTok{(}\StringTok{"black"}\NormalTok{,}\StringTok{"white"}\NormalTok{))}
\end{Highlighting}
\end{Shaded}
\includegraphics{exercice_fr_files/figure-latex/unnamed-chunk-4-1.pdf}
On voit que, le proportion decedée chez les non fumeuses est superieur a
la proportion de femme décédées chez les fumeuses. Ceci est-il
significatif ? Pour verifier cela nous allons calculer les intervalles
de confiance (IC).
Calcul des intervalles de confiance des proportions inspire de
\href{http://mathsp.tuxfamily.org/spip.php?article292}{lien}
\begin{Shaded}
\begin{Highlighting}[]
\CommentTok{# Fonction Intervalle de confiance :}
\NormalTok{IC =}\StringTok{ }\ControlFlowTok{function}\NormalTok{(x) \{}
\NormalTok{ y <-}\StringTok{ }\NormalTok{x}\OperatorTok{/}\DecValTok{100}
\NormalTok{ inf =}\StringTok{ }\NormalTok{y}\OperatorTok{-}\NormalTok{(}\FloatTok{1.96}\OperatorTok{*}\KeywordTok{sqrt}\NormalTok{((y}\OperatorTok{*}\NormalTok{(}\DecValTok{1}\OperatorTok{-}\NormalTok{y))}\OperatorTok{/}\NormalTok{n))}
\NormalTok{ sup =}\StringTok{ }\NormalTok{y}\OperatorTok{+}\NormalTok{(}\FloatTok{1.96}\OperatorTok{*}\KeywordTok{sqrt}\NormalTok{((y}\OperatorTok{*}\NormalTok{(}\DecValTok{1}\OperatorTok{-}\NormalTok{y))}\OperatorTok{/}\NormalTok{n))}
\KeywordTok{print}\NormalTok{(}\KeywordTok{c}\NormalTok{(x,inf}\OperatorTok{*}\DecValTok{100}\NormalTok{,sup}\OperatorTok{*}\DecValTok{100}\NormalTok{))}
\NormalTok{\}}
\end{Highlighting}
\end{Shaded}
Chez les fumeuses :
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{x <-}\StringTok{ }\NormalTok{tab_}\DecValTok{3}\NormalTok{[}\DecValTok{1}\NormalTok{,}\DecValTok{1}\NormalTok{]}
\NormalTok{n <-}\StringTok{ }\KeywordTok{as.numeric}\NormalTok{(tab_}\DecValTok{2}\NormalTok{[}\DecValTok{3}\NormalTok{,}\DecValTok{1}\NormalTok{])}
\KeywordTok{IC}\NormalTok{(x)}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 23.88316 20.41914 27.34719
\end{verbatim}
Chez les non fumeuses :
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{x <-}\StringTok{ }\NormalTok{tab_}\DecValTok{3}\NormalTok{[}\DecValTok{1}\NormalTok{,}\DecValTok{2}\NormalTok{];}
\NormalTok{n <-}\StringTok{ }\NormalTok{tab_}\DecValTok{2}\NormalTok{[}\DecValTok{3}\NormalTok{,}\DecValTok{2}\NormalTok{];}
\KeywordTok{IC}\NormalTok{(x)}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 31.42077 28.05793 34.78360
\end{verbatim}
L'intervalle de confiance a 95\% nous montre que la proportion de femmes
fumeuses decedes est compris entre {[}20.4;27.34{]} alors que la
proportion de femmes non fumeuses decedees est compris entre
{[}28.05;34.74{]}. A premiere vu, on voit qu il y aurait plus de deces
chez les femmes non fumeuses que chez les femmes fumeuses dans la
periode a l etude ce qui est a l encontre des idees recues.
\hypertarget{partie-2-1}{%
\section{Partie 2}\label{partie-2-1}}
Dans la partie 2 de l analyse il s'agit d ajouter une cagorie liee a l
age. \# colonne 3 du tableau.
Dans un premier temps je vais ajouter une colonne au tableau pour ranger
chaque age dans une classe d'age 18-34 ans, 34-54 ans, 55-64 ans, plus
de 65 ans.
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{data}\OperatorTok{$}\NormalTok{cl_age <-}\StringTok{ }\KeywordTok{as.factor}\NormalTok{(}\KeywordTok{ifelse}\NormalTok{(data}\OperatorTok{$}\NormalTok{Age}\OperatorTok{>=}\DecValTok{18}\OperatorTok{&}\NormalTok{data}\OperatorTok{$}\NormalTok{Age}\OperatorTok{<}\DecValTok{35}\NormalTok{,}\StringTok{"[18;34]"}\NormalTok{,}
\KeywordTok{ifelse}\NormalTok{(data}\OperatorTok{$}\NormalTok{Age}\OperatorTok{>=}\DecValTok{35}\OperatorTok{&}\NormalTok{data}\OperatorTok{$}\NormalTok{Age}\OperatorTok{<}\DecValTok{54}\NormalTok{,}\StringTok{"[35;54]"}\NormalTok{,}
\KeywordTok{ifelse}\NormalTok{(data}\OperatorTok{$}\NormalTok{Age}\OperatorTok{>=}\DecValTok{55}\OperatorTok{&}\NormalTok{data}\OperatorTok{$}\NormalTok{Age}\OperatorTok{<}\DecValTok{65}\NormalTok{,}\StringTok{"[55;64]"}\NormalTok{,}\StringTok{"[65;["}\NormalTok{))))}
\KeywordTok{graphics.off}\NormalTok{()}
\KeywordTok{tab1}\NormalTok{(data}\OperatorTok{$}\NormalTok{cl_age);}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## data$cl_age :
## Frequency Percent Cum. percent
## [18;34] 416 31.7 31.7
## [35;54] 420 32.0 63.6
## [55;64] 236 18.0 81.6
## [65;[ 242 18.4 100.0
## Total 1314 100.0 100.0
\end{verbatim}
Verification
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{head}\NormalTok{(data)}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## Smoker Status Age cl_age
## 1 Yes Alive 21.0 [18;34]
## 2 Yes Alive 19.3 [18;34]
## 3 No Dead 57.5 [55;64]
## 4 No Alive 47.1 [35;54]
## 5 Yes Alive 81.4 [65;[
## 6 No Alive 36.8 [35;54]
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{tail}\NormalTok{(data)}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## Smoker Status Age cl_age
## 1309 No Alive 42.1 [35;54]
## 1310 Yes Alive 35.9 [35;54]
## 1311 No Alive 22.3 [18;34]
## 1312 Yes Dead 62.1 [55;64]
## 1313 No Dead 88.6 [65;[
## 1314 No Alive 39.1 [35;54]
\end{verbatim}
J ai donc ajoute a droite du tableau une categorie cl\_age qui range les
ages de la colonne 3 dans differentes classe (18-34 ans, 34-54 ans,
55-64 ans, plus de 65 ans.).
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{tab_}\DecValTok{5}\NormalTok{ <-}\StringTok{ }\KeywordTok{ftable}\NormalTok{(data[,}\KeywordTok{c}\NormalTok{(}\DecValTok{1}\NormalTok{,}\DecValTok{2}\NormalTok{,}\DecValTok{4}\NormalTok{)]);}
\NormalTok{tab_}\DecValTok{5}\NormalTok{ <-}\StringTok{ }\KeywordTok{round}\NormalTok{(}\KeywordTok{prop.table}\NormalTok{(tab_}\DecValTok{5}\NormalTok{,}\DecValTok{2}\NormalTok{)}\OperatorTok{*}\DecValTok{100}\NormalTok{,}\DecValTok{1}\NormalTok{);}
\NormalTok{tab_}\DecValTok{5}\NormalTok{ <-}\StringTok{ }\KeywordTok{rbind}\NormalTok{(tab_}\DecValTok{5}\NormalTok{, }\KeywordTok{tab1}\NormalTok{(data}\OperatorTok{$}\NormalTok{cl_age)}\OperatorTok{$}\NormalTok{output.table[,}\DecValTok{1}\NormalTok{]);}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## Warning in rbind(tab_5, tab1(data$cl_age)$output.table[, 1]): number of columns
## of result is not a multiple of vector length (arg 2)
\end{verbatim}
\includegraphics{exercice_fr_files/figure-latex/unnamed-chunk-10-1.pdf}
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{tab_}\DecValTok{5}\NormalTok{ <-}\StringTok{ }\KeywordTok{as.table}\NormalTok{(tab_}\DecValTok{5}\NormalTok{);}
\KeywordTok{row.names}\NormalTok{(tab_}\DecValTok{5}\NormalTok{) <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"Non fumeuses vivantes "}\NormalTok{, }\StringTok{"Non fumeuses decedees"}\NormalTok{, }
\StringTok{"Fumeuses vivantes"}\NormalTok{, }\StringTok{"Fumeuses decedees"}\NormalTok{ ,}\StringTok{"Effectifs"}\NormalTok{);}
\KeywordTok{colnames}\NormalTok{(tab_}\DecValTok{5}\NormalTok{) <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"[18;34]"}\NormalTok{, }\StringTok{"[35;54]"}\NormalTok{, }\StringTok{"[55;64]"}\NormalTok{, }\StringTok{"[65;["}\NormalTok{);}
\end{Highlighting}
\end{Shaded}
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{par}\NormalTok{(}\DataTypeTok{mar =} \KeywordTok{c}\NormalTok{(}\DecValTok{5}\NormalTok{,}\DecValTok{5}\NormalTok{,}\DecValTok{5}\NormalTok{,}\DecValTok{13}\NormalTok{))}
\KeywordTok{barplot}\NormalTok{(tab_}\DecValTok{5}\NormalTok{[}\KeywordTok{c}\NormalTok{(}\DecValTok{1}\OperatorTok{:}\DecValTok{4}\NormalTok{),], }\DataTypeTok{col =} \KeywordTok{c}\NormalTok{(}\StringTok{"gray"}\NormalTok{,}\StringTok{"black"}\NormalTok{,}\StringTok{"gray"}\NormalTok{,}\StringTok{"black"}\NormalTok{), }\DataTypeTok{density =} \KeywordTok{c}\NormalTok{(}\DecValTok{30}\NormalTok{,}\DecValTok{30}\NormalTok{,}\DecValTok{40}\NormalTok{,}\DecValTok{100}\NormalTok{),}
\DataTypeTok{angle =} \KeywordTok{c}\NormalTok{(}\DecValTok{70}\NormalTok{,}\DecValTok{70}\NormalTok{,}\DecValTok{0}\NormalTok{,}\DecValTok{0}\NormalTok{))}
\NormalTok{xmin <-}\StringTok{ }\KeywordTok{par}\NormalTok{(}\StringTok{"usr"}\NormalTok{)[}\DecValTok{1}\NormalTok{]}
\NormalTok{xmax <-}\StringTok{ }\KeywordTok{par}\NormalTok{(}\StringTok{"usr"}\NormalTok{)[}\DecValTok{2}\NormalTok{]}
\NormalTok{ymin <-}\StringTok{ }\KeywordTok{par}\NormalTok{(}\StringTok{"usr"}\NormalTok{)[}\DecValTok{3}\NormalTok{]}
\NormalTok{ymax <-}\StringTok{ }\KeywordTok{par}\NormalTok{(}\StringTok{"usr"}\NormalTok{)[}\DecValTok{4}\NormalTok{]}
\KeywordTok{par}\NormalTok{(}\DataTypeTok{xpd=}\OtherTok{TRUE}\NormalTok{)}
\NormalTok{lambda <-}\StringTok{ }\FloatTok{0.025}
\KeywordTok{legend}\NormalTok{(((}\DecValTok{1} \OperatorTok{+}\StringTok{ }\NormalTok{lambda) }\OperatorTok{*}\StringTok{ }\KeywordTok{par}\NormalTok{(}\StringTok{"usr"}\NormalTok{)[}\DecValTok{2}\NormalTok{] }\OperatorTok{-}\StringTok{ }\NormalTok{lambda }\OperatorTok{*}\StringTok{ }\KeywordTok{par}\NormalTok{(}\StringTok{"usr"}\NormalTok{)[}\DecValTok{1}\NormalTok{]),}\DecValTok{50}\NormalTok{, }
\DataTypeTok{legend =} \KeywordTok{c}\NormalTok{(}\StringTok{"Non fumeuses vivantes"}\NormalTok{, }\StringTok{"Non fumeuses decedees"}\NormalTok{, }
\StringTok{"Fumeuses vivantes"}\NormalTok{, }\StringTok{"Fumeuses decedees"}\NormalTok{), }
\DataTypeTok{fill =} \KeywordTok{c}\NormalTok{(}\StringTok{"gray"}\NormalTok{,}\StringTok{"black"}\NormalTok{,}\StringTok{"gray"}\NormalTok{,}\StringTok{"black"}\NormalTok{),}\DataTypeTok{density =} \KeywordTok{c}\NormalTok{(}\DecValTok{30}\NormalTok{,}\DecValTok{30}\NormalTok{,}\DecValTok{50}\NormalTok{,}\DecValTok{100}\NormalTok{),}\DataTypeTok{angle =}\NormalTok{ (}\KeywordTok{c}\NormalTok{(}\DecValTok{70}\NormalTok{,}\DecValTok{70}\NormalTok{,}\DecValTok{0}\NormalTok{,}\DecValTok{0}\NormalTok{)))}
\end{Highlighting}
\end{Shaded}
\includegraphics{exercice_fr_files/figure-latex/unnamed-chunk-11-1.pdf}
La representation ci contre nous permet de representer la repartion des
effectifs dans les differentes classes d'age. Il apparait maintenant
plus clair qu il y a une biais de distribution des effectifs en fonction
de leur tranche d'age. En effet on remarque que les femmes non fumeuse
decedee on un effectifs plus grand dans la categorie {[}65;{[} par
comparaison au femme fumeuse decedees de la meme categorie. Il va donc
de soit de penser que le biais de repartition dans les differentes
classe d'age peu avoir un impact sur le taux de femme decedee en
fonction de leur statut fumeuse/non fumeuse. C'est le paradoxe des
simpsons.
\hypertarget{partie-3-1}{%
\section{Partie 3}\label{partie-3-1}}
Dans un premier temps on va recoder la variable deces 0 si non decede et
1 si decede.
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{data}\OperatorTok{$}\NormalTok{deces <-}\StringTok{ }\KeywordTok{as.factor}\NormalTok{(}\KeywordTok{ifelse}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status}\OperatorTok{==}\StringTok{"Alive"}\NormalTok{,}\DecValTok{0}\NormalTok{,}\DecValTok{1}\NormalTok{))}
\KeywordTok{head}\NormalTok{(data)}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## Smoker Status Age cl_age deces
## 1 Yes Alive 21.0 [18;34] 0
## 2 Yes Alive 19.3 [18;34] 0
## 3 No Dead 57.5 [55;64] 1
## 4 No Alive 47.1 [35;54] 0
## 5 Yes Alive 81.4 [65;[ 0
## 6 No Alive 36.8 [35;54] 0
\end{verbatim}
On voit donc que la variable presente colonne 5 est bien recodee a la
norme voulue. On peut faire une premiere regression pour comparer statut
fumeur/ non fumeur et statut dece / vivant.
\begin{Shaded}
\begin{Highlighting}[]
\CommentTok{#Age vs statut decede}
\NormalTok{reg_log_total <-}\StringTok{ }\KeywordTok{ggplot}\NormalTok{(data, }\KeywordTok{aes}\NormalTok{(}\DataTypeTok{x=}\NormalTok{Age,}\DataTypeTok{y=}\NormalTok{deces)) }\OperatorTok{+}
\StringTok{ }\KeywordTok{geom_point}\NormalTok{() }\OperatorTok{+}
\StringTok{ }\KeywordTok{geom_smooth}\NormalTok{()}
\CommentTok{#Age vs statut fumeur}
\NormalTok{reg_log_fumeur <-}\StringTok{ }\KeywordTok{ggplot}\NormalTok{(data[data}\OperatorTok{$}\NormalTok{Smoker }\OperatorTok{==}\StringTok{ "Yes"}\NormalTok{,], }\KeywordTok{aes}\NormalTok{(}\DataTypeTok{x=}\NormalTok{Age,}\DataTypeTok{y=}\NormalTok{deces)) }\OperatorTok{+}
\StringTok{ }\KeywordTok{geom_point}\NormalTok{() }\OperatorTok{+}
\StringTok{ }\KeywordTok{geom_smooth}\NormalTok{()}
\CommentTok{#Age vs statut NON fumeur}
\NormalTok{reg_log_non_fumeur <-}\StringTok{ }\KeywordTok{ggplot}\NormalTok{(data[data}\OperatorTok{$}\NormalTok{Smoker }\OperatorTok{==}\StringTok{ "No"}\NormalTok{,], }\KeywordTok{aes}\NormalTok{(}\DataTypeTok{x=}\NormalTok{Age,}\DataTypeTok{y=}\NormalTok{deces)) }\OperatorTok{+}
\StringTok{ }\KeywordTok{geom_point}\NormalTok{() }\OperatorTok{+}
\StringTok{ }\KeywordTok{geom_smooth}\NormalTok{()}
\NormalTok{reg_log_total}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
\end{verbatim}
\includegraphics{exercice_fr_files/figure-latex/unnamed-chunk-13-1.pdf}
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{reg_log_fumeur}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
\end{verbatim}
\includegraphics{exercice_fr_files/figure-latex/unnamed-chunk-13-2.pdf}
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{reg_log_non_fumeur}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
\end{verbatim}
\includegraphics{exercice_fr_files/figure-latex/unnamed-chunk-13-3.pdf}
Les ci-joint montre une repartition semblable entre reg\_log\_total et
reg\_log\_non\_fumeur. Cela peut s'expliquer par une faible population
de personne agee chez les fumeurs (cf question 2). De ce fait
l'augmentation de la mortalite observe chez les non fumeurs peut en
parti etre explique par le biais de repartition des ages chez les deux
groupes fumeur et non fumeur\ldots{} Il serait donc necessaire de
refaire une analyse chez des populations plus homogenes \ldots{}
\end{document}
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment