Commit exo 3 fini

c0268ad5 · Olivier Messina · 9718a229 · c0268ad5 · c0268ad5 · c0268ad5
Commit c0268ad5 authored Apr 26, 2020 by Olivier Messina
4 changed files
--- a/module3/exo3/exercice_fr.Rmd
+++ b/module3/exo3/exercice_fr.Rmd
 ---
-title: "Analyse de l'incience du syndrome grippal"
+title: 'Sujet 6 : Autour du Paradoxe de Simpson'
 author: "Olivier Messina"
-date: "4/25/2020"
+date: "25/04/2020"
-output: html_document
+output:
+  pdf_document: default
+  html_document: default
 ---
-### Sujet 6 : Autour du Paradoxe de Simpson
+```{r setup, include=FALSE}
+knitr::opts_chunk$set(echo = TRUE)
+```
 Prérequis : calcul de moyennes et de ratios, techniques de présentations graphiques simples, éventuellement régression logistique
@@ -16,31 +20,215 @@ Les données sont disponibles dans ce fichier CSV. Vous trouverez sur chaque lig
 Cet exercice peut être réalisé indifféremment en R ou en Python.
 Votre mission si vous l'acceptez :
-Partie 1 : 
+### Partie 1 : 
 Représentez dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe). Vous pourrez proposer une représentation graphique de ces données et calculer des intervalles de confiance si vous le souhaitez. En quoi ce résultat est-il surprenant ?
-Partie 2 : 
+### Partie 2 : 
 Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera par exemple les classes suivantes : 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans. En quoi ce résultat est-il surprenant ? Arrivez-vous à expliquer ce paradoxe ? De même, vous pourrez proposer une représentation graphique de ces données pour étayer vos explications.
-Partie 3 :
+### Partie 3 :
 Afin d'éviter un biais induit par des regroupements en tranches d'âges arbitraires et non régulières, il est envisageable d'essayer de réaliser une régression logistique. Si on introduit une variable Death valant 1 ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans, on peut étudier le modèle Death ~ Age pour étudier la probabilité de décès en fonction de l'âge selon que l'on considère le groupe des fumeuses ou des non fumeuses. Ces régressions vous permettent-elles de conclure sur la nocivité du tabagisme ? Vous pourrez proposer une représentation graphique de ces régressions (en n'omettant pas les régions de confiance).
-Partie 4 : 
+### Partie 4 : 
 Déposez votre étude dans FUN.
 ---
+# Partie 1
+Dans un premier temps, il s'agit d'importer les données a analyser, de representer dans un tableau le nombre total de femmes vivantes et décédée sur la période en fonction de leur habitude de tabagisme. Ensuite, nous calculerons le taux de mortalite dans chaque groupe (fumeuses / non fumeuses), nous representerons ces donnees en utilisant un graphique adapte pour finir par commenter ces resultats. 
+### Pakage pouvant etre utile 
+```{r}
+library(epiDisplay)
+library(epiR)
+library(prettyR)
+library(knitr)
+library(kableExtra)
+library(ggplot2)
+library(mfp)
+# Ajouter des packages ICI
+```
+### Importer les donnees
+```{r}
+url <- "https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/-/raw/master/module3/Practical_session/Subject6_smoking.csv?inline=false"
+data <- read.csv(url)
+```
+Premier apercu du jeu de donne :
+```{r}
+head(data) 
+```
+Colonne 1 represente le statut : fumeur / non fumer 
+Colonne 2 represente le statut : mort / vivant
+Colonne 3 reoresente l 'age.
+### Representation graphique
+Nous allons calculer les pourcentages de femmes vivantes / mortes en fonction de leur status fumeuse  / non fumeuse. Ceci nous permettra d avoir une idee de la distributipon des differentes populations.
+```{r}
+mort_fum <- sum(data$Status[data$Smoker=="Yes"]=="Dead")
+mort_nonfum <- sum(data$Status[data$Smoker=="No"]=="Dead")
+vivant_fum <-sum(data$Status[data$Smoker=="Yes"]=="Alive")
+vivant_nonfum <- sum(data$Status[data$Smoker=="No"]=="Alive")
+nb_fum <- sum(data$Smoker=="Yes")
+nb_nonfum <- sum(data$Smoker=="No")
+nb_viv <- sum(data$Status=="Alive")
+nb_deces <-sum(data$Status=="Dead")
+tot <- sum(data$Status=="Alive"|data$Status=="Dead")
+tab_2 <- data.frame(cbind(rbind(mort_fum, vivant_fum, nb_fum)), 
+                    rbind(mort_nonfum,vivant_nonfum, nb_nonfum),
+                    rbind(nb_deces,nb_viv,tot))
+row.names(tab_2) <- c("Decedees", "Vivantes","Total")
+names(tab_2) <- c("Fumeuses", "Non Fumeuses", "Total")
+kable(tab_2,align = "c")
+tab_3 <- data.frame(cbind(rbind((sum(data$Status[data$Smoker=="Yes"]=="Dead")/
+                                   sum(data$Smoker=="Yes"))*100,
+                                (sum(data$Status[data$Smoker=="Yes"]=="Alive")/
+                                   sum(data$Smoker=="Yes"))*100)), 
+                    rbind((sum(data$Status[data$Smoker=="No"]=="Dead")/
+                             sum(data$Smoker=="No"))*100,
+                          (sum(data$Status[data$Smoker=="No"]=="Alive")/
+                             sum(data$Smoker=="No"))*100))
+names(tab_3) <- c("Fumeuses", "Non fumeuses")
+row.names(tab_3) <- c("Decedees", "Vivantes")
+kable(tab_3, align = "c")
+barplot(as.matrix(tab_3), col = c("black","white"), space = 1.5,width = 0.5) 
+legend("center",xpd=NA, legend = c("Decedees", "Vivantes"), fill = c("black","white"))
+```
+On voit que, le proportion decedée chez les non fumeuses est superieur a la proportion de femme décédées chez les fumeuses. Ceci est-il significatif ? Pour verifier cela nous allons calculer les intervalles de confiance (IC).
+Calcul des intervalles de confiance des proportions inspire de [lien](http://mathsp.tuxfamily.org/spip.php?article292)
+```{r}
+#  Fonction Intervalle de confiance :
+IC = function(x) {
+  y <- x/100
+  inf = y-(1.96*sqrt((y*(1-y))/n))
+  sup = y+(1.96*sqrt((y*(1-y))/n))
+  print(c(x,inf*100,sup*100))
+}
+```
+Chez les fumeuses : 
+```{r}
+x <- tab_3[1,1]
+n <- as.numeric(tab_2[3,1])
+IC(x)
+```
+Chez les non fumeuses :
+```{r}
+x <- tab_3[1,2];
+n <- tab_2[3,2];
+IC(x)
+```
+L'intervalle de confiance a 95% nous montre que la proportion de femmes fumeuses decedes est compris entre [20.4;27.34] alors que la proportion de femmes non fumeuses decedees est compris entre [28.05;34.74]. A premiere vu, on voit qu il y aurait plus de deces chez les femmes non fumeuses que chez les femmes fumeuses dans la periode a l etude ce qui est a l encontre des idees recues.
+# Partie 2
+Dans la partie 2 de l analyse il s'agit d ajouter une cagorie liee a l age. # colonne 3 du tableau. 
+Dans un premier temps je vais ajouter une colonne au tableau pour ranger chaque age dans une classe d'age 
+18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans.
+```{r}
+data$cl_age <- as.factor(ifelse(data$Age>=18&data$Age<35,"[18;34]",
+                                ifelse(data$Age>=35&data$Age<54,"[35;54]",
+                                       ifelse(data$Age>=55&data$Age<65,"[55;64]","[65;["))))
+graphics.off()
+tab1(data$cl_age);
+```
+Verification 
+```{r}
+head(data)
+tail(data)
+```
+J ai donc ajoute a droite du tableau une categorie cl_age qui range les ages de la colonne 3 dans differentes classe (18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans.).
+```{r}
+tab_5 <- ftable(data[,c(1,2,4)]);
+tab_5 <- round(prop.table(tab_5,2)*100,1);
+tab_5 <- rbind(tab_5, tab1(data$cl_age)$output.table[,1]);
+tab_5 <- as.table(tab_5);
+row.names(tab_5) <- c("Non fumeuses vivantes ", "Non fumeuses decedees", 
+                      "Fumeuses vivantes", "Fumeuses decedees" ,"Effectifs");
+colnames(tab_5) <- c("[18;34]", "[35;54]", "[55;64]", "[65;[");
+```
+```{r}
+par(mar = c(5,5,5,13))
+barplot(tab_5[c(1:4),], col = c("gray","black","gray","black"), density = c(30,30,40,100),
+        angle = c(70,70,0,0))
+xmin <- par("usr")[1]
+xmax <- par("usr")[2]
+ymin <- par("usr")[3]
+ymax <- par("usr")[4]
+par(xpd=TRUE)
+lambda <- 0.025
+legend(((1 + lambda) * par("usr")[2] - lambda * par("usr")[1]),50, 
+       legend = c("Non fumeuses vivantes", "Non fumeuses decedees", 
+                  "Fumeuses vivantes", "Fumeuses decedees"), 
+       fill = c("gray","black","gray","black"),density = c(30,30,50,100),angle = (c(70,70,0,0)))
+```
+La representation ci contre nous permet de representer la repartion des effectifs dans les differentes classes d'age. Il apparait maintenant plus clair qu il y a une biais de distribution des effectifs en fonction de leur tranche d'age. En effet on remarque que les femmes non fumeuse decedee on un effectifs plus grand dans la categorie [65;[ par comparaison au femme fumeuse decedees de la meme categorie. Il va donc de soit de penser que le biais de repartition dans les differentes classe d'age peu avoir un impact sur le taux de femme decedee en fonction de leur statut fumeuse/non fumeuse. C'est le paradoxe des simpsons. 
+# Partie 3
+Dans un premier temps on va recoder la variable deces 0 si non decede et 1 si decede. 
+```{r}
+data$deces <- as.factor(ifelse(data$Status=="Alive",0,1))
+head(data)
-```{r setup, include=FALSE}
-knitr::opts_chunk$set(echo = TRUE)
 ```
+On voit donc que la variable presente colonne 5 est bien recodee a la norme voulue.
+On peut faire une premiere regression pour comparer statut fumeur/ non fumeur et statut dece / vivant.
+```{r}
+#Age vs statut decede
+reg_log_total <- ggplot(data, aes(x=Age,y=deces)) +
+  geom_point() +
+  geom_smooth()
+#Age vs statut fumeur
+reg_log_fumeur <- ggplot(data[data$Smoker == "Yes",], aes(x=Age,y=deces)) +
+  geom_point() +
+  geom_smooth()
+#Age vs statut NON fumeur
+reg_log_non_fumeur <- ggplot(data[data$Smoker == "No",], aes(x=Age,y=deces)) +
+  geom_point() +
+  geom_smooth()
+reg_log_total
+reg_log_fumeur
+reg_log_non_fumeur
+```
+Les ci-joint montre une repartition semblable entre reg_log_total et reg_log_non_fumeur. Cela peut s'expliquer par une faible population de personne agee chez les fumeurs (cf question 2). De ce fait l'augmentation de la mortalite observe chez les non fumeurs peut en parti etre explique par le biais de repartition des ages chez les deux groupes fumeur et non fumeur... Il serait donc necessaire de refaire une analyse chez des populations plus homogenes ... 

--- a/module3/exo3/exercice_fr.html
+++ b/module3/exo3/exercice_fr.html
--- a/module3/exo3/exercice_fr.log
+++ b/module3/exo3/exercice_fr.log
+This is pdfTeX, Version 3.14159265-2.6-1.40.19 (TeX Live 2019/dev/Debian) (preloaded format=pdflatex 2020.1.6)  26 APR 2020 17:33
+entering extended mode
+ restricted \write18 enabled.
+ %&-line parsing enabled.
+**exercice_fr.tex
+(./exercice_fr.tex
+LaTeX2e <2018-12-01>
+(/usr/share/texlive/texmf-dist/tex/latex/base/article.cls
+Document Class: article 2018/09/03 v1.4i Standard LaTeX document class
+(/usr/share/texlive/texmf-dist/tex/latex/base/size10.clo
+File: size10.clo 2018/09/03 v1.4i Standard LaTeX file (size option)
+)
+\c@part=\count80
+\c@section=\count81
+\c@subsection=\count82
+\c@subsubsection=\count83
+\c@paragraph=\count84
+\c@subparagraph=\count85
+\c@figure=\count86
+\c@table=\count87
+\abovecaptionskip=\skip41
+\belowcaptionskip=\skip42
+\bibindent=\dimen102
+)
+! LaTeX Error: File `lmodern.sty' not found.
+Type X to quit or <RETURN> to proceed,
+or enter new name. (Default extension: sty)
+Enter file name: 
+! Emergency stop.
+<read *> 
+l.6 \usepackage
+               {amssymb,amsmath}^^M 
+Here is how much of TeX's memory you used:
+ 202 strings out of 494561
+ 2194 string characters out of 6177455
+ 54798 words of memory out of 5000000
+ 3954 multiletter control sequences out of 15000+600000
+ 3640 words of font info for 14 fonts, out of 8000000 for 9000
+ 14 hyphenation exceptions out of 8191
+ 23i,0n,17p,139b,36s stack positions out of 5000i,500n,10000p,200000b,80000s
+!  ==> Fatal error occurred, no output PDF file produced!
--- a/module3/exo3/exercice_fr.tex
+++ b/module3/exo3/exercice_fr.tex
+\PassOptionsToPackage{unicode=true}{hyperref} % options for packages loaded elsewhere
+\PassOptionsToPackage{hyphens}{url}
+%
+\documentclass[]{article}
+\usepackage{lmodern}
+\usepackage{amssymb,amsmath}
+\usepackage{ifxetex,ifluatex}
+\usepackage{fixltx2e} % provides \textsubscript
+\ifnum 0\ifxetex 1\fi\ifluatex 1\fi=0 % if pdftex
+  \usepackage[T1]{fontenc}
+  \usepackage[utf8]{inputenc}
+  \usepackage{textcomp} % provides euro and other symbols
+\else % if luatex or xelatex
+  \usepackage{unicode-math}
+  \defaultfontfeatures{Ligatures=TeX,Scale=MatchLowercase}
+\fi
+% use upquote if available, for straight quotes in verbatim environments
+\IfFileExists{upquote.sty}{\usepackage{upquote}}{}
+% use microtype if available
+\IfFileExists{microtype.sty}{%
+\usepackage[]{microtype}
+\UseMicrotypeSet[protrusion]{basicmath} % disable protrusion for tt fonts
+}{}
+\IfFileExists{parskip.sty}{%
+\usepackage{parskip}
+}{% else
+\setlength{\parindent}{0pt}
+\setlength{\parskip}{6pt plus 2pt minus 1pt}
+}
+\usepackage{hyperref}
+\hypersetup{
+            pdftitle={Sujet 6 : Autour du Paradoxe de Simpson},
+            pdfauthor={Olivier Messina},
+            pdfborder={0 0 0},
+            breaklinks=true}
+\urlstyle{same}  % don't use monospace font for urls
+\usepackage[margin=1in]{geometry}
+\usepackage{color}
+\usepackage{fancyvrb}
+\newcommand{\VerbBar}{|}
+\newcommand{\VERB}{\Verb[commandchars=\\\{\}]}
+\DefineVerbatimEnvironment{Highlighting}{Verbatim}{commandchars=\\\{\}}
+% Add ',fontsize=\small' for more characters per line
+\usepackage{framed}
+\definecolor{shadecolor}{RGB}{248,248,248}
+\newenvironment{Shaded}{\begin{snugshade}}{\end{snugshade}}
+\newcommand{\AlertTok}[1]{\textcolor[rgb]{0.94,0.16,0.16}{#1}}
+\newcommand{\AnnotationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
+\newcommand{\AttributeTok}[1]{\textcolor[rgb]{0.77,0.63,0.00}{#1}}
+\newcommand{\BaseNTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
+\newcommand{\BuiltInTok}[1]{#1}
+\newcommand{\CharTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
+\newcommand{\CommentTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textit{#1}}}
+\newcommand{\CommentVarTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
+\newcommand{\ConstantTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
+\newcommand{\ControlFlowTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{\textbf{#1}}}
+\newcommand{\DataTypeTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{#1}}
+\newcommand{\DecValTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
+\newcommand{\DocumentationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
+\newcommand{\ErrorTok}[1]{\textcolor[rgb]{0.64,0.00,0.00}{\textbf{#1}}}
+\newcommand{\ExtensionTok}[1]{#1}
+\newcommand{\FloatTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
+\newcommand{\FunctionTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
+\newcommand{\ImportTok}[1]{#1}
+\newcommand{\InformationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
+\newcommand{\KeywordTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{\textbf{#1}}}
+\newcommand{\NormalTok}[1]{#1}
+\newcommand{\OperatorTok}[1]{\textcolor[rgb]{0.81,0.36,0.00}{\textbf{#1}}}
+\newcommand{\OtherTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{#1}}
+\newcommand{\PreprocessorTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textit{#1}}}
+\newcommand{\RegionMarkerTok}[1]{#1}
+\newcommand{\SpecialCharTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
+\newcommand{\SpecialStringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
+\newcommand{\StringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
+\newcommand{\VariableTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
+\newcommand{\VerbatimStringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
+\newcommand{\WarningTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
+\usepackage{graphicx,grffile}
+\makeatletter
+\def\maxwidth{\ifdim\Gin@nat@width>\linewidth\linewidth\else\Gin@nat@width\fi}
+\def\maxheight{\ifdim\Gin@nat@height>\textheight\textheight\else\Gin@nat@height\fi}
+\makeatother
+% Scale images if necessary, so that they will not overflow the page
+% margins by default, and it is still possible to overwrite the defaults
+% using explicit options in \includegraphics[width, height, ...]{}
+\setkeys{Gin}{width=\maxwidth,height=\maxheight,keepaspectratio}
+\setlength{\emergencystretch}{3em}  % prevent overfull lines
+\providecommand{\tightlist}{%
+  \setlength{\itemsep}{0pt}\setlength{\parskip}{0pt}}
+\setcounter{secnumdepth}{0}
+% Redefines (sub)paragraphs to behave more like sections
+\ifx\paragraph\undefined\else
+\let\oldparagraph\paragraph
+\renewcommand{\paragraph}[1]{\oldparagraph{#1}\mbox{}}
+\fi
+\ifx\subparagraph\undefined\else
+\let\oldsubparagraph\subparagraph
+\renewcommand{\subparagraph}[1]{\oldsubparagraph{#1}\mbox{}}
+\fi
+% set default figure placement to htbp
+\makeatletter
+\def\fps@figure{htbp}
+\makeatother
+\usepackage{booktabs}
+\usepackage{longtable}
+\usepackage{array}
+\usepackage{multirow}
+\usepackage{wrapfig}
+\usepackage{float}
+\usepackage{colortbl}
+\usepackage{pdflscape}
+\usepackage{tabu}
+\usepackage{threeparttable}
+\usepackage{threeparttablex}
+\usepackage[normalem]{ulem}
+\usepackage{makecell}
+\usepackage{xcolor}
+\title{Sujet 6 : Autour du Paradoxe de Simpson}
+\author{Olivier Messina}
+\date{25/04/2020}
+\begin{document}
+\maketitle
+Prérequis : calcul de moyennes et de ratios, techniques de présentations
+graphiques simples, éventuellement régression logistique
+En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située
+à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage
+d'un sixième des électeurs a été effectué afin d'éclairer des travaux
+sur les maladies thyroïdiennes et cardiaques (Tunbridge et al.~1977).
+Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et
+al.~1995). Certains des résultats avaient trait au tabagisme et
+cherchaient à savoir si les individus étaient toujours en vie lors de la
+seconde étude. Par simplicité, nous nous restreindrons aux femmes et
+parmi celles-ci aux 1314 qui ont été catégorisées comme ``fumant
+actuellement'' ou ``n'ayant jamais fumé''. Il y avait relativement peu
+de femmes dans le sondage initial ayant fumé et ayant arrêté depuis
+(162) et très peu pour lesquelles l'information n'était pas disponible
+(18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du
+premier sondage.
+Les données sont disponibles dans ce fichier CSV. Vous trouverez sur
+chaque ligne si la personne fume ou non, si elle est vivante ou décédée
+au moment de la seconde étude, et son âge lors du premier sondage.
+Cet exercice peut être réalisé indifféremment en R ou en Python. Votre
+mission si vous l'acceptez :
+\hypertarget{partie-1}{%
+\subsubsection{Partie 1 :}\label{partie-1}}
+Représentez dans un tableau le nombre total de femmes vivantes et
+décédées sur la période en fonction de leur habitude de tabagisme.
+Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de
+mortalité (le rapport entre le nombre de femmes décédées dans un groupe
+et le nombre total de femmes dans ce groupe). Vous pourrez proposer une
+représentation graphique de ces données et calculer des intervalles de
+confiance si vous le souhaitez. En quoi ce résultat est-il surprenant ?
+\hypertarget{partie-2}{%
+\subsubsection{Partie 2 :}\label{partie-2}}
+Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une
+nouvelle catégorie liée à la classe d'âge. On considérera par exemple
+les classes suivantes : 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans.
+En quoi ce résultat est-il surprenant ? Arrivez-vous à expliquer ce
+paradoxe ? De même, vous pourrez proposer une représentation graphique
+de ces données pour étayer vos explications.
+\hypertarget{partie-3}{%
+\subsubsection{Partie 3 :}\label{partie-3}}
+Afin d'éviter un biais induit par des regroupements en tranches d'âges
+arbitraires et non régulières, il est envisageable d'essayer de réaliser
+une régression logistique. Si on introduit une variable Death valant 1
+ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans,
+on peut étudier le modèle Death \textasciitilde{} Age pour étudier la
+probabilité de décès en fonction de l'âge selon que l'on considère le
+groupe des fumeuses ou des non fumeuses. Ces régressions vous
+permettent-elles de conclure sur la nocivité du tabagisme ? Vous pourrez
+proposer une représentation graphique de ces régressions (en n'omettant
+pas les régions de confiance).
+\hypertarget{partie-4}{%
+\subsubsection{Partie 4 :}\label{partie-4}}
+Déposez votre étude dans FUN.
+\begin{center}\rule{0.5\linewidth}{0.5pt}\end{center}
+\hypertarget{partie-1-1}{%
+\section{Partie 1}\label{partie-1-1}}
+Dans un premier temps, il s'agit d'importer les données a analyser, de
+representer dans un tableau le nombre total de femmes vivantes et
+décédée sur la période en fonction de leur habitude de tabagisme.
+Ensuite, nous calculerons le taux de mortalite dans chaque groupe
+(fumeuses / non fumeuses), nous representerons ces donnees en utilisant
+un graphique adapte pour finir par commenter ces resultats.
+\hypertarget{pakage-pouvant-etre-utile}{%
+\subsubsection{Pakage pouvant etre
+utile}\label{pakage-pouvant-etre-utile}}
+\begin{Shaded}
+\begin{Highlighting}[]
+\KeywordTok{library}\NormalTok{(epiDisplay)}
+\end{Highlighting}
+\end{Shaded}
+\begin{verbatim}
+## Loading required package: foreign
+\end{verbatim}
+\begin{verbatim}
+## Loading required package: survival
+\end{verbatim}
+\begin{verbatim}
+## Loading required package: MASS
+\end{verbatim}
+\begin{verbatim}
+## Loading required package: nnet
+\end{verbatim}
+\begin{Shaded}
+\begin{Highlighting}[]
+\KeywordTok{library}\NormalTok{(epiR)}
+\end{Highlighting}
+\end{Shaded}
+\begin{verbatim}
+## Package epiR 1.0-14 is loaded
+\end{verbatim}
+\begin{verbatim}
+## Type help(epi.about) for summary information
+\end{verbatim}
+\begin{verbatim}
+## Type browseVignettes(package = 'epiR') to learn how to use epiR for applied epidemiological analyses
+\end{verbatim}
+\begin{verbatim}
+## 
+\end{verbatim}
+\begin{Shaded}
+\begin{Highlighting}[]
+\KeywordTok{library}\NormalTok{(prettyR)}
+\KeywordTok{library}\NormalTok{(knitr)}
+\KeywordTok{library}\NormalTok{(kableExtra)}
+\KeywordTok{library}\NormalTok{(ggplot2)}
+\end{Highlighting}
+\end{Shaded}
+\begin{verbatim}
+## 
+## Attaching package: 'ggplot2'
+\end{verbatim}
+\begin{verbatim}
+## The following object is masked from 'package:epiDisplay':
+## 
+##     alpha
+\end{verbatim}
+\begin{Shaded}
+\begin{Highlighting}[]
+\KeywordTok{library}\NormalTok{(mfp)}
+\CommentTok{# Ajouter des packages ICI}
+\end{Highlighting}
+\end{Shaded}
+\hypertarget{importer-les-donnees}{%
+\subsubsection{Importer les donnees}\label{importer-les-donnees}}
+\begin{Shaded}
+\begin{Highlighting}[]
+\NormalTok{url <-}\StringTok{ "https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/-/raw/master/module3/Practical_session/Subject6_smoking.csv?inline=false"}
+\NormalTok{data <-}\StringTok{ }\KeywordTok{read.csv}\NormalTok{(url)}
+\end{Highlighting}
+\end{Shaded}
+Premier apercu du jeu de donne :
+\begin{Shaded}
+\begin{Highlighting}[]
+\KeywordTok{head}\NormalTok{(data) }
+\end{Highlighting}
+\end{Shaded}
+\begin{verbatim}
+##   Smoker Status  Age
+## 1    Yes  Alive 21.0
+## 2    Yes  Alive 19.3
+## 3     No   Dead 57.5
+## 4     No  Alive 47.1
+## 5    Yes  Alive 81.4
+## 6     No  Alive 36.8
+\end{verbatim}
+Colonne 1 represente le statut : fumeur / non fumer Colonne 2 represente
+le statut : mort / vivant Colonne 3 reoresente l 'age.
+\hypertarget{representation-graphique}{%
+\subsubsection{Representation
+graphique}\label{representation-graphique}}
+Nous allons calculer les pourcentages de femmes vivantes / mortes en
+fonction de leur status fumeuse / non fumeuse. Ceci nous permettra d
+avoir une idee de la distributipon des differentes populations.
+\begin{Shaded}
+\begin{Highlighting}[]
+\NormalTok{mort_fum <-}\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"Yes"}\NormalTok{]}\OperatorTok{==}\StringTok{"Dead"}\NormalTok{)}
+\NormalTok{mort_nonfum <-}\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"No"}\NormalTok{]}\OperatorTok{==}\StringTok{"Dead"}\NormalTok{)}
+\NormalTok{vivant_fum <-}\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"Yes"}\NormalTok{]}\OperatorTok{==}\StringTok{"Alive"}\NormalTok{)}
+\NormalTok{vivant_nonfum <-}\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"No"}\NormalTok{]}\OperatorTok{==}\StringTok{"Alive"}\NormalTok{)}
+\NormalTok{nb_fum <-}\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"Yes"}\NormalTok{)}
+\NormalTok{nb_nonfum <-}\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"No"}\NormalTok{)}
+\NormalTok{nb_viv <-}\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status}\OperatorTok{==}\StringTok{"Alive"}\NormalTok{)}
+\NormalTok{nb_deces <-}\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status}\OperatorTok{==}\StringTok{"Dead"}\NormalTok{)}
+\NormalTok{tot <-}\StringTok{ }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status}\OperatorTok{==}\StringTok{"Alive"}\OperatorTok{|}\NormalTok{data}\OperatorTok{$}\NormalTok{Status}\OperatorTok{==}\StringTok{"Dead"}\NormalTok{)}
+\NormalTok{tab_}\DecValTok{2}\NormalTok{ <-}\StringTok{ }\KeywordTok{data.frame}\NormalTok{(}\KeywordTok{cbind}\NormalTok{(}\KeywordTok{rbind}\NormalTok{(mort_fum, vivant_fum, nb_fum)), }
+                    \KeywordTok{rbind}\NormalTok{(mort_nonfum,vivant_nonfum, nb_nonfum),}
+                    \KeywordTok{rbind}\NormalTok{(nb_deces,nb_viv,tot))}
+\KeywordTok{row.names}\NormalTok{(tab_}\DecValTok{2}\NormalTok{) <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"Decedees"}\NormalTok{, }\StringTok{"Vivantes"}\NormalTok{,}\StringTok{"Total"}\NormalTok{)}
+\KeywordTok{names}\NormalTok{(tab_}\DecValTok{2}\NormalTok{) <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"Fumeuses"}\NormalTok{, }\StringTok{"Non Fumeuses"}\NormalTok{, }\StringTok{"Total"}\NormalTok{)}
+\KeywordTok{kable}\NormalTok{(tab_}\DecValTok{2}\NormalTok{,}\DataTypeTok{align =} \StringTok{"c"}\NormalTok{)}
+\end{Highlighting}
+\end{Shaded}
+\begin{tabular}{l|c|c|c}
+\hline
+  & Fumeuses & Non Fumeuses & Total\\
+\hline
+Decedees & 139 & 230 & 369\\
+\hline
+Vivantes & 443 & 502 & 945\\
+\hline
+Total & 582 & 732 & 1314\\
+\hline
+\end{tabular}
+\begin{Shaded}
+\begin{Highlighting}[]
+\NormalTok{tab_}\DecValTok{3}\NormalTok{ <-}\StringTok{ }\KeywordTok{data.frame}\NormalTok{(}\KeywordTok{cbind}\NormalTok{(}\KeywordTok{rbind}\NormalTok{((}\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"Yes"}\NormalTok{]}\OperatorTok{==}\StringTok{"Dead"}\NormalTok{)}\OperatorTok{/}
+\StringTok{                                   }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"Yes"}\NormalTok{))}\OperatorTok{*}\DecValTok{100}\NormalTok{,}
+\NormalTok{                                (}\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"Yes"}\NormalTok{]}\OperatorTok{==}\StringTok{"Alive"}\NormalTok{)}\OperatorTok{/}
+\StringTok{                                   }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"Yes"}\NormalTok{))}\OperatorTok{*}\DecValTok{100}\NormalTok{)), }
+                    \KeywordTok{rbind}\NormalTok{((}\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"No"}\NormalTok{]}\OperatorTok{==}\StringTok{"Dead"}\NormalTok{)}\OperatorTok{/}
+\StringTok{                             }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"No"}\NormalTok{))}\OperatorTok{*}\DecValTok{100}\NormalTok{,}
+\NormalTok{                          (}\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status[data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"No"}\NormalTok{]}\OperatorTok{==}\StringTok{"Alive"}\NormalTok{)}\OperatorTok{/}
+\StringTok{                             }\KeywordTok{sum}\NormalTok{(data}\OperatorTok{$}\NormalTok{Smoker}\OperatorTok{==}\StringTok{"No"}\NormalTok{))}\OperatorTok{*}\DecValTok{100}\NormalTok{))}
+\KeywordTok{names}\NormalTok{(tab_}\DecValTok{3}\NormalTok{) <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"Fumeuses"}\NormalTok{, }\StringTok{"Non fumeuses"}\NormalTok{)}
+\KeywordTok{row.names}\NormalTok{(tab_}\DecValTok{3}\NormalTok{) <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"Decedees"}\NormalTok{, }\StringTok{"Vivantes"}\NormalTok{)}
+\KeywordTok{kable}\NormalTok{(tab_}\DecValTok{3}\NormalTok{, }\DataTypeTok{align =} \StringTok{"c"}\NormalTok{)}
+\end{Highlighting}
+\end{Shaded}
+\begin{tabular}{l|c|c}
+\hline
+  & Fumeuses & Non fumeuses\\
+\hline
+Decedees & 23.88316 & 31.42076\\
+\hline
+Vivantes & 76.11684 & 68.57923\\
+\hline
+\end{tabular}
+\begin{Shaded}
+\begin{Highlighting}[]
+\KeywordTok{barplot}\NormalTok{(}\KeywordTok{as.matrix}\NormalTok{(tab_}\DecValTok{3}\NormalTok{), }\DataTypeTok{col =} \KeywordTok{c}\NormalTok{(}\StringTok{"black"}\NormalTok{,}\StringTok{"white"}\NormalTok{), }\DataTypeTok{space =} \FloatTok{1.5}\NormalTok{,}\DataTypeTok{width =} \FloatTok{0.5}\NormalTok{) }
+\KeywordTok{legend}\NormalTok{(}\StringTok{"center"}\NormalTok{,}\DataTypeTok{xpd=}\OtherTok{NA}\NormalTok{, }\DataTypeTok{legend =} \KeywordTok{c}\NormalTok{(}\StringTok{"Decedees"}\NormalTok{, }\StringTok{"Vivantes"}\NormalTok{), }\DataTypeTok{fill =} \KeywordTok{c}\NormalTok{(}\StringTok{"black"}\NormalTok{,}\StringTok{"white"}\NormalTok{))}
+\end{Highlighting}
+\end{Shaded}
+\includegraphics{exercice_fr_files/figure-latex/unnamed-chunk-4-1.pdf}
+On voit que, le proportion decedée chez les non fumeuses est superieur a
+la proportion de femme décédées chez les fumeuses. Ceci est-il
+significatif ? Pour verifier cela nous allons calculer les intervalles
+de confiance (IC).
+Calcul des intervalles de confiance des proportions inspire de
+\href{http://mathsp.tuxfamily.org/spip.php?article292}{lien}
+\begin{Shaded}
+\begin{Highlighting}[]
+\CommentTok{#  Fonction Intervalle de confiance :}
+\NormalTok{IC =}\StringTok{ }\ControlFlowTok{function}\NormalTok{(x) \{}
+\NormalTok{  y <-}\StringTok{ }\NormalTok{x}\OperatorTok{/}\DecValTok{100}
+\NormalTok{  inf =}\StringTok{ }\NormalTok{y}\OperatorTok{-}\NormalTok{(}\FloatTok{1.96}\OperatorTok{*}\KeywordTok{sqrt}\NormalTok{((y}\OperatorTok{*}\NormalTok{(}\DecValTok{1}\OperatorTok{-}\NormalTok{y))}\OperatorTok{/}\NormalTok{n))}
+\NormalTok{  sup =}\StringTok{ }\NormalTok{y}\OperatorTok{+}\NormalTok{(}\FloatTok{1.96}\OperatorTok{*}\KeywordTok{sqrt}\NormalTok{((y}\OperatorTok{*}\NormalTok{(}\DecValTok{1}\OperatorTok{-}\NormalTok{y))}\OperatorTok{/}\NormalTok{n))}
+  \KeywordTok{print}\NormalTok{(}\KeywordTok{c}\NormalTok{(x,inf}\OperatorTok{*}\DecValTok{100}\NormalTok{,sup}\OperatorTok{*}\DecValTok{100}\NormalTok{))}
+\NormalTok{\}}
+\end{Highlighting}
+\end{Shaded}
+Chez les fumeuses :
+\begin{Shaded}
+\begin{Highlighting}[]
+\NormalTok{x <-}\StringTok{ }\NormalTok{tab_}\DecValTok{3}\NormalTok{[}\DecValTok{1}\NormalTok{,}\DecValTok{1}\NormalTok{]}
+\NormalTok{n <-}\StringTok{ }\KeywordTok{as.numeric}\NormalTok{(tab_}\DecValTok{2}\NormalTok{[}\DecValTok{3}\NormalTok{,}\DecValTok{1}\NormalTok{])}
+\KeywordTok{IC}\NormalTok{(x)}
+\end{Highlighting}
+\end{Shaded}
+\begin{verbatim}
+## [1] 23.88316 20.41914 27.34719
+\end{verbatim}
+Chez les non fumeuses :
+\begin{Shaded}
+\begin{Highlighting}[]
+\NormalTok{x <-}\StringTok{ }\NormalTok{tab_}\DecValTok{3}\NormalTok{[}\DecValTok{1}\NormalTok{,}\DecValTok{2}\NormalTok{];}
+\NormalTok{n <-}\StringTok{ }\NormalTok{tab_}\DecValTok{2}\NormalTok{[}\DecValTok{3}\NormalTok{,}\DecValTok{2}\NormalTok{];}
+\KeywordTok{IC}\NormalTok{(x)}
+\end{Highlighting}
+\end{Shaded}
+\begin{verbatim}
+## [1] 31.42077 28.05793 34.78360
+\end{verbatim}
+L'intervalle de confiance a 95\% nous montre que la proportion de femmes
+fumeuses decedes est compris entre {[}20.4;27.34{]} alors que la
+proportion de femmes non fumeuses decedees est compris entre
+{[}28.05;34.74{]}. A premiere vu, on voit qu il y aurait plus de deces
+chez les femmes non fumeuses que chez les femmes fumeuses dans la
+periode a l etude ce qui est a l encontre des idees recues.
+\hypertarget{partie-2-1}{%
+\section{Partie 2}\label{partie-2-1}}
+Dans la partie 2 de l analyse il s'agit d ajouter une cagorie liee a l
+age. \# colonne 3 du tableau.
+Dans un premier temps je vais ajouter une colonne au tableau pour ranger
+chaque age dans une classe d'age 18-34 ans, 34-54 ans, 55-64 ans, plus
+de 65 ans.
+\begin{Shaded}
+\begin{Highlighting}[]
+\NormalTok{data}\OperatorTok{$}\NormalTok{cl_age <-}\StringTok{ }\KeywordTok{as.factor}\NormalTok{(}\KeywordTok{ifelse}\NormalTok{(data}\OperatorTok{$}\NormalTok{Age}\OperatorTok{>=}\DecValTok{18}\OperatorTok{&}\NormalTok{data}\OperatorTok{$}\NormalTok{Age}\OperatorTok{<}\DecValTok{35}\NormalTok{,}\StringTok{"[18;34]"}\NormalTok{,}
+                                \KeywordTok{ifelse}\NormalTok{(data}\OperatorTok{$}\NormalTok{Age}\OperatorTok{>=}\DecValTok{35}\OperatorTok{&}\NormalTok{data}\OperatorTok{$}\NormalTok{Age}\OperatorTok{<}\DecValTok{54}\NormalTok{,}\StringTok{"[35;54]"}\NormalTok{,}
+                                       \KeywordTok{ifelse}\NormalTok{(data}\OperatorTok{$}\NormalTok{Age}\OperatorTok{>=}\DecValTok{55}\OperatorTok{&}\NormalTok{data}\OperatorTok{$}\NormalTok{Age}\OperatorTok{<}\DecValTok{65}\NormalTok{,}\StringTok{"[55;64]"}\NormalTok{,}\StringTok{"[65;["}\NormalTok{))))}
+\KeywordTok{graphics.off}\NormalTok{()}
+\KeywordTok{tab1}\NormalTok{(data}\OperatorTok{$}\NormalTok{cl_age);}
+\end{Highlighting}
+\end{Shaded}
+\begin{verbatim}
+## data$cl_age : 
+##         Frequency Percent Cum. percent
+## [18;34]       416    31.7         31.7
+## [35;54]       420    32.0         63.6
+## [55;64]       236    18.0         81.6
+## [65;[         242    18.4        100.0
+##   Total      1314   100.0        100.0
+\end{verbatim}
+Verification
+\begin{Shaded}
+\begin{Highlighting}[]
+\KeywordTok{head}\NormalTok{(data)}
+\end{Highlighting}
+\end{Shaded}
+\begin{verbatim}
+##   Smoker Status  Age  cl_age
+## 1    Yes  Alive 21.0 [18;34]
+## 2    Yes  Alive 19.3 [18;34]
+## 3     No   Dead 57.5 [55;64]
+## 4     No  Alive 47.1 [35;54]
+## 5    Yes  Alive 81.4   [65;[
+## 6     No  Alive 36.8 [35;54]
+\end{verbatim}
+\begin{Shaded}
+\begin{Highlighting}[]
+\KeywordTok{tail}\NormalTok{(data)}
+\end{Highlighting}
+\end{Shaded}
+\begin{verbatim}
+##      Smoker Status  Age  cl_age
+## 1309     No  Alive 42.1 [35;54]
+## 1310    Yes  Alive 35.9 [35;54]
+## 1311     No  Alive 22.3 [18;34]
+## 1312    Yes   Dead 62.1 [55;64]
+## 1313     No   Dead 88.6   [65;[
+## 1314     No  Alive 39.1 [35;54]
+\end{verbatim}
+J ai donc ajoute a droite du tableau une categorie cl\_age qui range les
+ages de la colonne 3 dans differentes classe (18-34 ans, 34-54 ans,
+55-64 ans, plus de 65 ans.).
+\begin{Shaded}
+\begin{Highlighting}[]
+\NormalTok{tab_}\DecValTok{5}\NormalTok{ <-}\StringTok{ }\KeywordTok{ftable}\NormalTok{(data[,}\KeywordTok{c}\NormalTok{(}\DecValTok{1}\NormalTok{,}\DecValTok{2}\NormalTok{,}\DecValTok{4}\NormalTok{)]);}
+\NormalTok{tab_}\DecValTok{5}\NormalTok{ <-}\StringTok{ }\KeywordTok{round}\NormalTok{(}\KeywordTok{prop.table}\NormalTok{(tab_}\DecValTok{5}\NormalTok{,}\DecValTok{2}\NormalTok{)}\OperatorTok{*}\DecValTok{100}\NormalTok{,}\DecValTok{1}\NormalTok{);}
+\NormalTok{tab_}\DecValTok{5}\NormalTok{ <-}\StringTok{ }\KeywordTok{rbind}\NormalTok{(tab_}\DecValTok{5}\NormalTok{, }\KeywordTok{tab1}\NormalTok{(data}\OperatorTok{$}\NormalTok{cl_age)}\OperatorTok{$}\NormalTok{output.table[,}\DecValTok{1}\NormalTok{]);}
+\end{Highlighting}
+\end{Shaded}
+\begin{verbatim}
+## Warning in rbind(tab_5, tab1(data$cl_age)$output.table[, 1]): number of columns
+## of result is not a multiple of vector length (arg 2)
+\end{verbatim}
+\includegraphics{exercice_fr_files/figure-latex/unnamed-chunk-10-1.pdf}
+\begin{Shaded}
+\begin{Highlighting}[]
+\NormalTok{tab_}\DecValTok{5}\NormalTok{ <-}\StringTok{ }\KeywordTok{as.table}\NormalTok{(tab_}\DecValTok{5}\NormalTok{);}
+\KeywordTok{row.names}\NormalTok{(tab_}\DecValTok{5}\NormalTok{) <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"Non fumeuses vivantes "}\NormalTok{, }\StringTok{"Non fumeuses decedees"}\NormalTok{, }
+                      \StringTok{"Fumeuses vivantes"}\NormalTok{, }\StringTok{"Fumeuses decedees"}\NormalTok{ ,}\StringTok{"Effectifs"}\NormalTok{);}
+\KeywordTok{colnames}\NormalTok{(tab_}\DecValTok{5}\NormalTok{) <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"[18;34]"}\NormalTok{, }\StringTok{"[35;54]"}\NormalTok{, }\StringTok{"[55;64]"}\NormalTok{, }\StringTok{"[65;["}\NormalTok{);}
+\end{Highlighting}
+\end{Shaded}
+\begin{Shaded}
+\begin{Highlighting}[]
+\KeywordTok{par}\NormalTok{(}\DataTypeTok{mar =} \KeywordTok{c}\NormalTok{(}\DecValTok{5}\NormalTok{,}\DecValTok{5}\NormalTok{,}\DecValTok{5}\NormalTok{,}\DecValTok{13}\NormalTok{))}
+\KeywordTok{barplot}\NormalTok{(tab_}\DecValTok{5}\NormalTok{[}\KeywordTok{c}\NormalTok{(}\DecValTok{1}\OperatorTok{:}\DecValTok{4}\NormalTok{),], }\DataTypeTok{col =} \KeywordTok{c}\NormalTok{(}\StringTok{"gray"}\NormalTok{,}\StringTok{"black"}\NormalTok{,}\StringTok{"gray"}\NormalTok{,}\StringTok{"black"}\NormalTok{), }\DataTypeTok{density =} \KeywordTok{c}\NormalTok{(}\DecValTok{30}\NormalTok{,}\DecValTok{30}\NormalTok{,}\DecValTok{40}\NormalTok{,}\DecValTok{100}\NormalTok{),}
+        \DataTypeTok{angle =} \KeywordTok{c}\NormalTok{(}\DecValTok{70}\NormalTok{,}\DecValTok{70}\NormalTok{,}\DecValTok{0}\NormalTok{,}\DecValTok{0}\NormalTok{))}
+\NormalTok{xmin <-}\StringTok{ }\KeywordTok{par}\NormalTok{(}\StringTok{"usr"}\NormalTok{)[}\DecValTok{1}\NormalTok{]}
+\NormalTok{xmax <-}\StringTok{ }\KeywordTok{par}\NormalTok{(}\StringTok{"usr"}\NormalTok{)[}\DecValTok{2}\NormalTok{]}
+\NormalTok{ymin <-}\StringTok{ }\KeywordTok{par}\NormalTok{(}\StringTok{"usr"}\NormalTok{)[}\DecValTok{3}\NormalTok{]}
+\NormalTok{ymax <-}\StringTok{ }\KeywordTok{par}\NormalTok{(}\StringTok{"usr"}\NormalTok{)[}\DecValTok{4}\NormalTok{]}
+\KeywordTok{par}\NormalTok{(}\DataTypeTok{xpd=}\OtherTok{TRUE}\NormalTok{)}
+\NormalTok{lambda <-}\StringTok{ }\FloatTok{0.025}
+\KeywordTok{legend}\NormalTok{(((}\DecValTok{1} \OperatorTok{+}\StringTok{ }\NormalTok{lambda) }\OperatorTok{*}\StringTok{ }\KeywordTok{par}\NormalTok{(}\StringTok{"usr"}\NormalTok{)[}\DecValTok{2}\NormalTok{] }\OperatorTok{-}\StringTok{ }\NormalTok{lambda }\OperatorTok{*}\StringTok{ }\KeywordTok{par}\NormalTok{(}\StringTok{"usr"}\NormalTok{)[}\DecValTok{1}\NormalTok{]),}\DecValTok{50}\NormalTok{, }
+       \DataTypeTok{legend =} \KeywordTok{c}\NormalTok{(}\StringTok{"Non fumeuses vivantes"}\NormalTok{, }\StringTok{"Non fumeuses decedees"}\NormalTok{, }
+                  \StringTok{"Fumeuses vivantes"}\NormalTok{, }\StringTok{"Fumeuses decedees"}\NormalTok{), }
+       \DataTypeTok{fill =} \KeywordTok{c}\NormalTok{(}\StringTok{"gray"}\NormalTok{,}\StringTok{"black"}\NormalTok{,}\StringTok{"gray"}\NormalTok{,}\StringTok{"black"}\NormalTok{),}\DataTypeTok{density =} \KeywordTok{c}\NormalTok{(}\DecValTok{30}\NormalTok{,}\DecValTok{30}\NormalTok{,}\DecValTok{50}\NormalTok{,}\DecValTok{100}\NormalTok{),}\DataTypeTok{angle =}\NormalTok{ (}\KeywordTok{c}\NormalTok{(}\DecValTok{70}\NormalTok{,}\DecValTok{70}\NormalTok{,}\DecValTok{0}\NormalTok{,}\DecValTok{0}\NormalTok{)))}
+\end{Highlighting}
+\end{Shaded}
+\includegraphics{exercice_fr_files/figure-latex/unnamed-chunk-11-1.pdf}
+La representation ci contre nous permet de representer la repartion des
+effectifs dans les differentes classes d'age. Il apparait maintenant
+plus clair qu il y a une biais de distribution des effectifs en fonction
+de leur tranche d'age. En effet on remarque que les femmes non fumeuse
+decedee on un effectifs plus grand dans la categorie {[}65;{[} par
+comparaison au femme fumeuse decedees de la meme categorie. Il va donc
+de soit de penser que le biais de repartition dans les differentes
+classe d'age peu avoir un impact sur le taux de femme decedee en
+fonction de leur statut fumeuse/non fumeuse. C'est le paradoxe des
+simpsons.
+\hypertarget{partie-3-1}{%
+\section{Partie 3}\label{partie-3-1}}
+Dans un premier temps on va recoder la variable deces 0 si non decede et
+1 si decede.
+\begin{Shaded}
+\begin{Highlighting}[]
+\NormalTok{data}\OperatorTok{$}\NormalTok{deces <-}\StringTok{ }\KeywordTok{as.factor}\NormalTok{(}\KeywordTok{ifelse}\NormalTok{(data}\OperatorTok{$}\NormalTok{Status}\OperatorTok{==}\StringTok{"Alive"}\NormalTok{,}\DecValTok{0}\NormalTok{,}\DecValTok{1}\NormalTok{))}
+\KeywordTok{head}\NormalTok{(data)}
+\end{Highlighting}
+\end{Shaded}
+\begin{verbatim}
+##   Smoker Status  Age  cl_age deces
+## 1    Yes  Alive 21.0 [18;34]     0
+## 2    Yes  Alive 19.3 [18;34]     0
+## 3     No   Dead 57.5 [55;64]     1
+## 4     No  Alive 47.1 [35;54]     0
+## 5    Yes  Alive 81.4   [65;[     0
+## 6     No  Alive 36.8 [35;54]     0
+\end{verbatim}
+On voit donc que la variable presente colonne 5 est bien recodee a la
+norme voulue. On peut faire une premiere regression pour comparer statut
+fumeur/ non fumeur et statut dece / vivant.
+\begin{Shaded}
+\begin{Highlighting}[]
+\CommentTok{#Age vs statut decede}
+\NormalTok{reg_log_total <-}\StringTok{ }\KeywordTok{ggplot}\NormalTok{(data, }\KeywordTok{aes}\NormalTok{(}\DataTypeTok{x=}\NormalTok{Age,}\DataTypeTok{y=}\NormalTok{deces)) }\OperatorTok{+}
+\StringTok{  }\KeywordTok{geom_point}\NormalTok{() }\OperatorTok{+}
+\StringTok{  }\KeywordTok{geom_smooth}\NormalTok{()}
+\CommentTok{#Age vs statut fumeur}
+\NormalTok{reg_log_fumeur <-}\StringTok{ }\KeywordTok{ggplot}\NormalTok{(data[data}\OperatorTok{$}\NormalTok{Smoker }\OperatorTok{==}\StringTok{ "Yes"}\NormalTok{,], }\KeywordTok{aes}\NormalTok{(}\DataTypeTok{x=}\NormalTok{Age,}\DataTypeTok{y=}\NormalTok{deces)) }\OperatorTok{+}
+\StringTok{  }\KeywordTok{geom_point}\NormalTok{() }\OperatorTok{+}
+\StringTok{  }\KeywordTok{geom_smooth}\NormalTok{()}
+\CommentTok{#Age vs statut NON fumeur}
+\NormalTok{reg_log_non_fumeur <-}\StringTok{ }\KeywordTok{ggplot}\NormalTok{(data[data}\OperatorTok{$}\NormalTok{Smoker }\OperatorTok{==}\StringTok{ "No"}\NormalTok{,], }\KeywordTok{aes}\NormalTok{(}\DataTypeTok{x=}\NormalTok{Age,}\DataTypeTok{y=}\NormalTok{deces)) }\OperatorTok{+}
+\StringTok{  }\KeywordTok{geom_point}\NormalTok{() }\OperatorTok{+}
+\StringTok{  }\KeywordTok{geom_smooth}\NormalTok{()}
+\NormalTok{reg_log_total}
+\end{Highlighting}
+\end{Shaded}
+\begin{verbatim}
+## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
+\end{verbatim}
+\includegraphics{exercice_fr_files/figure-latex/unnamed-chunk-13-1.pdf}
+\begin{Shaded}
+\begin{Highlighting}[]
+\NormalTok{reg_log_fumeur}
+\end{Highlighting}
+\end{Shaded}
+\begin{verbatim}
+## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
+\end{verbatim}
+\includegraphics{exercice_fr_files/figure-latex/unnamed-chunk-13-2.pdf}
+\begin{Shaded}
+\begin{Highlighting}[]
+\NormalTok{reg_log_non_fumeur}
+\end{Highlighting}
+\end{Shaded}
+\begin{verbatim}
+## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
+\end{verbatim}
+\includegraphics{exercice_fr_files/figure-latex/unnamed-chunk-13-3.pdf}
+Les ci-joint montre une repartition semblable entre reg\_log\_total et
+reg\_log\_non\_fumeur. Cela peut s'expliquer par une faible population
+de personne agee chez les fumeurs (cf question 2). De ce fait
+l'augmentation de la mortalite observe chez les non fumeurs peut en
+parti etre explique par le biais de repartition des ages chez les deux
+groupes fumeur et non fumeur\ldots{} Il serait donc necessaire de
+refaire une analyse chez des populations plus homogenes \ldots{}
+\end{document}