*Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera par exemple les classes suivantes : 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans. En quoi ce résultat est-il surprenant ? Arrivez-vous à expliquer ce paradoxe ? De même, vous pourrez proposer une représentation graphique de ces données pour étayer vos explications.*
```{r}
a$age20<-cut(a$Age,c(18,34,54,64,95),include.lowest=TRUE, labels=c("18-34ans","35-54ans","55-64ans",">65ans"))
table(a$age20)
t2<-data.frame(t1,a$age20)
head(t2)
summary(a)
```
```
Ici, les femmes "fumeuses" et "non fumeuses" ont été classés en fonction de l'âge et de leur état (en vie / décédé).
On retrouve 4 tranches d'âges : 18-34 ans, 35-54 ans, 55-64 ans et > 65 ans.
```
###
*Taux de mortalité chez les 18-34 ans*
```{r}
age18_34<-t2[t2$a.age20=="18-34ans",]
head(age18_34)
age18_34ta<-table(age18_34$a.Smoker,age18_34$a.Status)
age18_34ta
mortnofum18_34<-age18_34ta[1,2]/(age18_34ta[1,1]+age18_34ta[1,2])*100
mortnofum18_34
mortfum18_34<-age18_34ta[2,2]/(age18_34ta[2,1]+age18_34ta[2,2])*100
mortfum18_34
```
```
Le taux de mortalité chez les 18-34 ans est de 2.74% chez les femmes non fumeuses et 2.76% chez les femmes fumeuses.
```
###
*Taux de mortalité chez les 35-54 ans*
```{r}
age35_54<-t2[t2$a.age20=="35-54ans",]
head(age35_54)
age35_54ta<-table(age35_54$a.Smoker,age35_54$a.Status)
age35_54ta
mortnofum35_54<-age35_54ta[1,2]/(age35_54ta[1,1]+age35_54ta[1,2])*100
mortnofum35_54
mortfum35_54<-age35_54ta[2,2]/(age35_54ta[2,1]+age35_54ta[2,2])*100
mortfum35_54
```
```
Le taux de mortalité chez les 35-54 ans est de 9.5% chez les femmes non fumeuses et 17.3% chez les femmes fumeuses.
```
###
*Taux de mortalité chez les 55-64 ans*
```{r}
age55_64<-t2[t2$a.age20=="55-64ans",]
head(age55_64)
age55_64ta<-table(age55_64$a.Smoker,age55_64$a.Status)
age55_64ta
mortnofum55_64<-age55_64ta[1,2]/(age55_64ta[1,1]+age55_64ta[1,2])*100
mortnofum55_64
mortfum55_64<-age55_64ta[2,2]/(age55_64ta[2,1]+age55_64ta[2,2])*100
mortfum55_64
```
```
Le taux de mortalité chez les 55-64 ans est de 33% chez les femmes non fumeuses et 44.3% chez les femmes fumeuses.
```
###
*Taux de mortalité chez les plus de 65 ans*
```{r}
ageplusde65<-t2[t2$a.age20==">65ans",]
head(ageplusde65)
ageplusde65ta<-table(ageplusde65$a.Smoker,ageplusde65$a.Status)
ageplusde65ta
mortnofumplusde65<-ageplusde65ta[1,2]/(ageplusde65ta[1,1]+ageplusde65ta[1,2])*100
mortnofumplusde65
mortfumplusde65<-ageplusde65ta[2,2]/(ageplusde65ta[2,1]+ageplusde65ta[2,2])*100
mortfumplusde65
```
```
Le taux de mortalité chez les plus de 65 ans est de 85.5% chez les femmes non fumeuses et 85.7% chez les femmes fumeuses.
```
###
*Explication du paradoxe*
```
Lorsque l'on classe les 2 groupes de femmes en fonction de leur âge, on remarque que dans chaque tranche d'âges, le taux de mortalité est plus élevé chez les femmes du groupe "fumeuses" que chez les femmes du groupe "non fumeuses".
Si on s'intéresse aux 2 groupes "fumeuses" et "non fumeuses", on remarque que dans le groupe de plus de 65 ans, les femmes "non fumeuses" sont beaucoup plus nombreuses (n = 193 dont 165 sont décédées) que les femmes "fumeuses" (n = 49 dont 42 décédées). L'échantillon n'est donc pas distribué de façon homogène.
Cela pourrait expliquer un taux de mortalité plus élevé (retrouvé dans la question 1) chez les femmes non fumeuses par rapport aux femmes fumeuses.
Car même si dans chacune des classes d'âges 18-34 ans, 35-54 ans, 55-64 ans et plus de 65 ans, le taux de mortalité des femmes non fumeuses est inférieur à celui des femmes fumeuses, il est compensé par le nombre plus important de femmes non fumeuses dans les classes d'âges élevées (> 65 ans) où la mortalité est plus élevée que dans les classes d'âges plus faibles.
```
###
*Représentation graphique du taux de mortalité en fonction des différentes classes d’âges*
```{r}
mortalite<-c(mortnofum18_34,mortnofum35_54,mortnofum55_64,mortnofumplusde65,mortfum18_34,mortfum35_54,mortfum55_64,mortfumplusde65)
des<-matrix(mortalite,nc=4,nr=2,byrow = T)
type=c("18-34 ans ","35-54 ans","55-64 ans","> 65 ans")
des<-matrix(mortalite,nc=4,nr=2,byrow = T)
colnames(des)=type
barplot(des,beside = T,ylim = c(0,100),ylab = "taux de mortalité",main="Taux de mortalité chez les femmes fumeuses et non fumeuses",las=1, col=c("blue4","magenta"),legend.text = c("Non fumeuse", "Fumeuse"),args.legend = list(x="topleft"),font=2) ; box()
```
## **Question 3**
*Afin d'éviter un biais induit par des regroupements en tranches d'âges arbitraires et non régulières, il est envisageable d'essayer de réaliser une régression logistique. Si on introduit une variable Death valant 1 ou 0 pour indiquer si l'individu est décédé durant la période de 20 ans, on peut étudier le modèle Death ~ Age pour étudier la probabilité de décès en fonction de l'âge selon que l'on considère le groupe des fumeuses ou des non fumeuses. *
````
Nous réalisons une régression logistique afin d'éviter un biais induit par des regroupements en tranches d'âges arbitraires et non réguliers.
````
```{r}
a$death<-factor(x=rep(0,length(a$Status)), levels=c(0,1))
for (i in 1:length(a$Status)){
if (a$Status[i]=="Dead"){a$death[i]<-1}
}
modele<-glm(formula=death~Age,data=a,family=binomial)
modele
summary(modele)$coefficients
nofum<-a[a$Smoker=="No",]
summary(nofum)
fum<-a[a$Smoker=="Yes",]
summary(fum)
modelenofum<-glm(formula=death~Age,data=nofum,family=binomial)
modelefum<-glm(formula=death~Age,data=fum,family=binomial)
```
```{r}
summary(modelenofum)$coefficients
```
```
On retrouve un effet de l'âge sur la mortalité chez les femmes non fumeuses.
```
```{r}
summary(modelefum)$coefficients
```
```
On retrouve un effet de l'âge sur la mortalité chez les femmes non fumeuses.
```
````
Ainsi, dans les 2 groupes "fumeuses" et "non fumeuses", l'âge a un effet significatif sur la mortalité. Cela est en accord avec le fait que le taux de mortalité augmente avec le vieillissement.
```