Commit 41f1caf1 authored by Olivier Messina's avatar Olivier Messina

Premier commit

parent a2633cc6
--- ---
title: "Incidence de la varicelle" title: "Analyse de l'incience du syndrome grippal"
author: "Olivier Messina" author: "Olivier Messina"
date: "4/25/2020" date: "4/25/2020"
output: html_document output: html_document
...@@ -10,95 +10,23 @@ output: html_document ...@@ -10,95 +10,23 @@ output: html_document
knitr::opts_chunk$set(echo = TRUE) knitr::opts_chunk$set(echo = TRUE)
``` ```
```{r} ### Sujet 6 : Autour du Paradoxe de Simpson
data_url = "https://www.sentiweb.fr/datasets/incidence-PAY-7.csv"
```
```{r} Prérequis : calcul de moyennes et de ratios, techniques de présentations graphiques simples, éventuellement régression logistique
data = read.csv(data_url, skip=1)
head(data)
```
```{r} En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage d'un sixième des électeurs a été effectué afin d'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et cherchaient à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme "fumant actuellement" ou "n'ayant jamais fumé". Il y avait relativement peu de femmes dans le sondage initial ayant fumé et ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage.
tail(data)
```
Les données sont disponibles dans ce fichier CSV. Vous trouverez sur chaque ligne si la personne fume ou non, si elle est vivante ou décédée au moment de la seconde étude, et son âge lors du premier sondage.
```{r} Cet exercice peut être réalisé indifféremment en R ou en Python.
lignes_na = apply(data,1,function(x) any(is.na(x))) Votre mission si vous l'acceptez :
data[lignes_na,]
```
```{r}
class(data$week)
```
```{r}
class(data$inc)
```
```{r}
data=read.csv(data_url,skip=1, na.strings="-")
```
```{r} Partie 1 :
library(parsedate)
```
```{r} Représentez dans un tableau le nombre total de femmes vivantes et décédées sur la période en fonction de leur habitude de tabagisme. Calculez dans chaque groupe (fumeuses / non fumeuses) le taux de mortalité (le rapport entre le nombre de femmes décédées dans un groupe et le nombre total de femmes dans ce groupe). Vous pourrez proposer une représentation graphique de ces données et calculer des intervalles de confiance si vous le souhaitez. En quoi ce résultat est-il surprenant ?
convert_week = function(date) {
ws = paste(date)
iso = paste0(substring(ws,1,4),"-W",substring(ws,5,6))
as.character(parse_iso_8601(iso))
}
```
```{r}
data$date = as.Date(sapply(data$week,convert_week))
```
```{r}
class(data$date)
```
```{r} Parite 2 :
data= data[order(data$date),]
head(data)
```
```{r}
all(diff(data$date) ==7)
```
```{r}
with(data,plot(date,inc,type="l"))
```
```{r}
with(tail(data,200),plot(date,inc,type="l"))
```
```{r}
pic_annuel = function(annee){
debut = paste0(annee-1,"-08-01")
fin = paste0(annee,"-08-01")
semaines = data$date > debut & data$date <= fin
sum(data$inc[semaines],na.rm=TRUE)
}
```
```{r}
annees=1986:2017
```
```{r}
incidence_annuelle = data.frame(annee = annees,
incidence = sapply(annees, pic_annuel))
```
```{r}
head(incidence_annuelle)
```
```{r}
plot(incidence_annuelle,type="p")
```
```{r}
incidence_annuelle[order(-incidence_annuelle$incidence),]
```
```{r}
hist(incidence_annuelle$incidence,breaks = 10)
```
```{r} Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera par exemple les classes suivantes : 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans. En quoi ce résultat est-il surprenant ? Arrivez-vous à expliquer ce paradoxe ? De même, vous pourrez proposer une représentation graphique de ces données pour étayer vos explications.
incidence_annuelle[order(incidence_annuelle$incidence),]
```
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment