En 1972-1974, à Whickham, une ville du nord-est de l'Angleterre, située à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage d'un sixième des électeurs a été effectué afin d'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et cherchaient à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme "fumant actuellement" ou "n'ayant jamais fumé". Il y avait relativement peu de femmes dans le sondage initial ayant fumé et ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage.
</p>
<p>
Vous trouverez sur chaque ligne si la personne fume ou non, si elle est vivante ou décédée au moment de la seconde étude, et son âge lors du premier sondage.
<spanstyle="color: #a020f0;">raise</span><spanstyle="color: #228b22;">IOError</span>(f<spanstyle="color: #8b2252;">"Jeu de données introuvable, merci de le télécharger à nouveau via ce lien {data_url}"</span>)
<h3id="org3788f96"><spanclass="section-number-3">2.2</span> Partitionnement selon la classe d'âge</h3>
<divclass="outline-text-3"id="text-2-2">
<p>
Reprenez la question 1 (effectifs et taux de mortalité)
en rajoutant une nouvelle catégorie liée à la classe d'âge. On
considérera par exemple les classes suivantes : 18-34 ans,
34-54ans, 55-64 ans, plus de 65 ans.En quoi ce résultat est-il
surprenant ? Arrivez-vous à expliquer ceparadoxe ? De même,
vous pourrez proposer une représentationgraphique de ces
données pour étayer vos explications.
</p>
<p>
Comme suggéré, groupons par tranches d'age les femmes de l'études:
</p>
<divclass="org-src-container">
<preclass="src src-python"><spanstyle="color: #b22222;"># </span><spanstyle="color: #b22222;">On choisit 17 ans en borne inférieur pour être sûr d'inclure le minimum (18)</span>
Même si le taux de mortalité semble être le même chez les femmes les plus
agées, le nombre d'individus est considérablement plus élévé chez les
non-fumeuses. Difficile de comparer correctement si les groupes ne sont pas homogènes.
</p>
<p>
On peut supposer que la mortalité plus élevée chez les fumeuses au
cours de leur vie se poursuit au delà de 65 ans mais que d'autres
causes de mortalité viennent s'ajouter. Ce qui paraît intuitif en fin
de vie.
</p>
<p>
Au Royaume-Uni, l'espérance de vie à la naissance en 1974 était de 72,5 ans
(<ahref="https://donnees.banquemondiale.org/indicateur/SP.DYN.LE00.IN?locations=GB">source</a>). Ainsi, lors de la première étude(de 1972 à 1974), les femmes de
plus de 65 ans pouvaient espérer vivre en moyenne 7,5ans. Ce chiffre
serait inférieur si on avait pris leur espérance de vie aux naissance
des femmes (avant 1910).
On peut naturellement attendre que 20 ans après la première étude, un
grand nombre de femmes aient décédées pour de multiples raisons, le
Comme conseillé, nous créeons une variable Death à partir de la
variable Status. Il s'agit simplement de faire correspondre 'Alive' à
0 et 'Dead' à 1:
</p>
<divclass="org-src-container">
<preclass="src src-python"><spanstyle="color: #b22222;"># </span><spanstyle="color: #b22222;">On définit une variable Death(0 si survie, 1 si décès)</span>
<spanstyle="color: #8b2252;">"""Entraine un modèle pour chaque partition(Fumeuse/Non Fumeuse).</span>
<spanstyle="color: #8b2252;"> Ajoute également 2 colonnes à data contenant les prédictions du modèles ainsi que les probabilités"""</span>
<spanstyle="color: #b22222;"># </span><spanstyle="color: #b22222;">On stocke les classifieurs pour chaque groupe (fumeuse/non fumeuse)</span>
<spanstyle="color: #b22222;"># </span><spanstyle="color: #b22222;">Ajout des prédictions et probabilités du modèle entrainé pour la partition en cours(fumeuse ou non fumeuse)</span>
<spanstyle="color: #b22222;"># </span><spanstyle="color: #b22222;">Les probabilités retournées sont [P(Death = 0), P(Death = 1)]. On stocke donc le deuxième élément.</span>
<spanstyle="color: #b22222;"># </span><spanstyle="color: #b22222;">Visualiser ordre des classes{0,1} dans clf[is_smoker].classes_ pour retrouver cette information</span>
En1972-1974,àWhickham,unevilledunord-estdel'Angleterre, située à environ 6,5 kilomètres au sud-ouest de Newcastle upon Tyne, un sondage d'unsixièmedesélecteursaétéeffectuéafind'éclairer des travaux sur les maladies thyroïdiennes et cardiaques (Tunbridge et al. 1977). Une suite de cette étude a été menée vingt ans plus tard (Vanderpump et al. 1995). Certains des résultats avaient trait au tabagisme et cherchaient à savoir si les individus étaient toujours en vie lors de la seconde étude. Par simplicité, nous nous restreindrons aux femmes et parmi celles-ci aux 1314 qui ont été catégorisées comme "fumant actuellement" ou "n'ayantjamaisfumé". Il y avait relativement peu de femmes dans le sondage initial ayant fumé et ayant arrêté depuis (162) et très peu pour lesquelles l'information n'était pas disponible (18). La survie à 20 ans a été déterminée pour l'ensemble des femmes du premier sondage.
Vous trouverez sur chaque ligne si la personne fume ou non, si elle est vivante ou décédée au moment de la seconde étude, et son âge lors du premier sondage.
Même si le taux de mortalité semble être le même chez les femmes les plus
agées, le nombre d'individus est considérablement plus élévé chez les
non-fumeuses. Difficile de comparer correctement si les groupes ne sont pas homogènes.
On peut supposer que la mortalité plus élevée chez les fumeuses au
cours de leur vie se poursuit au delà de 65 ans mais que d'autres
causes de mortalité viennent s'ajouter. Ce qui paraît intuitif en fin
de vie.
Au Royaume-Uni, l'espérance de vie à la naissance en 1974 était de 72,5 ans
([[https://donnees.banquemondiale.org/indicateur/SP.DYN.LE00.IN?locations=GB][source]]). Ainsi, lors de la première étude(de 1972 à 1974), les femmes de
plus de 65 ans pouvaient espérer vivre en moyenne 7,5ans. Ce chiffre
serait inférieur si on avait pris leur espérance de vie aux naissance
des femmes (avant 1910).
On peut naturellement attendre que 20 ans après la première étude, un
grand nombre de femmes aient décédées pour de multiples raisons, le
tabagisme n'étant que l'une des possibilités.
** Modélisation de la probabilité de décès en fonction de l'âge
Afin d'éviter un biais induit par des regroupements en tranches
d'âges arbitraires et non régulières, il est envisageable
d'essayer de réaliser une régression logistique. Si on
introduit une variable Death valant 1 ou 0 pour indiquer si
l'individu est décédé durant la période de 20 ans, on peut
étudier le modèle Death ~ Age pour étudier la probabilité de
décès en fonction de l'âge selon que l'on considère le groupe
des fumeuses ou des non fumeuses. Ces régressions vous
permettent-elles de conclure sur la nocivité du tabagisme? Vous
pourrez proposer une représentation graphique de ces
régressions (en n'omettant pas les régions de confiance).
Nous avons vu précédemment que le regroupement en tranches d'age
arbitraire pouvait surréprésenter certaines modalités(fumeuse/non
fumeuse) et amener à des conclusions innattendues(les fumeuses agées
décèdent moins que les non fumeuses agées).
En effet, nous pouvons voir sur le diagramme en violon ci-dessous que la
mortalité est plus faible chez les non fumeuses agées(+65 ans), mais
ne serait-pas parce qu'une majorité des fumeuses décèdent autour de 60