diff --git a/journal/Readme.md b/journal/Readme.md index 6deaa98293b0a3ad05640e2c9465c3857fcf8fc1..d22ac93a04711f7da0ec424f02eb866d8034e313 100644 --- a/journal/Readme.md +++ b/journal/Readme.md @@ -22,4 +22,98 @@ Le document computationnel permet de représenter l'avancée du travail avec du ## Module 3 : -Le document computationnel peut aussi contenir des données statistiques que l'on peut traiter avec la bibliothèque Panda. \ No newline at end of file +Le document computationnel peut aussi contenir des données statistiques que l'on peut traiter avec la bibliothèque Panda. + + + + +Consister à m'expliquer comment faire, instruction par instruction, pour réussir le "travail pratique évalué par les pairs" que vous avez choisi. +Considérez que je suis nouveau et expliquez moi quelle est la marche à suivre pour refaire votre calcul et créer mon document computationnel +identique au vôtre + + +# Méthodologie : Autour du Paradoxe de Simpson + +Le sujet que j'ai choisi concerne le paradoxe de Sympson. + + +Il faut d'abord importer les données dans notre document computationnelle. Pour cela, il faut utiliser le lien du fichier csv. Ces données +concernent les femmes de l'étude. Chaque ligne concerne une femme différente. Ainsi, la première colonne indique si elle fume au moment du +second sondage, la seconde si elle est encore vivante ou non et la dernière, son âge lors du premier sondage. + + +## Question 1 + + +Pour connaître le nombre de femmes décédées et vivantes en fonction de leur habitudes de tabagisme, il faut parcourir le tableau ligne +par ligne avec une boucle for. On commence d'abord par créer 4 variables de valant 0 et qui compteront le nombres de femmes dans les 4 catégories suivantes : +fumeuse et encore vivante, fumeuse et décédée, non fumeuse et vivante, non fumeuse et décédée; indépendemment de l'âge. +Ainsi, lors du parcours ligne par ligne du tableau, on vérfie à chaque fois, à laquelles des 4 critères la femme remplie et on augmente de 1 +la variable associée à ces critères. Une fois l'ensemble du tableau parcouru, on peut vérifier qu'on a pas oublié ou compté 2 fois une ligne +en sommant les 4 variables et vérifier qu'on obtient bien 1314, soit le nombre total de femmes pour le sondage. +De plus, pour mieux visualiser, on représente les 4 valeurs obtenues avec un diagramme en bâton à l'aide de la fonction bar de matplotlib. +Pour chaque bâton, on retrouve en abscisse la catégorie et en ordonnée l'effectif dans cet catégorie. + + + +Pour caculer le taux de mortalié chez les fumeuses, on divise le nombre de fumeuses décédées par le nombre total de fumeuses. +Pour celui chez les non fumeuses, on divise le nombre de non fumeuses décédéés par le nombre total de non fumeuses. + +Pour mieux voir ces deux taux, on peux les répresenter avec la fonction bar de matplotlib. + +L'intervalle de confiance pour un taux est encadré par deux valeures. La première est celle du taux de mortalité auquellle on soustrait +$\frac{1}{\srqt{nb femmes}}$ + +Pour calculer les deux l'intervalle de confiance pour les fumeuses et les non fumeuses, on soustrait au taux de mortalité associé +l'inverse de la racine carrée du nb total de femmes pour obstenir la 1ere borne. Pour la seconde borne, on ajoute au taux de mortalité +associé l'inverse de la racine carrée du nb total de femmes + +(centré sur le taux et de largeur 2fois 1 sur la racine ) + + +## Question 2 + + Classes d'age + +Reprenez la question 1 (effectifs et taux de mortalité) en rajoutant une nouvelle catégorie liée à la classe d'âge. On considérera par exemple les classes suivantes : 18-34 ans, 34-54 ans, 55-64 ans, plus de 65 ans. + + +-On soihaite dénombrer les nombres de fumeuses et de non fumeuses selon leur classe d'age. Pour cela, on commence par definir 8 variables ( 4 classes d'ages pour les fumeuses et 4 classes d'ages pour les non fumeuses) de valeurs nulles. + +On parcourt chaque ligne du tableau, en observant si la femme est fumeuse est ou non, et dans quelle d'age elle est. Selon ce qu'on trouve, on augmente de 1 la valeur de la variable associé. + +Pour etre sur, de ne pas s'etre trompé, on peut sommer le nb de fumeuse dans chaque categorie d'age et le nb de non fumeuses dans chaque categorie, puis sommer ces deux resulstats pour verifier si onobtient bien le nb total de femmes de l'etudes. + + +On peut representer les effectifs des non fumeuses selon leur classe d'age avec un diagramme en baton. On fait de meme avec les fumeuses. + + +Pour preparer le calcul du taux de mortalité, on créer 8 variables qui compteront le nb de femmes fumeuses et non fumeuses décédée dans chaque catégorie. + +On parcourt le tableau en regardant et si elle est décédée, on regarde si elle est fumeuse ou non et dans quelle catégorie d'age elle est. Puids, on aumente de 1, la variable associee au cas de la femme . + +On peu aussi afficher la valeur des variables + +on va mtn calculer le taux de mortalité pour kles fumeuses et les non fumeuses et dans chaque catéegoire, soit 8 taux de mortalité. + +Pour celui de la catégorie 1 chez les non fumeuses, onfait le rapport du nb de femmes décédee et non fumeuses dans cette catégorie avec le nb total de femmes non fumeuses dans cette categorie. +Le calcul est similaire pour les autres taux. +On poeux representer ces 8 taux avec un digramme en baton ; Avec en ordones les effectifs et comme classe les classes d'ages des fumeuses et non fumeuses. + + + +Regression logistique + + + + + + + + + + + + + +