@@ -125,3 +125,31 @@ Il faut néanmoins corriger certaines choses puisque les odnnées ne sont pas id
Ensuite on fait les plots de l'incidence, on classe les quantités dans l'ordre et on regarde le minimum et le maximum.
Conclusion: L'année où la varicelle a fait le plus de contaminations est l'année 2009, et l'année la plus tranquille est l'année 2020.
# Mission 4: 17/10/23
## Exo1: Écrire un document computationnel
Il fallait choisir un des sujets dans la liste faire une analyse des données associées sous forme d'un document computationnel.
J'ai choisi le Sujet 5 : Analyse des dialogues dans l'Avare de Molière.
Pour ce sujet, il fallait:
- Classer les personnages selon la quantité de parole grâce à une analyse syntaxique du texte (scènes / répliques / mots). En particulier, quel est celui qui parle le plus ? Quel est celui qui ne parle pas du tout ?
- Réaliser un graphique qui montrera le nombre de mots que chaque acteur prononce dans chaque scène en s'inspirant de l'étude de l'Avare de Molière réalisée par l'OBVIL.
J'ai d'abord importé le texte et séparé toutes les scènes et toutes les lignes.
Pour savoir combien de fois un personnage prenait la parole, il fallait chercher combien de fois son nom apparaissait seul sur une ligne (annonce du nom du personnage avant qu'il parle)
Analyser ce nombre pour chaque scène et pour chaque personnage.
Puis j'ai créé des tableaux de 13 valeurs chacun. La valeur représente le nombre de fois où le personnage intervient dans la scène.
Un tableau par scène. Ce qui fait 32 tableaux de 13 valeurs chacun (=32 scènes dans lesquel les 13 personnages interviennent ou pas)
|:---------------:|:Intel:|:intel:|
|:Scène 1:|:2:||:0:|
|:Scène 2:|:32:|:6:|
Pour cela, j'ai choisi de faire des graphiques en camembert.
Etapes que j'ai suivies:
- Importer le texte de toute la pièce en format .txt.
- Séparer le texte selon les différentes scènes (dans le fichier txt, les scènes sont annoncées par un "###")