{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Sujet 5 : Analyse des dialogues dans l'Avare de Molière"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"__Rappel du contexte du sujet__ :\n",
"\n",
"L’Observatoire de la vie littéraire ([OBVIL](http://obvil.sorbonne-universite.site/obvil/presentation)) promeut une approche de l'analyse des textes littéraires fondée sur le numérique. \n",
"Dans le cadre du [Projet Molière](http://obvil.sorbonne-universite.site/projets/projet-moliere), des pièces de cet auteur ont été numérisées et sont accessibles librement dans différents formats utilisables par un programme informatique. \n",
"\n",
"Grâce à ces numérisations, il est possible d'écrire des programmes pour réaliser des analyses syntaxiques et sémantiques. Ce sujet se propose de reproduire une étude réalisée par l'OBVIL sur les dialogues de l'Avare de Molière.\n",
"\n",
"__Rappel des objectifs de ce sujet__ :\n",
"\n",
"1. Classez les personnages selon la quantité de parole grâce à une analyse syntaxique du texte (scènes / répliques / mots). En particulier, quel est celui qui parle le plus ? Quel est celui qui ne parle pas du tout ? Attention, les noms des personnages ne sont pas forcément homogènes (casse et accents par exemple).\n",
"2. Réalisez un graphique qui montrera le nombre de mots que chaque acteur prononce dans chaque scène. Pour cela, vous pouvez vous inspirer de l'[étude de l'Avare de Molière réalisée par l'OBVIL](https://obvil.sorbonne-universite.fr/corpus/moliere/moliere_avare) (graphe de gauche). Dans ce graphique, les lignes sont de longueur égale et la hauteur représente le nombre de mots prononcés au total dans la scène. La largeur de chaque rectangle indique le pourcentage de la scène qu’un acteur occupe. \n",
"3. Facultatif : Construisez un graphe d’interlocution permettant de visualiser les échanges entre les personnages. Pour cela, vous pouvez vous inspirer de l'[étude de l'Avare de Molière réalisée par l'OBVIL](https://obvil.sorbonne-universite.fr/corpus/moliere/moliere_avare) (graphe de droite).\n",
"\n",
"La version numérisée que l'on se propose d'utiliser est le fichier texte au format markdown disponible ici [moliere_avare](http://dramacode.github.io/markdown/moliere_avare.txt)."
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [],
"source": [
"data_url = \"http://dramacode.github.io/markdown/moliere_avare.txt\""
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On va s'assurer qu'un fichier texte en local au format markdown contienne la pièce. Si le fichier \"moliere_avare.md\" existe on considère que c'est bon et s'il n'existe pas nous allons télécharger le contenu disponible à l'URL renseignée ci-dessus et l'écrire dans ce fichier local \"moliere_avare.md\". "
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [],
"source": [
"from os import path as pth\n",
"import requests\n",
"\n",
"local_filename = \"moliere_avare.md\"\n",
"# Si le fichier csv des données d'incidence existe en local\n",
"# il n'est pas nécessaire de le télécharger par l'URL\n",
"if not pth.exists(local_filename):\n",
" print(\"Le fichier local contenant la pièce de théâtre n'existe pas.\")\n",
" # Si le fichier n'existe pas en local dans le dossier courant\n",
" # nous téléchargons les données et les écrivons\n",
" # dans un fichier en local\n",
" # Téléchargement des données\n",
" response = requests.get(data_url)\n",
" # Ecriture des données téléchargées dans le fichier local\n",
" with open(local_filename, \"wb\") as f:\n",
" f.write(response.content)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Maintenant que nous sommes assurés d'avoir un fichier en local contenant le texte de l'Avare dont on va faire l'analyse, on va donc l'ouvrir, parcourir son contenu et le traiter au fur et à mesure.\n",
"\n",
"Ce que l'on sait déjà c'est que l'on va devoir créer une structure de données pour l'analyse.\n",
"On va passer par la bibliothèque Pandas et la création d'un dataframe, permettant de différencier les différents personnages et de qualifier leur \"activité\" au travers des différents actes et scènes. Néanmoins, après avoir parcouru le web, il est recommandé de passer par une structure intermédiaire pour la création du dataframe pandas. Nous allons choisir la structure de données native de python des dictionnaires en tant que structure de données intermédiaire. \n",
"\n",
"Il y a plusieurs choses auxquelles il est déjà nécessaire de penser vis-à-vis de la problématique posée et des représentations graphiques demandées, notamment celle relative à la question facultative.\n",
"\n",
"Pour commencer, afin d'obtenir une bonne lisibilité des graphiques, il sera intéressant d'associer à chaque personnage une couleur différente.\n",
"\n",
"Ensuite, la question facultative demande de déterminer à qui s'adresse chaque réplique afin d'avoir le graphe directionnel des interactions entre les personnages de la pièce. La structure de données devra donc permettre de savoir pour chaque réplique l'auteur mais aussi le destinataire de cette dernière. Ce sont des informations assez simples à obtenir mais à prendre en compte dans la manière de \"parser\" le fichier texte."
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [],
"source": [
"# On va d'ores et déjà utiliser une instruction afin que les graphiques s'affichent directement au sein du notebook\n",
"%matplotlib inline"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [],
"source": [
"# On déclare l'utilisation de la bibliothèque pandas et on crée également le dictionnaire\n",
"# qui va nous servir d'intermédiaire avant la création du dataframe pandas\n",
"import pandas as pd\n",
"# Le dictionnaire établi une structure en tableau à 5 colonnes permettant d'enregistrer\n",
"# l'auteur, le destinataire, l'acte, la scène, ainsi que la longueur en termes de mots \n",
"# pour chaque réplique de la pièce\n",
"avareAnalysisDict = {'author':[],'recipient':[],'act':[],'scene':[],'speech_length':[]}\n",
"textDataSynthesisTableDf = None\n",
"\n",
"# Nous créons également d'ores et déjà un dictionnaire des personnages de la scène\n",
"# permettant d'enregistrer les informations de liens avec les autres personnages\n",
"# de définir une couleur de représentation.\n",
"\n",
"# Ce dictionnaire est initialisé vide car il sera rempli en utilisant le nom de chaque personnage\n",
"# comme clés associées à des valeurs qui seront des dictionnaires à deux entrées\n",
"# 'links' donnant les liens avec les autres personnages sous la forme d'une liste\n",
"# 'color' permettant de régler une couleur de représentation\n",
"avarePersoDict = {}"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Afin de parser le fichier en s'appuyant notamment sur les symboles de titres utilisés par le format Markdown,\n",
"il nous faut avoir recours à l'utilisation d'un outil d'analyse des expressions régulières (cf. [Wikipedia_Expression_régulière](https://fr.wikipedia.org/wiki/Expression_r%C3%A9guli%C3%A8re)). La bibliothèque\n",
"[re](https://docs.python.org/3/library/re.html) disponible nativement dans python permet de faire ce travail.\n",
"Un rapide parcours du fichier montre que:\n",
"- les actes sont indiqués par des titres header 2, par une ligne commençant par ##\n",
"- les scènes sont indiquées par des titres header 3, par une ligne commençant par ###\n",
"- que les personnages d'une scène sont donnés sur la ligne suivant l'indication de la scène\n",
"- que la ligne précédant chaque réplique contient le \"nom\" de son auteur en majuscule\n",
"\n",
"Voici un extrait illustrant ces propos:\\\n",
"\"\\\n",
"_\\##_ _Acte_ _Premier_.\n",
"\n",
"\n",
"_\\### Scène Première.\\\n",
"Valère, Élise_\n",
"\n",
"\n",
" VALÈRE.\n",
"_Hé quoi, charmante Élise, vous devenez mélancolique, après les obligeantes assurances que vous avez eu la bonté de me donner de votre foi ?Je vous vois soupirer, hélas, au milieu de ma joie !Est-ce du regret, dites-moi, de m'avoir fait heureux ? et vous repentez-vous de cet engagement où mes feux ont pu vous contraindre ?_\n",
"\n",
" ÉLISE.\n",
"_Non, Valère, je ne puis pas me repentir de tout ce que je fais pour vous. Je m'y sens entraîner par une trop douce puissance, et je n'ai pas même la force de souhaiter que les choses ne fussent pas. Mais, à vous dire vrai, le succès me donne de l'inquiétude ; et je crains fort de vous aimer un peu plus que je ne devrais._\n",
"\\\n",
"\""
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"*Nota Bene*:\n",
"En continuant à travailler sur le sujet et en approfdondissant le parcours du texte, on peut se rendre compte qu'il y a parfois quelques indications de mise en scène qui viennent perturber ce schéma. Différente options s'offrent à nous:\n",
"- modifier le texte afin d'utiliser les mécanismes du markdown et mettre ces indications en italiques ou en gras --> utilisations de balises permettant de reconnaître facilement ces éléments\n",
"- ou bien repérer les numéros de ces lignes car il n'y en pas beaucoup afin de les ignorer (il nous faudra alors un moyen de connaître dans les fonctions d'analyse le numéro de la ligne du fichier en cours d'analyse.)\n",
"- pour être plus générique, l'idéal serait d'avoir un traitement intelligent, un réseaux de neurones par exemple spécialisé dans l'analyse du langage pour identifier ces éléments de mis en scène.\n",
"\n",
"De plus les lignes indiquant la fin des actes sont également à ignorer en tant que réplique. Il y a au moins une scène ne donnant pas la liste des personnages, Harpagon étant le seul protagoniste, il faudra prendre en compte ce cas. Pour finir, deux lignes du fichier texte posent encore un problème:\n",
"- une ligne du fichier texte possède à sa fin, une déclaration de fin d'acte, ce qui tranche avec le schéma global,\n",
"- la dernière ligne du texte comprend la balise indiquant la fin de la pièce.\n",
"\n",
"On traitera ces deux cas particulier dans la fonction de comptage des mots d'une ligne de texte."
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [],
"source": [
"# Déclaration des numéros de lignes à ignorer\n",
"playInstructionsLineNumbersList = [201, 204, 213, 251, 272, 384, 623, 782, 815, 1280, 1283,\\\n",
" 1342, 1369, 1411, 1527, 1610, 1633, 1665, 1866, 1874, 1970, \\\n",
" 2299, 2319, 2327, 2357, 2521, 2524]"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [],
"source": [
"import re\n",
"import copy"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"'ACTEURS.'"
]
},
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Chaîne de caractère indiquant le début d'analyse et de récupération des personnages\n",
"persoCaptureStartLine = \"# ACTEURS.\"\n",
"# L'expression régulière suivante permet de valider qu'une chaîne de caractère\n",
"# contenue dans une ligne lue correspond à la ligne précédant la définition\n",
"# de la liste des personnages\n",
"m = re.search('(?<=# )ACTEURS\\.$', persoCaptureStartLine)\n",
"m.group(0)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"En effet, le résultats obtenus n'est pas un objet null, à savoir une valeur None en python"
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"\"Harpagon, Père de Cléante et d'Élise, et Amoureux de Mariane\""
]
},
"execution_count": 8,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Exemple d'une ligne de la liste des personnages\n",
"persoLineExample = \" – Harpagon, Père de Cléante et d'Élise, et Amoureux de Mariane.\"\n",
"# L'expression régulière proposée est la suivante\n",
"# On cherche une chaîne de caractères commencant par une majuscule --> [A-ZÀ-Ÿ]{1}\n",
"# potentiellement accentuée et ensuite composées de lettres potentiellement\n",
"# accentuées elles aussi, contenant des espaces, des virgules, des apostrophes --> [a-zA-ZÀ-ÿ\\s,\\']+\n",
"# et précédée d'un espace suivi d'un tiret suivi d'un espace (ce n'est pas le tiret du 6) --> (?<=\\s–\\s)\n",
"# , chaîne de caractères qui ne sera pas capturée\n",
"m1 = re.search('(?<=\\s–\\s)[A-ZÀ-Ÿ]{1}[a-zA-ZÀ-ÿ\\s,\\']+',persoLineExample)\n",
"m1.group(0)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Voici un lien vers un site de test en ligne d'expressions régulières python \\([regexp_test](https://pythex.org/)\\) qui a aidé à mettre en place l'expression régulière précédente."
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [],
"source": [
"# Fonction qui permet d'extraire la liste des personnages\n",
"# de la stocker dans un dictionnaire en parcourant ligne par ligne\n",
"# un fichier texte passé en entrée.\n",
"def fill_perso_dict(fileToAnalyse, emptyPersoDict):\n",
" \"\"\"\n",
" Fonction remplissant un dictionnaire d'entrée avec la liste\n",
" des personnages de la pièce de théâtre lue dans le fichier\n",
" passé en entrée. On considère que le fichier en entrée est lu\n",
" à partir du début, de sa première ligne.\n",
" \n",
" :param fileToAnalyse: pointeur obtenu par ouverture d'un fichier\n",
" :param emptyPersoDict: dictionnaire à remplir par la fonction\n",
" :return: numéro de la dernière ligne lue\n",
" \"\"\"\n",
" lineNum = 0\n",
" currentLine = fileToAnalyse.readline()\n",
" lineNum += 1\n",
" isStartPersoListLine = False\n",
" while (currentLine and not isStartPersoListLine):\n",
" m = re.search('(?<=# )ACTEURS\\.$', currentLine)\n",
" if m is not None:\n",
" isStartPersoListLine = True\n",
" currentLine = fileToAnalyse.readline()\n",
" lineNum += 1\n",
" \n",
" # La lecture s'est arrêtée car la ligne de début de définition de la liste des personnages a été rencontrée.\n",
" # Nous avons néanmoins lu la ligne suivante qui est obligatoirement un personnage.\n",
" # Nous devons maintenant lire ligne par ligne, la liste des personnages au format suivant:\n",
" # \"- NomPersonnage, lien, lien, ...\"\n",
" # Ainsi dès que la ligne ne commence plus par un tiret nous pouvons arrêter la lecture et le remplissage\n",
" # du dictionnaire.\n",
" isAPersoLine = True\n",
" # On extrait la chaîne de caractères qui nous intéresse\n",
" m = re.search('(?<=\\s–\\s)[A-ZÀ-Ÿ]{1}[a-zA-ZÀ-ÿ\\s,\\']+', persoLineExample)\n",
" extractedString = m.group(0)\n",
" while (currentLine and isAPersoLine):\n",
" # Traitement de la ligne courante qui est obligatoirement\n",
" # une ligne listant un personnage de la pièce.\n",
" # Comme le montre l'exemple au-dessus, le nom ainsi que\n",
" # les différents types de liens sont séparés par une virgule.\n",
" parts = extractedString.split(',')\n",
" # La ligne au-dessus crée une liste dont chaque élément\n",
" # est séparé par des virgules\n",
" # typiquement \"tata, titi, toto\".split(',') --> ['tata', ' titi', ' toto']\n",
" # Création d'un dictionnaire vide temporaire pour enregistrer les liens\n",
" # ainsi que la couleur à paramétrer\n",
" persoCaracs = {\"links\":[],\"color\":None}\n",
" # On va traiter la ligne particulière qui introduit\n",
" # le commissaire ainsi que son clerc\n",
" m = re.match(\"le commissaire\", parts[0], re.IGNORECASE)\n",
" if not m:\n",
" # Ce n'est pas la ligne du commissaire\n",
" # Le premier élément donne le nom du personnage, indice 0 de la liste\n",
" # Les éléments suivants donnent les liens avec les autres personnages\n",
" # On parcours le reste de ces derniers\n",
" for elt in parts[1:]:\n",
" # En regardant cette partie dans le fichier,\n",
" # on voit que soit les parties commencent\n",
" # par un espace et une lettre,\n",
" # soit un espace et un \"et\" que l'on ne\n",
" # souhaite pas capturer\n",
" # On vérifie si l'élément commence par \" et \" ou non\n",
" if elt.startswith(\" et \"):\n",
" # L'élément commence bien par \" et \"\n",
" # on enlève cette partie\n",
" currentLink = elt[4:]\n",
" else:\n",
" # Ce n'est pas le cas, on enlève juste\n",
" # l'espace\n",
" currentLink = elt[1:]\n",
" persoCaracs[\"links\"].append(currentLink)\n",
" # Fin de la boucle for\n",
" # On enregistre le dictionnaire temporaire des caractéristiques\n",
" # du personnage courant rempli, dans le dictionnaire\n",
" # global des personnages\n",
" emptyPersoDict[parts[0]] = persoCaracs\n",
" else:\n",
" # C'est la ligne du commissaire,\n",
" # la seconde partie définit le personnage du clerc\n",
" # et commence par \" et \" \n",
" emptyPersoDict[parts[0]] = persoCaracs\n",
" # On fait une copie profonde pour ne pas\n",
" # que l'objet partage la même adresse mémoire\n",
" clercCaracs = copy.deepcopy(persoCaracs)\n",
" clercCaracs[\"links\"].append(\"assistant du commissaire\")\n",
" emptyPersoDict[parts[1][4:]] = clercCaracs\n",
" \n",
" currentLine = fileToAnalyse.readline()\n",
" lineNum += 1\n",
" m = re.search('(?<=\\s–\\s)[A-ZÀ-Ÿ]{1}[a-zA-ZÀ-ÿ\\s,\\']+', currentLine)\n",
" if m is not None:\n",
" extractedString = m.group(0)\n",
" else:\n",
" isAPersoLine = False\n",
" \n",
" # Fin de la boucle while\n",
" \n",
" return lineNum"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Définition de la fonction permettant de compter le nombre de mots d'une ligne constituant une réplique. Pour implémenter celle-ci nous nous sommes apuuyer sur des informations glannées au travers de la consultation de plusieurs pages internet et notamment la suivante [geeksforgeeks_comptage_de_mots_dans_une_phrase](https://www.geeksforgeeks.org/python-program-to-count-words-in-a-sentence/). Nous nous sommes également appuyer sur le site de test des expressions régulières et avons également fait des tests dans la ligne de commande python.\n",
"Pour traiter plus facilement le comptage des mots, nous allons nous servir du module natif string de python et allons donc importer celui-ci, pour utiliser l'atribut punctuation."
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [],
"source": [
"import string"
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [],
"source": [
"def count_words(speechLine):\n",
" \"\"\"\n",
" Fonction qui compte le nombre de mots contenus dans une ligne de texte.\n",
" \n",
" :param speechLine: ligne de texte en entrée dont il faut compter le nombre de mots\n",
" :return: nombre de mots contenu dans la chaîne de caractère analysée\n",
" \"\"\"\n",
" # Création d'une variable temporaire contenant la chaîne de caractère à traiter\n",
" strToProcess = speechLine\n",
" # Définition de l'expression régulière permettant d'exclure la déclaration de fin d'acte\n",
" # à la fin de la ligne dans le cas particulier, on cherche un enchaînement de n'importe\n",
" # quels caractères suivi d'un texte de la forme \"Fin du nième Acte\"\n",
" patternExcludingActEndDeclaration = re.compile('(.+)(?=Fin du [a-zA-ZÀ-ÿ]+ Acte)')\n",
" # Définition de l'expression régulière permettant d'exclure la déclaration de fin de la pièce\n",
" # sur le même principe que la précédente\n",
" patternExcludingPieceEndDeclaration = re.compile('(.+)(?=< Fin >)')\n",
" # Réalisons le matching du premier pattern\n",
" m = patternExcludingActEndDeclaration.match(speechLine)\n",
" # Si le résultat n'est pas vide c'est que nous sommes dans le cas particulier\n",
" # et qu'il faut travailler sur la chaîne résultat de la fonction match.\n",
" if m:\n",
" strToProcess = m.group(0)\n",
" \n",
" # Maintenant réalisons le matching du second pattern\n",
" m1 = patternExcludingPieceEndDeclaration.match(speechLine)\n",
" if m1:\n",
" strToProcess = m1.group(0)\n",
" # Maintenant, grâce au module string, contruisons une expression régulière qui va chercher toute suite\n",
" # de plus de 1 caractère excluant les espaces et signes de ponctuations \n",
" wordsPattern = re.compile(\"[^{}\\s]+\".format(string.punctuation))\n",
" # Traitons la chaîne de caractères avec la fonction de regexp findall\n",
" # qui va extraire toutes les occurances du pattern recherché.\n",
" # Cela va nous donner en sortie la liste des mots de la chaîne traitée\n",
" # en considérant par exemple l'article \"l'\", la contraction du pronom je en \"j'\"\n",
" # comme des mots.\n",
" speechPartWordsList = re.findall(wordsPattern,strToProcess)\n",
" # Le nombre de mots est donc la taille de cette liste,\n",
" # retournons la en sortie.\n",
" return len(speechPartWordsList)\n",
" "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Définition de la fonction principale d'analyse du fichier texte générant un tableau de données de synthèse.\n",
"Pour la création d'un dataframe pandas à partir d'un dictionnaire cf. [DataFrame.from_dict](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.from_dict.html)."
]
},
{
"cell_type": "code",
"execution_count": 12,
"metadata": {},
"outputs": [],
"source": [
"import pandas as pd\n",
"def generate_text_synthesis_data_table(fileToAnalyse, persoDict, emptyAnalysisDict, lineNum):\n",
" \"\"\"\n",
" Fonction principale d'analyse du texte générant un dataframe pandas\n",
" de synthèse des informations permettant l'analyse globale.\n",
" \n",
" :param fileToAnalyse: pointeur obtenu par ouverture d'un fichier\n",
" :param persoDict: dictionnaire donnant la liste des personnages de la pièce\n",
" :param emptyAnalysisDict: dictionnaire à remplir par la fonction\n",
" :param lineNum: numéro de le ligne à partir de laquelle nous commencons la lecture\n",
" :return: dataframe pandas dont le template est donné par le dictionnaire\n",
" \"\"\"\n",
" currentLine = fileToAnalyse.readline()\n",
" lineNum += 1\n",
" # Expression régulière de détection de déclaration des actes\n",
" # Ligne qui commence par exactement 2 #, ni plus ni moins, donc tout autre caractère qu'un #\n",
" actLinePattern = re.compile('^#{2}[^#]')\n",
" # Expression régulière de détection de déclaration des scènes\n",
" # Ligne qui commence par exactement 3 #, ni plus ni moins, donc tout autre caractère qu'un #\n",
" sceneLinePattern = re.compile('^#{3}[^#]')\n",
" # Variable pour enregistrer le numéro de l'acte courant\n",
" actNum = 0\n",
" # Variable pour enregistrer le numéro de la scène courante\n",
" sceneNum = 0\n",
" # Variable indiquant si la ligne précédente déclare une scène\n",
" previousLineIsScene = False\n",
" # Variable contenant l'auteur courant de la réplique analysée\n",
" # Nous l'initialisons à la valeur vide None\n",
" currentAuthor = None\n",
" # Variable donnant le nombre de mots de la réplique courante\n",
" # analysée. On l'initialise à 0.\n",
" currentSpeechLen = 0\n",
" \n",
" # Boucle principale de parcours du fichier texte\n",
" while (currentLine):\n",
" if actLinePattern.match(currentLine):\n",
" # Déclaration d'un acte de la pièce\n",
" # On incrémente le numéro d'acte\n",
" actNum += 1\n",
" # Si ce n'est pas le premier acte,\n",
" # il faut traiter le cas de la dernière réplique de\n",
" # de la dernière scène de l'acte précédent.\n",
" # On considère que l'auteur courant s'adresse forcément\n",
" # au dernier auteur enregistré.\n",
" if actNum > 1:\n",
" # Récupération du dernier élément de la colonne des auteurs\n",
" # qui est l'auteur de la réplique précédente\n",
" previousAuthor = emptyAnalysisDict['author'][-1]\n",
" if len(scenePersoList)==1:\n",
" # Si la liste des personnages ne contient qu'un\n",
" # seul protagoniste, c'est la scène qui fait exception\n",
" # avec Harpagon.\n",
" previousAuthor = 'Harpagon'\n",
" emptyAnalysisDict['author'].append(currentAuthor)\n",
" emptyAnalysisDict['recipient'].append(previousAuthor)\n",
" # On a incrémenté le numéro d'acte, il faut donc \n",
" # le décrémenté pour obtenir celui concerné\n",
" # par la réplique considérée ici.\n",
" emptyAnalysisDict['act'].append(actNum-1)\n",
" emptyAnalysisDict['scene'].append(sceneNum)\n",
" emptyAnalysisDict['speech_length'].append(currentSpeechLen)\n",
" # On remet à zéro le numéro de la scène\n",
" sceneNum = 0\n",
" elif sceneLinePattern.match(currentLine):\n",
" # Déclaration d'une scène de la pièce\n",
" # On incrémente le numéro de scène\n",
" sceneNum += 1\n",
" # Si ce n'est pas la première scène de l'acte,\n",
" # il faut traiter le cas de la dernière réplique.\n",
" # On considère que l'auteur courant s'adresse forcément\n",
" # au dernier auteur enregistré.\n",
" if (sceneNum > 1):\n",
" # Récupération du dernier élément de la colonne des auteurs\n",
" # qui est l'auteur de la réplique précédente\n",
" previousAuthor = emptyAnalysisDict['author'][-1]\n",
" emptyAnalysisDict['author'].append(currentAuthor)\n",
" emptyAnalysisDict['recipient'].append(previousAuthor)\n",
" emptyAnalysisDict['act'].append(actNum)\n",
" emptyAnalysisDict['scene'].append(sceneNum-1)\n",
" emptyAnalysisDict['speech_length'].append(currentSpeechLen)\n",
" \n",
" # On met temporairement la variable\n",
" # previousLineIsScene à vrai pour indiquer\n",
" # que l'on a détecté le début d'une scène\n",
" previousLineIsScene = True\n",
" # On déclare la liste des protagonistes de la scène courante\n",
" scenePersoList = []\n",
" # On réinitialise les autres variables de l'auteur et de la taille d'une réplique\n",
" currentAuthor = None\n",
" currentSpeechLen = 0\n",
" else:\n",
" # La ligne courante est une ligne autre,\n",
" # comme on a pu le voir dans l'exemple un peu plus haut\n",
" # elle peut être:\n",
" # - vide\n",
" # - une déclaration des personnages de la scène\n",
" # - une identification de l'auteur de la réplique qui va suivre\n",
" # - une ligne composant une réplique\n",
" # - une ligne donnant des indications sur la mise en scène\n",
" # - une ligne indiquant la fin d'un acte\n",
" if not previousLineIsScene:\n",
" # La ligne courante ne contient forcément pas la liste des protagonistes de la scène\n",
" # Testons si la ligne est vide auquel cas on peut quasiment passer directement à la suivante.\n",
" # Notons qu'une chaîne de caractères vide est interprêtées par python comme une valeur booléénne fausse\n",
" if currentLine:\n",
" # La ligne n'est pas vide, c'est soit la déclaration de l'auteur d'une réplique,\n",
" # soit une ligne constituant une réplique.\n",
" # On va donc traiter cette ligne soit de manière à identifier l'auteur qui,\n",
" # il faut le noter est le destinataire de la réplique de l'auteur précédent,\n",
" # soit de manière à compter le nombre de mots total d'une réplique afin\n",
" # de remplir avec toutes les informations glannées à cette étape\n",
" # de synthèse des données de la pièce.\n",
" # On peut noter également que l'on peut facilement différencier les lignes de répliques\n",
" # des lignes donnant l'auteur d'une réplique. En effet, les lignes de répliques commencent\n",
" # par une lettre majuscule tandis que les lignes donnant l'auteur d'une réplique\n",
" # commencent par des espaces.\n",
" if currentLine.startswith(\" \"):\n",
" # La ligne commence avec un espace, elle déclare donc l'auteur d'une réplique\n",
" # on va parcourir la liste des protagonistes de la scène et identifier l'auteur\n",
" for perso in scenePersoList:\n",
" # On fait une recherche ignorant si les lettres sont en majuscules ou minuscules\n",
" # grâce à l'option passée à la fonction de recherche d'expression régulière\n",
" # re.IGNORECASE. On traite également du problèe posé par les maitre/maîtres\n",
" # car les valeurs utilisées dans scenePersoList sont celles issues du dictionnaire\n",
" # des personnages créé à partir de la liste en début de pièce.\n",
" persoRegex = perso\n",
" if perso.startswith(\"Maitre\"):\n",
" persoRegex = persoRegex.replace('Maitre','Maître')\n",
" m = re.search(persoRegex, currentLine, re.IGNORECASE)\n",
" if m:\n",
" # le résultats de la recherche n'est pas vide, l'auteur est trouvé.\n",
" # Vérifions si quelqu'un a déjà parlé dans la scène auquel cas l'auteur\n",
" # courant est le destinataire de l'auteur précédent.\n",
" if currentAuthor is not None:\n",
" # Il y avait déjà un auteur d'une réplique, currentAuthor\n",
" # le nouvel auteur est donc le destinataire de la réplique précédente.\n",
" # On peut maintenant remplir le dictionnaire pour la réplique précédente,\n",
" # car nous avons toutes les informations nécessaires sur celles-ci.\n",
" # Pour rappel, la structure du dictionnaire,\n",
" # {'author':[],'recipient':[],'act':[],'scene':[],'speech_length':[]}\n",
" emptyAnalysisDict['author'].append(currentAuthor)\n",
" emptyAnalysisDict['recipient'].append(perso)\n",
" emptyAnalysisDict['act'].append(actNum)\n",
" emptyAnalysisDict['scene'].append(sceneNum)\n",
" emptyAnalysisDict['speech_length'].append(currentSpeechLen)\n",
" # On réinitialise la variable mesurant le nombre de mot d'une réplique\n",
" currentSpeechLen = 0\n",
" # Fin du si sur le test de savoir si il y a un auteur d'une réplique\n",
" # précédent \n",
" # Dans tous les cas l'auteur courant est donné par la valeur \"perso\"\n",
" # qui a été trouvée dans la ligne.\n",
" currentAuthor = perso\n",
" # Le break permet d'arrêter la boucle for car l'auteur courant a été identifié\n",
" break\n",
" \n",
" else:\n",
" isNotActEndDeclarationLine = not currentLine.startswith(\"Fin du\")\n",
" isNotPlayInstructionRoleLine = lineNum not in playInstructionsLineNumbersList\n",
" # Si nous ne sommes pas dans le cas d'une ligne de déclaration de fin d'acte\n",
" # ou bien d'une ligne d'instructions de mise en scène, nous sommes\n",
" # dans le cas d'une ligne qui constitue une réplique.\n",
" # Dans ce cas, comptons le nombre de mots de celle-ci et ajoutons le au nombre de mots\n",
" # déjà comptabilisé pour la réplique en cours.\n",
" # Nous faison appel ici à une fonction spécialisée dans le comptage des mots d'une ligne.\n",
" if isNotActEndDeclarationLine and isNotPlayInstructionRoleLine:\n",
" # Afin d'illustrer le traitement et vérifier que tout se passe bien\n",
" # nous allons afficher les sorties pour la première scène de l'acte premier\n",
" nbWords = count_words(currentLine)\n",
" #if actNum==1 and sceneNum==1:\n",
" # print(\"Ligne de dialogue : {}\".format(currentLine))\n",
" # print(\"Nombre de mots comptés : {:d}\".format(nbWords))\n",
" currentSpeechLen += nbWords\n",
" # Il faut tester si c'est la dernière ligne de la pièce\n",
" # et mettre à jour le dictionnaire dans ce seul cas\n",
" patternExcludingPieceEndDeclaration = re.compile('(.+)(?=< Fin >)')\n",
" m = patternExcludingPieceEndDeclaration.match(currentLine)\n",
" if m:\n",
" # C'est la dernière ligne de texte de la pièce\n",
" previousAuthor = emptyAnalysisDict['author'][-1]\n",
" emptyAnalysisDict['author'].append(currentAuthor)\n",
" emptyAnalysisDict['recipient'].append(previousAuthor)\n",
" emptyAnalysisDict['act'].append(actNum)\n",
" emptyAnalysisDict['scene'].append(sceneNum)\n",
" emptyAnalysisDict['speech_length'].append(currentSpeechLen)\n",
" \n",
" else:\n",
" # La ligne courante présente forcément les personnages de la scène\n",
" # car c'est la ligne qui suit la déclaration de scène,\n",
" # à l'exception d'une seule scène, la 7 de l'acte 4\n",
" # On peut donc réduire l'analyse du texte à ces seuls\n",
" # protagonistes.\n",
" # Boucle sur les clés du dictionnaire de personnage\n",
" # qui sont leur nom.\n",
"\n",
" # Si la ligne contient autre chose que des caractères \"blancs\"\n",
" # espaces, tabulations, retour ligne etc...\n",
" # ce n'est pas l'exception.\n",
" if not re.match('^[\\s]+$',currentLine):\n",
" # La ligne n'est pas vide, ce n'est pas l'exception\n",
" for namePerso in persoDict:\n",
" # On vérifie si namePerso fait partie des protagonistes\n",
" # Pour prendre en compte le problème avec les maitres/maîtres\n",
" # il faut adapter name Perso pour être une expression régulière\n",
" persoRegex = namePerso\n",
" if namePerso.startswith(\"Maitre\"):\n",
" persoRegex = persoRegex.replace('Maitre','Maître')\n",
" \n",
" m = re.search(persoRegex, currentLine, re.IGNORECASE)\n",
" if m is not None:\n",
" # Le résultat de la recherche n'est pas vide,\n",
" # le personnage fait partie des protagonistes\n",
" # on l'ajoute à la liste des personnages de la scène\n",
" # On met le nom tel qu'il est écrit dans le dictionnaire\n",
" # créé à partir de la liste en début de pièce.\n",
" #scenePersoList.append(m.group(0))\n",
" scenePersoList.append(namePerso)\n",
" #print(\"scenePersoList : {}\".format(scenePersoList))\n",
" \n",
" else:\n",
" # La ligne est vide on sait que c'est le cas particulier\n",
" # le seul protagoniste est Harpagon\n",
" scenePersoList.append('Harpagon')\n",
" #print(\"*********************************\")\n",
" #print(\"Liste des personnages de la scène\")\n",
" #print(\"*********************************\")\n",
" #print(scenePersoList)\n",
" #print(\"*********************************\")\n",
" # La ligne précédente n'est désormais plus une déclaration\n",
" # de début de scène\n",
" previousLineIsScene = False\n",
" \n",
" currentLine = fileToAnalyse.readline()\n",
" # On lit une ligne on incrémente donc le numéro de la ligne courante dans le fichier\n",
" lineNum += 1\n",
" \n",
" return pd.DataFrame.from_dict(emptyAnalysisDict)\n"
]
},
{
"cell_type": "code",
"execution_count": 13,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
act
\n",
"
author
\n",
"
recipient
\n",
"
scene
\n",
"
speech_length
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
1
\n",
"
Valère
\n",
"
Élise
\n",
"
1
\n",
"
58
\n",
"
\n",
"
\n",
"
1
\n",
"
1
\n",
"
Élise
\n",
"
Valère
\n",
"
1
\n",
"
68
\n",
"
\n",
"
\n",
"
2
\n",
"
1
\n",
"
Valère
\n",
"
Élise
\n",
"
1
\n",
"
14
\n",
"
\n",
"
\n",
"
3
\n",
"
1
\n",
"
Élise
\n",
"
Valère
\n",
"
1
\n",
"
51
\n",
"
\n",
"
\n",
"
4
\n",
"
1
\n",
"
Valère
\n",
"
Élise
\n",
"
1
\n",
"
45
\n",
"
\n",
"
\n",
"
5
\n",
"
1
\n",
"
Élise
\n",
"
Valère
\n",
"
1
\n",
"
26
\n",
"
\n",
"
\n",
"
6
\n",
"
1
\n",
"
Valère
\n",
"
Élise
\n",
"
1
\n",
"
70
\n",
"
\n",
"
\n",
"
7
\n",
"
1
\n",
"
Élise
\n",
"
Valère
\n",
"
1
\n",
"
63
\n",
"
\n",
"
\n",
"
8
\n",
"
1
\n",
"
Valère
\n",
"
Élise
\n",
"
1
\n",
"
4
\n",
"
\n",
"
\n",
"
9
\n",
"
1
\n",
"
Élise
\n",
"
Valère
\n",
"
1
\n",
"
224
\n",
"
\n",
"
\n",
"
10
\n",
"
1
\n",
"
Valère
\n",
"
Élise
\n",
"
1
\n",
"
138
\n",
"
\n",
"
\n",
"
11
\n",
"
1
\n",
"
Élise
\n",
"
Valère
\n",
"
1
\n",
"
22
\n",
"
\n",
"
\n",
"
12
\n",
"
1
\n",
"
Valère
\n",
"
Élise
\n",
"
1
\n",
"
215
\n",
"
\n",
"
\n",
"
13
\n",
"
1
\n",
"
Élise
\n",
"
Valère
\n",
"
1
\n",
"
24
\n",
"
\n",
"
\n",
"
14
\n",
"
1
\n",
"
Valère
\n",
"
Élise
\n",
"
1
\n",
"
86
\n",
"
\n",
"
\n",
"
15
\n",
"
1
\n",
"
Élise
\n",
"
Valère
\n",
"
1
\n",
"
13
\n",
"
\n",
"
\n",
"
16
\n",
"
1
\n",
"
Cléante
\n",
"
Élise
\n",
"
2
\n",
"
24
\n",
"
\n",
"
\n",
"
17
\n",
"
1
\n",
"
Élise
\n",
"
Cléante
\n",
"
2
\n",
"
14
\n",
"
\n",
"
\n",
"
18
\n",
"
1
\n",
"
Cléante
\n",
"
Élise
\n",
"
2
\n",
"
10
\n",
"
\n",
"
\n",
"
19
\n",
"
1
\n",
"
Élise
\n",
"
Cléante
\n",
"
2
\n",
"
2
\n",
"
\n",
"
\n",
"
20
\n",
"
1
\n",
"
Cléante
\n",
"
Élise
\n",
"
2
\n",
"
173
\n",
"
\n",
"
\n",
"
21
\n",
"
1
\n",
"
Élise
\n",
"
Cléante
\n",
"
2
\n",
"
11
\n",
"
\n",
"
\n",
"
22
\n",
"
1
\n",
"
Cléante
\n",
"
Élise
\n",
"
2
\n",
"
24
\n",
"
\n",
"
\n",
"
23
\n",
"
1
\n",
"
Élise
\n",
"
Cléante
\n",
"
2
\n",
"
8
\n",
"
\n",
"
\n",
"
24
\n",
"
1
\n",
"
Cléante
\n",
"
Élise
\n",
"
2
\n",
"
26
\n",
"
\n",
"
\n",
"
25
\n",
"
1
\n",
"
Élise
\n",
"
Cléante
\n",
"
2
\n",
"
43
\n",
"
\n",
"
\n",
"
26
\n",
"
1
\n",
"
Cléante
\n",
"
Élise
\n",
"
2
\n",
"
10
\n",
"
\n",
"
\n",
"
27
\n",
"
1
\n",
"
Élise
\n",
"
Cléante
\n",
"
2
\n",
"
13
\n",
"
\n",
"
\n",
"
28
\n",
"
1
\n",
"
Cléante
\n",
"
Élise
\n",
"
2
\n",
"
150
\n",
"
\n",
"
\n",
"
29
\n",
"
1
\n",
"
Élise
\n",
"
Cléante
\n",
"
2
\n",
"
27
\n",
"
\n",
"
\n",
"
...
\n",
"
...
\n",
"
...
\n",
"
...
\n",
"
...
\n",
"
...
\n",
"
\n",
"
\n",
"
927
\n",
"
5
\n",
"
Harpagon
\n",
"
Valère
\n",
"
5
\n",
"
2
\n",
"
\n",
"
\n",
"
928
\n",
"
5
\n",
"
Valère
\n",
"
Maitre Jacques
\n",
"
5
\n",
"
6
\n",
"
\n",
"
\n",
"
929
\n",
"
5
\n",
"
Maitre Jacques
\n",
"
Harpagon
\n",
"
5
\n",
"
7
\n",
"
\n",
"
\n",
"
930
\n",
"
5
\n",
"
Harpagon
\n",
"
Valère
\n",
"
5
\n",
"
10
\n",
"
\n",
"
\n",
"
931
\n",
"
5
\n",
"
Valère
\n",
"
Harpagon
\n",
"
5
\n",
"
10
\n",
"
\n",
"
\n",
"
932
\n",
"
5
\n",
"
Harpagon
\n",
"
Valère
\n",
"
5
\n",
"
9
\n",
"
\n",
"
\n",
"
933
\n",
"
5
\n",
"
Cléante
\n",
"
Harpagon
\n",
"
6
\n",
"
41
\n",
"
\n",
"
\n",
"
934
\n",
"
5
\n",
"
Harpagon
\n",
"
Cléante
\n",
"
6
\n",
"
3
\n",
"
\n",
"
\n",
"
935
\n",
"
5
\n",
"
Cléante
\n",
"
Harpagon
\n",
"
6
\n",
"
47
\n",
"
\n",
"
\n",
"
936
\n",
"
5
\n",
"
Harpagon
\n",
"
Cléante
\n",
"
6
\n",
"
7
\n",
"
\n",
"
\n",
"
937
\n",
"
5
\n",
"
Cléante
\n",
"
Mariane
\n",
"
6
\n",
"
36
\n",
"
\n",
"
\n",
"
938
\n",
"
5
\n",
"
Mariane
\n",
"
Anselme
\n",
"
6
\n",
"
36
\n",
"
\n",
"
\n",
"
939
\n",
"
5
\n",
"
Anselme
\n",
"
Harpagon
\n",
"
6
\n",
"
61
\n",
"
\n",
"
\n",
"
940
\n",
"
5
\n",
"
Harpagon
\n",
"
Cléante
\n",
"
6
\n",
"
11
\n",
"
\n",
"
\n",
"
941
\n",
"
5
\n",
"
Cléante
\n",
"
Harpagon
\n",
"
6
\n",
"
6
\n",
"
\n",
"
\n",
"
942
\n",
"
5
\n",
"
Harpagon
\n",
"
Anselme
\n",
"
6
\n",
"
13
\n",
"
\n",
"
\n",
"
943
\n",
"
5
\n",
"
Anselme
\n",
"
Harpagon
\n",
"
6
\n",
"
13
\n",
"
\n",
"
\n",
"
944
\n",
"
5
\n",
"
Harpagon
\n",
"
Anselme
\n",
"
6
\n",
"
12
\n",
"
\n",
"
\n",
"
945
\n",
"
5
\n",
"
Anselme
\n",
"
Harpagon
\n",
"
6
\n",
"
8
\n",
"
\n",
"
\n",
"
946
\n",
"
5
\n",
"
Harpagon
\n",
"
Anselme
\n",
"
6
\n",
"
12
\n",
"
\n",
"
\n",
"
947
\n",
"
5
\n",
"
Anselme
\n",
"
Le commissaire
\n",
"
6
\n",
"
13
\n",
"
\n",
"
\n",
"
948
\n",
"
5
\n",
"
Le commissaire
\n",
"
Harpagon
\n",
"
6
\n",
"
14
\n",
"
\n",
"
\n",
"
949
\n",
"
5
\n",
"
Harpagon
\n",
"
Le commissaire
\n",
"
6
\n",
"
8
\n",
"
\n",
"
\n",
"
950
\n",
"
5
\n",
"
Le commissaire
\n",
"
Harpagon
\n",
"
6
\n",
"
12
\n",
"
\n",
"
\n",
"
951
\n",
"
5
\n",
"
Harpagon
\n",
"
Maitre Jacques
\n",
"
6
\n",
"
12
\n",
"
\n",
"
\n",
"
952
\n",
"
5
\n",
"
Maitre Jacques
\n",
"
Anselme
\n",
"
6
\n",
"
23
\n",
"
\n",
"
\n",
"
953
\n",
"
5
\n",
"
Anselme
\n",
"
Harpagon
\n",
"
6
\n",
"
8
\n",
"
\n",
"
\n",
"
954
\n",
"
5
\n",
"
Harpagon
\n",
"
Anselme
\n",
"
6
\n",
"
5
\n",
"
\n",
"
\n",
"
955
\n",
"
5
\n",
"
Anselme
\n",
"
Harpagon
\n",
"
6
\n",
"
11
\n",
"
\n",
"
\n",
"
956
\n",
"
5
\n",
"
Harpagon
\n",
"
Anselme
\n",
"
6
\n",
"
6
\n",
"
\n",
" \n",
"
\n",
"
957 rows × 5 columns
\n",
"
"
],
"text/plain": [
" act author recipient scene speech_length\n",
"0 1 Valère Élise 1 58\n",
"1 1 Élise Valère 1 68\n",
"2 1 Valère Élise 1 14\n",
"3 1 Élise Valère 1 51\n",
"4 1 Valère Élise 1 45\n",
"5 1 Élise Valère 1 26\n",
"6 1 Valère Élise 1 70\n",
"7 1 Élise Valère 1 63\n",
"8 1 Valère Élise 1 4\n",
"9 1 Élise Valère 1 224\n",
"10 1 Valère Élise 1 138\n",
"11 1 Élise Valère 1 22\n",
"12 1 Valère Élise 1 215\n",
"13 1 Élise Valère 1 24\n",
"14 1 Valère Élise 1 86\n",
"15 1 Élise Valère 1 13\n",
"16 1 Cléante Élise 2 24\n",
"17 1 Élise Cléante 2 14\n",
"18 1 Cléante Élise 2 10\n",
"19 1 Élise Cléante 2 2\n",
"20 1 Cléante Élise 2 173\n",
"21 1 Élise Cléante 2 11\n",
"22 1 Cléante Élise 2 24\n",
"23 1 Élise Cléante 2 8\n",
"24 1 Cléante Élise 2 26\n",
"25 1 Élise Cléante 2 43\n",
"26 1 Cléante Élise 2 10\n",
"27 1 Élise Cléante 2 13\n",
"28 1 Cléante Élise 2 150\n",
"29 1 Élise Cléante 2 27\n",
".. ... ... ... ... ...\n",
"927 5 Harpagon Valère 5 2\n",
"928 5 Valère Maitre Jacques 5 6\n",
"929 5 Maitre Jacques Harpagon 5 7\n",
"930 5 Harpagon Valère 5 10\n",
"931 5 Valère Harpagon 5 10\n",
"932 5 Harpagon Valère 5 9\n",
"933 5 Cléante Harpagon 6 41\n",
"934 5 Harpagon Cléante 6 3\n",
"935 5 Cléante Harpagon 6 47\n",
"936 5 Harpagon Cléante 6 7\n",
"937 5 Cléante Mariane 6 36\n",
"938 5 Mariane Anselme 6 36\n",
"939 5 Anselme Harpagon 6 61\n",
"940 5 Harpagon Cléante 6 11\n",
"941 5 Cléante Harpagon 6 6\n",
"942 5 Harpagon Anselme 6 13\n",
"943 5 Anselme Harpagon 6 13\n",
"944 5 Harpagon Anselme 6 12\n",
"945 5 Anselme Harpagon 6 8\n",
"946 5 Harpagon Anselme 6 12\n",
"947 5 Anselme Le commissaire 6 13\n",
"948 5 Le commissaire Harpagon 6 14\n",
"949 5 Harpagon Le commissaire 6 8\n",
"950 5 Le commissaire Harpagon 6 12\n",
"951 5 Harpagon Maitre Jacques 6 12\n",
"952 5 Maitre Jacques Anselme 6 23\n",
"953 5 Anselme Harpagon 6 8\n",
"954 5 Harpagon Anselme 6 5\n",
"955 5 Anselme Harpagon 6 11\n",
"956 5 Harpagon Anselme 6 6\n",
"\n",
"[957 rows x 5 columns]"
]
},
"execution_count": 13,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# On ouvre le fichier local en lecture 'r' pour en faire l'analyse en utilisant l'instruction with qui se chargera de fermer\n",
"# le fichier une fois sortie de l'instruction (pas d'erreur possible par oubli d'appel à l'instruction close).\n",
"# Un rapide coup d'oeil au fichier texte nous montre une organisation, des symboles en début de ligne etc, que l'on va utiliser\n",
"# pour \"parser\" le fichier, à savoir le lire de manière à ranger les données de manière intelligente dans une structure de\n",
"# données facilitant la manipulation et l'analyse.\n",
"with open(local_filename,'r') as avareFile:\n",
" # On va commencer par parser le fichier afin de récupérer la liste des personnages\n",
" lineNum = fill_perso_dict(avareFile, avarePersoDict)\n",
" \n",
" #print(\"##################################################\")\n",
" #print(\"Contenu du dictionnaire des personnages initialisé\")\n",
" #print(\"##################################################\\n\")\n",
" #print(avarePersoDict)\n",
" #print(\"\\n##################################################\")\n",
" \n",
" textDataSynthesisTableDf = generate_text_synthesis_data_table(avareFile, avarePersoDict, avareAnalysisDict, lineNum)\n",
"\n",
"# Le tableau de données récapitulatif est maintenant prêt à être utilisé\n",
"# Affichons celui-ci\n",
"textDataSynthesisTableDf\n",
" "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Y-a-t-il des éléments à NaN ou null dans le tableau construit?"
]
},
{
"cell_type": "code",
"execution_count": 14,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
"
],
"text/plain": [
"Empty DataFrame\n",
"Columns: [act, author, recipient, scene, speech_length]\n",
"Index: []"
]
},
"execution_count": 15,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
" textDataSynthesisTableDf[textDataSynthesisTableDf.isna().any(axis=1)]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Réponse à la première question\n",
"Maintenant, nous pouvons répondre à la première question."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"L'observation d'un premier résultat intermédiaire nous a paru suspect. Ce résultat était le suivant:\n",
"```\n",
"Harpagon a prononcé 6992 mots dans oute la pièce.\n",
"Cléante a prononcé 3555 mots dans oute la pièce.\n",
"Élise a prononcé 1067 mots dans oute la pièce.\n",
"Valère a prononcé 3016 mots dans oute la pièce.\n",
"Mariane a prononcé 910 mots dans oute la pièce.\n",
"Anselme a prononcé 517 mots dans oute la pièce.\n",
"Frosine a prononcé 2381 mots dans oute la pièce.\n",
"Maitre Simon a prononcé 0 mots dans oute la pièce.\n",
"Maitre Jacques a prononcé 0 mots dans oute la pièce.\n",
"La Flèche a prononcé 1520 mots dans oute la pièce.\n",
"Dame Claude a prononcé 0 mots dans oute la pièce.\n",
"Brindavoine a prononcé 43 mots dans oute la pièce.\n",
"La Merluche a prononcé 47 mots dans oute la pièce.\n",
"Le commissaire a prononcé 0 mots dans oute la pièce.\n",
"```\n",
"En effet, de trop nombreux personnages semblaient ne prononcer aucun mot de toutes la pièce. En regardant, de plus près, nous avons pu faire deux constatations:\n",
"- le commissaire est accompagné par un clerc qui n'a pas été enregistré dans la liste des personnages, il faut donc corriger l'analyse de la liste des personnages au début de la pièce pour prendre en compte ce cas,\n",
"- certains nom de personnage peuvent différer d'un caractère par exemple entre la liste au début et celui utiliser pour annoncer les auteurs de réplique, typiquement Maitre Simon de la liste de début devient MAÎTRE SIMON (non seulement, il est en majuscule mais il prend un ^), Le commissaire devient Le Commissaire dans les protagonistes des scènes\n",
"Nous avons donc corriger le code pour prendre en compte ces deux problèmes."
]
},
{
"cell_type": "code",
"execution_count": 16,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
perso
\n",
"
\n",
"
\n",
"
speech_length
\n",
"
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
Dame Claude
\n",
"
\n",
"
\n",
"
0
\n",
"
son clerc
\n",
"
\n",
"
\n",
"
43
\n",
"
Brindavoine
\n",
"
\n",
"
\n",
"
47
\n",
"
La Merluche
\n",
"
\n",
"
\n",
"
197
\n",
"
Maitre Simon
\n",
"
\n",
"
\n",
"
294
\n",
"
Le commissaire
\n",
"
\n",
"
\n",
"
517
\n",
"
Anselme
\n",
"
\n",
"
\n",
"
923
\n",
"
Mariane
\n",
"
\n",
"
\n",
"
1067
\n",
"
Élise
\n",
"
\n",
"
\n",
"
1520
\n",
"
La Flèche
\n",
"
\n",
"
\n",
"
1668
\n",
"
Maitre Jacques
\n",
"
\n",
"
\n",
"
2349
\n",
"
Frosine
\n",
"
\n",
"
\n",
"
2740
\n",
"
Valère
\n",
"
\n",
"
\n",
"
3339
\n",
"
Cléante
\n",
"
\n",
"
\n",
"
6160
\n",
"
Harpagon
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" perso\n",
"speech_length \n",
"0 Dame Claude\n",
"0 son clerc\n",
"43 Brindavoine\n",
"47 La Merluche\n",
"197 Maitre Simon\n",
"294 Le commissaire\n",
"517 Anselme\n",
"923 Mariane\n",
"1067 Élise\n",
"1520 La Flèche\n",
"1668 Maitre Jacques\n",
"2349 Frosine\n",
"2740 Valère\n",
"3339 Cléante\n",
"6160 Harpagon"
]
},
"execution_count": 16,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# On va parcourir le dictionnaire des personnages\n",
"# et compter le nombre total de mots prononcés\n",
"# pour chacun.\n",
"import numpy as np\n",
"persoList = []\n",
"persoNbWords = np.zeros(len(avarePersoDict),dtype=int)\n",
"#print(textDataSynthesisTableDf.shape)\n",
"for index, perso in enumerate(avarePersoDict):\n",
" m = textDataSynthesisTableDf['author'].str.match(perso, case=False, na=False)\n",
" tmpDf = textDataSynthesisTableDf[m].copy()\n",
" persoList.append(perso)\n",
" persoNbWords[index] = tmpDf['speech_length'].sum()\n",
"\n",
"data = pd.DataFrame({\"perso\":persoList, \"speech_length\":persoNbWords})\n",
" \n",
"sortedData = data.set_index('speech_length').sort_index()\n",
"sortedData\n",
" \n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Nous pouvons désormais finir de répondre à la premiè question posée. Le personnage s'exprimant le plus dans la pièce de _L'Avare_ de Molière et qui est donc le protagoniste principal, n'est autre qu'**Harpagon**. Quant aux personnages ne s'exprimant pas, nous en avons deux, le **clerc** du commissaire ainsi que **Dame Claude** qui est la servante d'Harpagon."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Réponse à la seconde question"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On voulais utiliser le classement pour associer à chaque personnage de la pièce une couleur unique qui reflète son temps de paroles au travers de toute la pièce notamment avec des couleurs plus chaudes, par exemple le rouge pour le personnage avec le nombre de mots le plus élevés, ensuite du orange, puis du jaune etc en allant vers le violet. Néanmoins, le nombre de personnages au total fait qu'une colormap à laquelle nous pensions et qui est illustrée en dessous ne convient pas pour l'affectation des couleurs aux personnages de sorte que l'on puisse les distinguer facilement dans les graphiques.\n",
"\n",
"On va donc reprendre le dictionnaire des personnages et régler la propriété de couleur, mais sans s'occuper d'associer des couleurs en fonction de l'importance des personnages mais surtout de manière à les différencier correctement."
]
},
{
"cell_type": "code",
"execution_count": 40,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAXQAAAD8CAYAAABn919SAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADl0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uIDIuMi4zLCBodHRwOi8vbWF0cGxvdGxpYi5vcmcvIxREBQAAE6RJREFUeJzt3WuMZHWZx/Hv0zM60AMqZhqUy3QrIYhrVEy58X5DkFUEV/eFpjRkddOauIq3VUgbfWPvanC9JGvUiiBmrUU3iEFN1CHeTdTYICgyKor2MDAyTVgVaRgZePbFqWZmmqnp6a5TXXVOfT8JOX2erpnzy6Tnx5lTp/4nMhNJUvWNDTqAJKkcFrok1YSFLkk1YaFLUk1Y6JJUExa6JNWEhS5JNWGhS1JNWOiSVBMb1/NgW7ZsyampqfU8pCRV3jXXXHNHZk6s9Lp1LfSpqSnm5ubW85CSVHkRMX84r/OSiyTVhIUuSTVhoUtSTVjoklQTFrok1cSKhR4Rl0bE7oi44SDfe1dEZERs6U88Saq49u0w9SMY+26xbd/et0Mdzhn6ZcDZy4cRcRJwJrCj5EySVA/t22H61zC/B5JiO/3rvpX6ioWemd8H7jzItz4KvJsipiRpuZmbYfGBA2eLDxTzPljTNfSIOBe4NTOvP4zXTkfEXETMLSwsrOVwklRNO/asbt6jVRd6RIwDM8D7Duf1mdnKzEZmNiYmVvzkqiTVx9ZNq5v3aC1n6CcDjwOuj4g/ACcC10bEY8oMJkmVN/t4GF9Ws+NjxbwPVr2WS2b+Ajh2ab9T6o3MvKPEXJJUfc3jiu3MzcVllq2bijJfmpdsxUKPiMuBFwBbImIn8P7MvKQvaSSpbprH9a3Al1ux0DPzNSt8f6q0NJKkNfOTopJUExa6JNWEhS5JNWGhS1JNWOiSVBMWuiQBd7VhxxTcPFZs72oPOtHqretDoiVpGN3VhjumIReL/b3zxT7A0c3B5Votz9Aljbz/m9lX5ktysZhXiYUuaeTt7fJUh27zYWWhSxp5G7eubj6sLHRJI++YWYjxA2cxXsyrxEKXNPKObsKWFmycBKLYbmlV6w1R8C4XSQKK8q5agS/nGbok1YSFLkk1YaFLUk1Y6JJUExa6JNWEhS5JNbFioUfEpRGxOyJu2G92cUT8KiJ+HhFfjohH9TemJBWua8PFU/DesWJ7XQVXReyXwzlDvww4e9nsauBJmflk4DfARSXnkqSHuK4NV03Dn+eBLLZXTVvqS1Ys9Mz8PnDnstm2zNzb2f0xcGIfsknSAa6egfuWrYp432IxVznX0F8PfL3bNyNiOiLmImJuYWGhhMNJGlV/7rL6Ybf5qOmp0CNiBtgLdP0HT2a2MrORmY2JiYleDidpxD2yy+qH3eajZs2FHhHnA+cAzczM8iJJ0sGdOQsPW7Yq4sPGi7nWWOgRcTbwHuDczOXP+ZCk/nhqE85rwSM7qyI+crLYf2rFF9Uqy4qrLUbE5cALgC0RsRN4P8VdLZuAqyMC4MeZ+aY+5pQkoChvC/zgViz0zHzNQcaX9CGLJKkHflJUkmrCQpekmrDQJakmLHRJqgkLXZJqwkKXpJqw0CX1xZVtePoUnDBWbK90RcS+W/E+dElarSvb8G/TcE/nc+S3zhf7AK/0Q0F94xm6pNL9x8y+Ml9yz2IxV/9Y6JJKd1uX5Wy7zVUOC11S6Y7vspxtt7nKYaFLKt1Fs3DksmVujxwv5uofC11S6V7ZhItbcMIkRBTbi1u+Idpv3uUiqS9e2bTA15tn6JJUExa6JNWEhS5JNWGhS1JNWOiSVBMrFnpEXBoRuyPihv1mj46IqyPips72mP7GlCSt5HDO0C8Dzl42uxD4VmaeAnyrsy+potrfg6l/gbFXFNv29wadSGuxYqFn5veBO5eNzwM+1/n6c8ArSs4laZ20vwfTn4D5BcgsttOfsNSraK3X0I/LzF0Ane2x5UWStJ5m/hsW9xw4W9xTzFUtfX9TNCKmI2IuIuYWFhb6fThJq7TjjtXNNbzWWui3R8RjATrb3d1emJmtzGxkZmNiYmKNh5PUL1u3rG6u4bXWQv8KcH7n6/OBq8qJI2m9zb4OxjcdOBvfVMxVLYdz2+LlwI+AUyNiZ0S8AfggcGZE3ASc2dmXVEHN50PrzTA5UayMODlR7DefP+hkWq3IzHU7WKPRyLm5uXU7niTVQURck5mNlV7nJ0UlqSYsdEmqCQtdkmrCQpekmrDQJakmLHRJqgkLXaqQ9i0wtQ3Griq27VsGnUjDZOOgA0g6PO1bYPp6WLy/2J+/p9gHaJ40uFwaHp6hSxUxs31fmS9ZvL+YS2ChS5Wx457VzTV6LHSpIrYeubq5Ro+FLlXE7GkwvuHA2fiGYi6BhS5VRvMkaD0FJo+EoNi2nuIbotrHu1ykCmmeZIGrO8/QJakmLHRJqgkLXZJqwkKXpJqw0CWpJnoq9Ih4e0T8MiJuiIjLI+KIsoJJklZnzYUeEScAbwUamfkkYAPw6rKCSVXWZg9T/Ikx7mSKP9Fmz6AjaQT0eh/6RuDIiLgPGAdu6z2SVG1t9jDN3Sx29ud5gGnuBqDJpsEFU+2t+Qw9M28FPgzsAHYBf87MbWUFk6pqhnseLPMli5251E+9XHI5BjgPeBxwPLA5Il57kNdNR8RcRMwtLCysPalUETt4YFVzqSy9vCn6YuD3mbmQmfcBVwLPWv6izGxlZiMzGxMTEz0cTqqGrV3+WnWbS2Xp5SdsB/CMiBiPiADOAFxqXyNvliMZXzYb78ylfurlGvpPgCuAa4FfdH6vVkm5pMpqsokWm5lkrFgVkTFabPYNUfVdZOa6HazRaOTc3Ny6HU+S6iAirsnMxkqv86KeJNWEhS5JNWGhS1JNWOiSVBMWuiTVhIUuSTVhoWuktdnOFC3G+E+maNH2s3GqsF5XW5Qqq812ptnGInsBmOcupinWl2ty2iCjSWviGbpG1gw/eLDMlyyylxl+MKBEUm8sdI2sHdy1qrk07Cx0jaytHL2quTTsLHSNrFmey/iyt5HG2cgszx1QIqk3FrpGVpPTaHEWkxzdWRXxaFqc5RuiqizvctFIa3KaBa7a8AxdkmrCQpekmrDQJakmLHRJqgkLXZJqwkKXpJroqdAj4lERcUVE/CoitkfEM8sKJi3X5qtM8ULGeAJTvJA2Xx10JGmo9Hof+seBb2TmP0XEw4HxEjJJD9Hmq0zzXha5F4B5bmOa9wLQ5OWDjCYNjTWfoUfEI4DnAZcAZObfMvNPZQWT9jfDRx4s8yWL3MsMHxlQImn49HLJ5fHAAvDZiPhZRHwmIjYvf1FETEfEXETMLSws9HA4jbId7FrVXBpFvRT6RuBpwCcz83TgbuDC5S/KzFZmNjKzMTEx0cPhNMq28thVzaVR1Euh7wR2ZuZPOvtXUBS8VLpZ3sE4RxwwG+cIZnnHgBJJw2fNhZ6ZfwRuiYhTO6MzgBtLSSUt0+TltPgAkxxPEExyPC0+4Bui0n56vcvlLUC7c4fLzcA/9x5JOrgmL7fApUPoqdAz8zqgUVIWSVIP/KSoJNWEhS5JNWGhS1JNWOiSVBMWuiTVhIWu0m2jzauY4rmM8Sqm2EZ70JGkkdDrfejSAbbR5kNMs4dFAG5nng8xDcBZNAcZTao9z9BVqk8z82CZL9nDIp9mZkCJpNFhoatUu9mxqrmk8ljoKtWxbF3VXFJ5LHSV6o3MsmnZg6s2Mc4bmR1QIml0WOgq1Vk0eQ8tjmOSIDiOSd5DyzdEpXXgXS4q3Vk0LXBpADxDl6SasNAlqSYsdEmqCQtdkmrCQpekmrDQJakmei70iNgQET+LiK+VEUjr53e0+SJTXMoYX2SK37kqolRpZdyHfgGwHXhECb+X1snvaPNDprm/s5DW3czzw86qiCd7D7lUST2doUfEicDLgM+UE0frZY6ZB8t8yf0sMueqiFJl9XrJ5WPAu4EHur0gIqYjYi4i5hYWFno8nMpyd5fVD7vNJQ2/NRd6RJwD7M7Maw71usxsZWYjMxsTExNrPZxKtrnL6ofd5pKGXy9n6M8Gzo2IPwBfAF4UEZ8vJZX6rsEsG5atiriBcRquiihV1poLPTMvyswTM3MKeDXw7cx8bWnJ1Fcn0+Q5tNjMJBBsZpLn0PINUanCXG1xhJ1M0wKXaqSUQs/M7wLfLeP3kiStjZ8UlaSasNAlqSYsdEmqCQtdkmrCQpekmrDQJakmLPQquL8Ne6dg71ixvd9lbiU9lB8sGnb3tyGn4cGVEeeL/fuBDX4oSNI+nqEPu5yBZcvcwmJnLkn7WOhDr9tyti5zK+lAFvrQ67acrcvcSjqQhT7sYhaWLXML4525JO1joQ+7DU2IFnSWuYXJYt83RCUt410uVbChCS5zK2kFnqFLUk1Y6JJUExa6JNWEhS5JNWGhS1JNrLnQI+KkiPhORGyPiF9GxAVlBpMkrU4vZ+h7gXdm5mnAM4A3R8QTy4lVYTe14X+moDVWbG9yZURJ62PN96Fn5i5gV+fruyJiO3ACcGNJ2arnpjb8YBr2dhbT+ut8sQ9wiveRS+qvUq6hR8QUcDrwkzJ+v8r66cy+Ml+yd7GYS1Kf9VzoEXEU8CXgbZn5l4N8fzoi5iJibmFhodfDDbe/dlkBsdtckkrUU6FHxMMoyrydmVce7DWZ2crMRmY2JiYmejnc8DuqywqI3eaSVKJe7nIJ4BJge2Z+pLxIFfb0Wdi4bGXEjePFXJL6rJcz9GcDrwNeFBHXdf57aUm5qumUJjy3BUd1VkY8arLY9w1RSeugl7tcfkixnqv2d0rTApc0EH5SVJJqwkKXpJqw0CWpJix0SaoJC12SasJCl6SaGN1C/2Yb/nEKnjVWbL/pqoiSqm3N96FX2jfb8MFpuLezkNYf54t9gJd4D7mkahrNM/RPzewr8yX3LhZzSaqo0Sz027usfthtLkkVMJqFflyX1Q+7zSWpAkaz0N80C0csWxXxiPFiLkkVNZqF/pImXNiCx0xCRLG9sOUbopIqbTTvcoGivC1wSTUymmfoklRDFrok1YSFLkk1YaFLUk1Y6JJUEz0VekScHRG/jojfRsSFZYWSJK3emgs9IjYAnwD+AXgi8JqIeGJZwR7U/hpMnQFjf1ds218r/RCSVAe93If+98BvM/NmgIj4AnAecGMZwYCivKffB4v3Fvvzu4p9gOY5pR1Gkuqgl0suJwC37Le/szMrz8xH95X5ksV7i7kk6QC9FHocZJYPeVHEdETMRcTcwsLC6o6w44+rm0vSCOul0HcCJ+23fyJw2/IXZWYrMxuZ2ZiYmFjdEbY+ZnVzSRphvRT6T4FTIuJxEfFw4NXAV8qJ1TH7dhg/4sDZ+BHFXJJ0gDW/KZqZeyPiX4FvAhuASzPzl6Ulg31vfM58tLjMsvUxRZn7hqgkPURkPuSyd980Go2cm5tbt+NJUh1ExDWZ2VjpdX5SVJJqwkKXpJqw0CWpJix0SaoJC12SamJd73KJiAVgfo2/fAtwR4lx+q1KeauUFaqVt0pZoVp5q5QVess7mZkrfjJzXQu9FxExdzi37QyLKuWtUlaoVt4qZYVq5a1SVlifvF5ykaSasNAlqSaqVOitQQdYpSrlrVJWqFbeKmWFauWtUlZYh7yVuYYuSTq0Kp2hS5IOoRKFXpWHUUfESRHxnYjYHhG/jIgLBp1pJRGxISJ+FhFD/7DWiHhURFwREb/q/Bk/c9CZDiUi3t75ObghIi6PiCNW/lXrIyIujYjdEXHDfrNHR8TVEXFTZ3vMIDPur0veizs/Cz+PiC9HxKMGmXHJwbLu9713RURGxJZ+HHvoC33dHkZdjr3AOzPzNOAZwJuHOOuSC4Dtgw5xmD4OfCMznwA8hSHOHREnAG8FGpn5JIolpl892FQHuAw4e9nsQuBbmXkK8K3O/rC4jIfmvRp4UmY+GfgNcNF6h+riMh6alYg4CTgT2NGvAw99obPfw6gz82/A0sOoh05m7srMaztf30VROOU+Z7VEEXEi8DLgM4POspKIeATwPOASgMz8W2b+abCpVrQRODIiNgLjHOSJXoOSmd8H7lw2Pg/4XOfrzwGvWNdQh3CwvJm5LTP3dnZ/TPHUtIHr8mcL8FHg3RzkUZ1lqUKh9/9h1H0QEVPA6cBPBpvkkD5G8QP2wKCDHIbHAwvAZzuXiD4TEZsHHaqbzLwV+DDF2dgu4M+ZuW2wqVZ0XGbuguLkBDh2wHlW4/XA1wcdopuIOBe4NTOv7+dxqlDoh/Uw6mESEUcBXwLelpl/GXSeg4mIc4DdmXnNoLMcpo3A04BPZubpwN0M1yWBA3SuP58HPA44HtgcEa8dbKp6iogZisud7UFnOZiIGAdmgPf1+1hVKPTDehj1sIiIh1GUeTszrxx0nkN4NnBuRPyB4jLWiyLi84ONdEg7gZ2ZufQvnisoCn5YvRj4fWYuZOZ9wJXAswacaSW3R8RjATrb3QPOs6KIOB84B2jm8N6DfTLF/9iv7/x9OxG4NiJKf9p9FQq9/w+jLklEBMU13u2Z+ZFB5zmUzLwoM0/MzCmKP9NvZ+bQnkFm5h+BWyLi1M7oDODGAUZayQ7gGREx3vm5OIMhfhO34yvA+Z2vzweuGmCWFUXE2cB7gHMzc3HQebrJzF9k5rGZOdX5+7YTeFrnZ7pUQ1/onTc9lh5GvR3439IfRl2eZwOvozjbva7z30sHHapG3gK0I+LnwFOBfx9wnq46/5K4ArgW+AXF37Wh+WRjRFwO/Ag4NSJ2RsQbgA8CZ0bETRR3Y3xwkBn31yXvfwFHA1d3/q59aqAhO7pkXZ9jD++/UiRJqzH0Z+iSpMNjoUtSTVjoklQTFrok1YSFLkk1YaFLUk1Y6JJUExa6JNXE/wN33AIAzFWhewAAAABJRU5ErkJggg==\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"from matplotlib import pyplot as plt\n",
"from matplotlib import cm\n",
"\n",
"# On affiche une sélection automatique de couleur dans une colormap\n",
"# matplotlib\n",
"nbPersos = len(persoList)\n",
"color = iter(cm.gist_rainbow(np.linspace(0, 1, nbPersos)))\n",
"for i in range(nbPersos):\n",
" c = next(color)\n",
" plt.plot(i, i, 'o', c=c)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Comme expliqué au-dessus, cette sélection ne convient pas car certaines couleurs sont trop proches les unes de autres. Essayons d'autres colormaps."
]
},
{
"cell_type": "code",
"execution_count": 37,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAXQAAAD8CAYAAABn919SAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADl0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uIDIuMi4zLCBodHRwOi8vbWF0cGxvdGxpYi5vcmcvIxREBQAAFLlJREFUeJzt3X+MXOV97/H317u28Q8MGC81wZvrwAUaitwLWZHQhNw0bgItBCL13oioaVBTCVXqbdyq+QGKlET94yYSVVuqXLWygEJUBEKEG0JRC8ilF2gJdI0TE3CAgClrx64HHP9Y43i9u9/7x8w6XrPr3dk5szNz5v2SrN159tjPB2v3w/FznjMnMhNJUudb0OoAkqRiWOiSVBIWuiSVhIUuSSVhoUtSSVjoklQSFroklYSFLkklYaFLUkn0zudkq1atyrVr187nlJLU8TZv3vxmZvbNdNy8FvratWsZHByczyklqeNFxH/M5jiXXCSpJCx0SSoJC12SSsJCl6SSsNAlqSRm3OUSEXcA1wB7MvPiE772BeAWoC8z32xOREnqXK8eeJvNbx3k0OgYy3p7eN+Zp3LeiqVNmWs2Z+h3AledOBgR/cDHgDcKziRJpfDqgbf51z37OTQ6BsCh0TH+dc9+Xj3wdlPmm7HQM/MJYO8UX/pL4EuAz7CTpClsfusgYyc85nMsk81vHWzKfHNaQ4+Ia4GdmfnDWRx7Y0QMRsRgpVKZy3SS1JEmzsxnO96ougs9IpYCXwG+OpvjM3NjZg5k5kBf34x3rkpSaSzr7alrvFFzOUM/D3gP8MOIeB1YAzwXEauLDCZJne59Z55KT8SksZ4I3nfmqU2Zr+73csnM54GzJl7XSn3AXS6SNNnEbpb52uUym22L9wAfAVZFxA7ga5l5e1PSSFLJnLdiadMK/EQzFnpmfnqGr68tLI0kac68U1SSSsJCl6SSsNAlqSQsdEkqCQtdkkpiXp8pKknt6ju79/KN13ax88hRzlm8kJvPPZvfXr2y1bHqYqFL6nrf2b2XL7w0xOHx6htp7ThylC+8NATQUaXukoukrveN13YdK/MJh8eTb7y2q0WJ5sZCl9T1dh45Wtd4u7LQJXW9cxYvrGu8XVnokrrezeeezZIFk98VccmC4OZzz25Rornxoqikrjdx4dNdLpJUAr+9emXHFfiJXHKRpJKw0CWpJCx0SSoJC12SSsJCl6SSsNAlqSRm85DoO4BrgD2ZeXFt7BbgE8AI8Crwe5m5r5lBJQngwIFt7N37FKOjB+ntPZWVKz/EihXvbXWstjCbM/Q7gatOGHsMuDgz1wEvAzcXnEuS3uHAgW1UKo8xOnoQgNHRg1Qqj3HgwLYWJ2sPMxZ6Zj4B7D1h7NHMHK29/D6wpgnZJGmSvXuf4hfVU5U5yt69T7UoUXspYg39c8A/TvfFiLgxIgYjYrBSqRQwnaRuNXFmPtvxbtNQoUfEV4BR4O7pjsnMjZk5kJkDfX19jUwnqcv19p5a13i3mXOhR8QNVC+W/k5m5kzHS1KjVq78EBGT93JE9LJy5YdalKi9zOnNuSLiKuDLwH/PzLeLjSRJU5vYzeIul6nNZtviPcBHgFURsQP4GtVdLYuBxyIC4PuZ+QdNzClJQLXULfCpzVjomfnpKYZvb0IWSVIDvFNUkkrCQpekkrDQJakkLHRJKgkLXZJKwkKXpJKY041FkjSTSqXC0NAQIyMjLFq0iP7+fnz7j+ay0CUVrlKpsH37dsbHxwEYGRlh+/btAJZ6E7nkIqlwQ0NDx8p8wvj4OENDQy1K1B0sdEmFGxkZqWtcxbDQJRVu0aJFdY2rGBa6pML19/ezYMHkelmwYAH9/f0tStQdvCgqqXATFz7d5TK/LHRJTdHX12eBzzOXXCSpJCx0SSoJC12SSsJCl6SSsNAlqSRmLPSIuCMi9kTEj44bWxkRj0XEK7WPZzQ3piRpJrPZtngn8C3g28eN3QRsysxvRsRNtddfLj6epPmwdetWNm3axP79+znttNNYv34969ata3Us1WnGM/TMfALYe8LwdcBdtc/vAj5ZcC5J82Tr1q089NBD7N+/H4D9+/fz0EMPsXXr1hYnU73muob+S5m5C6D28aziIkmaT5s2beLo0aOTxo4ePcqmTZtalEhz1fSLohFxY0QMRsRgpVJp9nSS6jRxZj7bcbWvuRb6f0bE2QC1j3umOzAzN2bmQGYOeBuw1H5OO+20usbVvuZa6N8Dbqh9fgPwYDFxJM239evXs3DhwkljCxcuZP369S1KpLmacZdLRNwDfARYFRE7gK8B3wTui4jfB94A/mczQ0pqnondLO5y6XyRmfM22cDAQA4ODs7bfJJUBhGxOTMHZjrOO0UlqSQsdEkqCQtdkkrCQpekkrDQJakkLHRJKgkfEi11kENb9nDgkdcZ23eEntMXs+LKtSy7xLdSUpWFLnWIQ1v2sO+BV8ij4wCM7TvCvgdeAbDUBbjkInWMA4+8fqzMJ+TRcQ488nprAqntWOhShxjbd6SucXUfC13qED2nL65rXN3HQpc6xIor1xILJ//IxsIFrLhybWsCqe14UVTqEBMXPt3loulY6FIHWXbJWRa4puWSiySVhIUuSSVhoUtSSVjoklQSFroklURDhR4RfxIRL0TEjyLinog4pahgkqT6zHnbYkScA3weuCgzD0fEfcD1wJ0FZZM61p6fvMwbg09z5NAwi5ct590Dl3PWf72g1bFUco3uQ+8FlkTEUWAp8NPGI0mdbc9PXubVpx5nfGwUgCOHhnn1qccBLHU11ZyXXDJzJ/DnwBvALmB/Zj5aVDCpU70x+PSxMp8wPjbKG4NPtyiRusWcCz0izgCuA94DvAtYFhGfmeK4GyNiMCIGK5XK3JNKHeLIoeG6xqWiNHJR9DeA7ZlZycyjwAPAr514UGZuzMyBzBzo6+trYDqpMyxetryucakojRT6G8AHImJpRASwHthWTCypc7174HIW9Ey+PLWgp5d3D1zeokTqFnO+KJqZz0TE/cBzwCiwBdhYVDCpU01c+HSXi+ZbZOa8TTYwMJCDg4PzNp8klUFEbM7MgZmO805RSSoJC12SSsJCl6SSsNAlqSQsdEkqCQtdkkrCh0Srq2178nGevPfbHHzrTU49cxVXXP9Z3nvFr7c6ljQnFrq61rYnH+fRjd9idOQIAAffrPDoxm8BWOrqSC65qGs9ee+3j5X5hNGRIzx577dblEhqjIWurnXwrTfrGpfanYWurnXqmavqGpfanYWurnXF9Z+ld9HiSWO9ixZzxfWfbVEiqTFeFFXXmrjw6S4XlYWFrq723it+3QJXabjkIkklYaFLUklY6JJUEha6JJWEhS5JJWGhS1JJNLRtMSJOB24DLgYS+FxmPl1EMOlELz+zm6cffJXhvUdYvnIxl193Hhe8f3WrY0lto9F96LcC/5SZ/yMiFgFLC8gkvcPLz+zm8bt/zOjIOADDe4/w+N0/BrDUpZo5L7lExArgw8DtAJk5kpn7igomHe/pB189VuYTRkfGefrBV1uUSGo/jayhnwtUgL+LiC0RcVtELDvxoIi4MSIGI2KwUqk0MJ262fDeI3WNS92okULvBS4F/iYzLwEOATedeFBmbszMgcwc6Ovra2A6dbPlKxfXNS51o0YKfQewIzOfqb2+n2rBS4W7/Lrz6F00+du1d9ECLr/uvBYlktrPnC+KZubuiBiKiAsz8yVgPfBicdGkX5i48OkuF2l6je5y+SPg7toOl9eA32s8kjS1C96/2gKXTqKhQs/MHwADBWWRJDXAO0UlqSQsdEkqCQtdkkrCQpekkrDQJakkfEi0ivfKy/DsMzA8DMuXw2Xvh/MvaHUqqfQsdBXrlZfhif8Ho6PV18PD1ddgqUtN5pKLivXsM78o8wmjo9VxSU1loatYw8P1jUsqjIWuYi1fXt+4pMJY6CrWZe+H3hMuzfT2VsclNZUXRVWsiQuf7nKR5p2FruKdf4EFLrWASy6SVBIWuiSVhIUuSSVhoUtSSVjoklQSFroklUTD2xYjogcYBHZm5jWNR9J8eWX4RZ792ZMMjx1gec8KLjvjCs5fflGrY0maoyL2oW8AtgErCvizNE9eGX6RJ956hNGsvpHW8NgBnnjrEQBLXepQDS25RMQa4GrgtmLiaL48+7Mnj5X5hNEc5dmfPdmiRJIa1ega+l8BXwLGpzsgIm6MiMGIGKxUKg1Op6IMjx2oa1xS+5tzoUfENcCezNx8suMyc2NmDmTmQF9f31ynU8GW90y9QjbduKT218gZ+geBayPideBe4KMR8feFpFLTXXbGFfTG5EsovdHLZWdc0aJEkho150LPzJszc01mrgWuB/45Mz9TWDI11fnLL+LDZ1557Ix8ec8KPnzmlV4QlTqY77bYxc5ffpEFLpVIIYWemf8C/EsRf5YkaW68U1SSSsJCl6SSsNAlqSQsdEkqCQtdkkrCQpekkrDQO8DDrz3Mx+//OOvuWsfH7/84D7/2cKsjSWpD3ljU5h5+7WG+/m9f5+djPwdg16FdfP3fvg7A1ede3cJkktqNZ+ht7tbnbj1W5hN+PvZzbn3u1hYlktSuLPQ2t/vQ7rrGJXUvC73NrV62uq5xSd3LQm9zGy7dwCk9p0waO6XnFDZcuqFFiSS1Ky+KtrmJC5+3Pncruw/tZvWy1Wy4dIMXRCW9g4XeAa4+92oLXNKMXHKRpJKw0CWpJCx0SSoJC12SSsJCl6SSmHOhR0R/RDweEdsi4oWIcGO0JLVQI9sWR4E/zcznIuJUYHNEPJaZLxaUrTNtvQ82/Rns3wGnrYH1X4V1n2p1KkldYM6Fnpm7gF21zw9GxDbgHKB7C33rffDQ5+Ho4err/UPV12CpS2q6QtbQI2ItcAnwTBF/Xsfa9Ge/KPMJRw9XxyWpyRou9IhYDnwH+OPMPDDF12+MiMGIGKxUKo1O197276hvXJIK1FChR8RCqmV+d2Y+MNUxmbkxMwcyc6Cvr6+R6drfaWvqG5ekAjWyyyWA24FtmfkXxUXqYOu/CguXTB5buKQ6LklN1sgZ+geB3wU+GhE/qP36rYJydaZ1n4JP/DWc1g9E9eMn/toLopLmRSO7XJ4CosAs5bDuUxa4pJbwTlFJKgkLXZJKwkKXpJKw0CWpJCx0SSoJC12SSqJrHxI9VDnMC0PDHB4ZZ8miBfxK/3L6+5bM/BslqU11ZaEPVQ6zZfsBxsarrw+PjLNle/VtaCx1SZ2qK5dcXhgaPlbmE8bGq+OS1Km6stAPj4zXNS5JnaArC33Joqn/s6cbl6RO0JUN9iv9y+k54b+8Z0F1XJI6VVdeFJ248OkuF0ll0pWFDtVSt8AllUlXLrlIUhlZ6JJUEha6JJWEhS5JJWGhS1JJNFToEXFVRLwUET+JiJuKCiVJqt+cty1GRA/wf4CPATuAf4+I72Xmi0WFA/julp3c8shL/HTfYd51+hK+eOWFfPKSc4qcQpJKoZEz9MuAn2Tma5k5AtwLXFdMrKrvbtnJzQ88z859h0lg577D3PzA83x3y84ip5GkUmik0M8Bho57vaM2VphbHnmJw0fHJo0dPjrGLY+8VOQ0klQKjRR6TDGW7zgo4saIGIyIwUqlUtcEP913uK5xSepmjRT6DqD/uNdrgJ+eeFBmbszMgcwc6Ovrq2uCd50+9a35041LUjdrpND/HTg/It4TEYuA64HvFROr6otXXsiShT2TxpYs7OGLV15Y5DSSVApz3uWSmaMR8b+AR4Ae4I7MfKGwZHBsN4u7XCRpZpH5jmXvphkYGMjBwcF5m0+SyiAiNmfmwEzHeaeoJJWEhS5JJWGhS1JJWOiSVBIWuiSVxLzucomICvAfc/ztq4A3C4zTbJ2Ut5OyQmfl7aSs0Fl5OykrNJb3v2TmjHdmzmuhNyIiBmezbadddFLeTsoKnZW3k7JCZ+XtpKwwP3ldcpGkkrDQJakkOqnQN7Y6QJ06KW8nZYXOyttJWaGz8nZSVpiHvB2zhi5JOrlOOkOXJJ1ERxR6pzyMOiL6I+LxiNgWES9ExIZWZ5pJRPRExJaI+IdWZ5lJRJweEfdHxI9rf8eXtzrTyUTEn9S+D34UEfdExCmtzjQhIu6IiD0R8aPjxlZGxGMR8Urt4xmtzHi8afLeUvte2BoR/zciTm9lxglTZT3ua1+IiIyIVc2Yu+0L/biHUf8mcBHw6Yi4qLWppjUK/Glmvhf4APCHbZx1wgZgW6tDzNKtwD9l5i8Dv0ob546Ic4DPAwOZeTHVt5i+vrWpJrkTuOqEsZuATZl5PrCp9rpd3Mk78z4GXJyZ64CXgZvnO9Q07uSdWYmIfuBjwBvNmrjtC515eBh1UTJzV2Y+V/v8INXCads3b4+INcDVwG2tzjKTiFgBfBi4HSAzRzJzX2tTzagXWBIRvcBSpniiV6tk5hPA3hOGrwPuqn1+F/DJeQ11ElPlzcxHM3O09vL7VJ+a1nLT/N0C/CXwJaZ4VGdROqHQm/4w6maIiLXAJcAzrU1yUn9F9RtsvNVBZuFcoAL8XW2J6LaIWNbqUNPJzJ3An1M9G9sF7M/MR1ubaka/lJm7oHpyApzV4jz1+Bzwj60OMZ2IuBbYmZk/bOY8nVDos3oYdTuJiOXAd4A/zswDrc4zlYi4BtiTmZtbnWWWeoFLgb/JzEuAQ7TXksAktfXn64D3AO8ClkXEZ1qbqpwi4itUlzvvbnWWqUTEUuArwFebPVcnFPqsHkbdLiJiIdUyvzszH2h1npP4IHBtRLxOdRnroxHx962NdFI7gB2ZOfEvnvupFny7+g1ge2ZWMvMo8ADway3ONJP/jIizAWof97Q4z4wi4gbgGuB3sn33YJ9H9X/sP6z9vK0BnouI1UVP1AmF3vSHURclIoLqGu+2zPyLVuc5mcy8OTPXZOZaqn+n/5yZbXsGmZm7gaGImHhC+HrgxRZGmskbwAciYmnt+2I9bXwRt+Z7wA21z28AHmxhlhlFxFXAl4FrM/PtVueZTmY+n5lnZeba2s/bDuDS2vd0odq+0GsXPSYeRr0NuK/oh1EX6IPA71I92/1B7ddvtTpUifwRcHdEbAX+G/C/W5xnWrV/SdwPPAc8T/VnrW3ubIyIe4CngQsjYkdE/D7wTeBjEfEK1d0Y32xlxuNNk/dbwKnAY7Wftb9taciaabLOz9zt+68USVI92v4MXZI0Oxa6JJWEhS5JJWGhS1JJWOiSVBIWuiSVhIUuSSVhoUtSSfx/Uekl7PIy+EwAAAAASUVORK5CYII=\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"# On affiche une sélection automatique de couleur dans une colormap\n",
"# matplotlib\n",
"color = iter(cm.tab20(np.linspace(0, 1, nbPersos)))\n",
"for i in range(nbPersos):\n",
" c = next(color)\n",
" plt.plot(i, i, 'o', c=c)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Cette dernière semble convenir."
]
},
{
"cell_type": "code",
"execution_count": 45,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[0.12156863 0.46666667 0.70588235 1. ]\n",
"[0.68235294 0.78039216 0.90980392 1. ]\n",
"[1. 0.49803922 0.05490196 1. ]\n",
"[0.17254902 0.62745098 0.17254902 1. ]\n",
"[0.59607843 0.8745098 0.54117647 1. ]\n",
"[1. 0.59607843 0.58823529 1. ]\n",
"[0.58039216 0.40392157 0.74117647 1. ]\n",
"[0.54901961 0.3372549 0.29411765 1. ]\n",
"[0.76862745 0.61176471 0.58039216 1. ]\n",
"[0.89019608 0.46666667 0.76078431 1. ]\n",
"[0.49803922 0.49803922 0.49803922 1. ]\n",
"[0.78039216 0.78039216 0.78039216 1. ]\n",
"[0.85882353 0.85882353 0.55294118 1. ]\n",
"[0.09019608 0.74509804 0.81176471 1. ]\n",
"[0.61960784 0.85490196 0.89803922 1. ]\n"
]
},
{
"data": {
"text/plain": [
"{'Harpagon': {'links': [\"Père de Cléante et d'Élise\", 'Amoureux de Mariane'],\n",
" 'color': array([0.61960784, 0.85490196, 0.89803922, 1. ])},\n",
" 'Cléante': {'links': [\"Fils d'Harpagon\", 'Amant de Mariane'],\n",
" 'color': array([0.09019608, 0.74509804, 0.81176471, 1. ])},\n",
" 'Élise': {'links': [\"Fille d'Harpagon\", 'Amante de Valère'],\n",
" 'color': array([0.76862745, 0.61176471, 0.58039216, 1. ])},\n",
" 'Valère': {'links': [\"Fils d'Anselme\", \"Amant d'Élise\"],\n",
" 'color': array([0.85882353, 0.85882353, 0.55294118, 1. ])},\n",
" 'Mariane': {'links': ['Amante de Cléante', \"aimée d'Harpagon\"],\n",
" 'color': array([0.54901961, 0.3372549 , 0.29411765, 1. ])},\n",
" 'Anselme': {'links': ['Père de Valère et de Mariane'],\n",
" 'color': array([0.58039216, 0.40392157, 0.74117647, 1. ])},\n",
" 'Frosine': {'links': [\"Femme d'Intrigue\"],\n",
" 'color': array([0.78039216, 0.78039216, 0.78039216, 1. ])},\n",
" 'Maitre Simon': {'links': ['Courtier'],\n",
" 'color': array([0.59607843, 0.8745098 , 0.54117647, 1. ])},\n",
" 'Maitre Jacques': {'links': [\"Cuisinier et Cocher d'Harpagon\"],\n",
" 'color': array([0.49803922, 0.49803922, 0.49803922, 1. ])},\n",
" 'La Flèche': {'links': ['Valet de Cléante'],\n",
" 'color': array([0.89019608, 0.46666667, 0.76078431, 1. ])},\n",
" 'Dame Claude': {'links': [\"Servante d'Harpagon\"],\n",
" 'color': array([0.12156863, 0.46666667, 0.70588235, 1. ])},\n",
" 'Brindavoine': {'links': [\"laquais d'Harpagon\"],\n",
" 'color': array([1. , 0.49803922, 0.05490196, 1. ])},\n",
" 'La Merluche': {'links': [\"laquais d'Harpagon\"],\n",
" 'color': array([0.17254902, 0.62745098, 0.17254902, 1. ])},\n",
" 'Le commissaire': {'links': [],\n",
" 'color': array([1. , 0.59607843, 0.58823529, 1. ])},\n",
" 'son clerc': {'links': ['assistant du commissaire'],\n",
" 'color': array([0.68235294, 0.78039216, 0.90980392, 1. ])}}"
]
},
"execution_count": 45,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"color = iter(cm.tab20(np.linspace(0, 1, nbPersos)))\n",
"for i in range(nbPersos):\n",
" c = next(color)\n",
" print(c)\n",
" perso = sortedData[\"perso\"].iloc[i]\n",
" #print(perso)\n",
" avarePersoDict[perso][\"color\"] = c\n",
"\n",
"avarePersoDict"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On constate ci-dessus que le dictionnaire des personnages de la pièce a bien été complété comme voulu."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"En nous appuyant sur une page internet trouvée sur exemple d'affichage similaire à ce qui est fait dans l'étude \\(à savoir un affichage par Acte, sous forme de barres horizontales pour chaque scène le composant donnant la répartition de la paroles entre les différents protagonistes de chaque scène\\), on va pouvoir répondre à la seconde question. Voici un lien vers celle-ci: [geeksforgeeks_stacked-percentage-bar-plot](https://www.geeksforgeeks.org/stacked-percentage-bar-plot-in-matplotlib/)."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Pour l'écriture du nombre de mots au sein des graphiques, il a fallu passer par des sorties intermédiaires pour voir comment fonctionnait matplotlib, dans quel sens il parcours les éléments de son graphiques par rapport au dataframe d'entrée que l'on veut représenter. Une sortie intermédiaire obtenue via des prints (un print du dataframe `percentDf` et de `bar` dans la boucle `for i, bar in enumerate(ax.patches):` du code de tracé du graphique un peu plus bas), nous à donner ce qui suit:\n",
"\n",
"```\n",
" Cléante Harpagon La Flèche Valère scene Élise\n",
"0 0.000000 0.000000 0.000000 0.561998 1 0.438002\n",
"1 0.831694 0.000000 0.000000 0.000000 2 0.168306\n",
"2 0.000000 0.644044 0.355956 0.000000 3 0.000000\n",
"3 0.141361 0.752618 0.000000 0.000000 4 0.106021\n",
"4 0.000000 0.268701 0.000000 0.695866 5 0.035433\n",
"\n",
"Rectangle(xy=(0, -0.25), width=0, height=0.5, angle=0)\n",
"Rectangle(xy=(0, 0.75), width=0.831694, height=0.5, angle=0)\n",
"Rectangle(xy=(0, 1.75), width=0, height=0.5, angle=0)\n",
"Rectangle(xy=(0, 2.75), width=0.141361, height=0.5, angle=0)\n",
"Rectangle(xy=(0, 3.75), width=0, height=0.5, angle=0)\n",
"Rectangle(xy=(0, -0.25), width=0, height=0.5, angle=0)\n",
"Rectangle(xy=(0, 0.75), width=0, height=0.5, angle=0)\n",
"Rectangle(xy=(0, 1.75), width=0.644044, height=0.5, angle=0)\n",
"Rectangle(xy=(0.141361, 2.75), width=0.752618, height=0.5, angle=0)\n",
"Rectangle(xy=(0, 3.75), width=0.268701, height=0.5, angle=0)\n",
"Rectangle(xy=(0, -0.25), width=0, height=0.5, angle=0)\n",
"Rectangle(xy=(0, 0.75), width=0, height=0.5, angle=0)\n",
"Rectangle(xy=(0.644044, 1.75), width=0.355956, height=0.5, angle=0)\n",
"Rectangle(xy=(0, 2.75), width=0, height=0.5, angle=0)\n",
"Rectangle(xy=(0, 3.75), width=0, height=0.5, angle=0)\n",
"Rectangle(xy=(0, -0.25), width=0.561998, height=0.5, angle=0)\n",
"Rectangle(xy=(0, 0.75), width=0, height=0.5, angle=0)\n",
"Rectangle(xy=(0, 1.75), width=0, height=0.5, angle=0)\n",
"Rectangle(xy=(0, 2.75), width=0, height=0.5, angle=0)\n",
"Rectangle(xy=(0.268701, 3.75), width=0.695866, height=0.5, angle=0)\n",
"Rectangle(xy=(0.561998, -0.25), width=0.438002, height=0.5, angle=0)\n",
"Rectangle(xy=(0.831694, 0.75), width=0.168306, height=0.5, angle=0)\n",
"Rectangle(xy=(0, 1.75), width=0, height=0.5, angle=0)\n",
"Rectangle(xy=(0.893979, 2.75), width=0.106021, height=0.5, angle=0)\n",
"Rectangle(xy=(0.964567, 3.75), width=0.0354331, height=0.5, angle=0)\n",
"```\n",
"\n",
"On voit qu'il y a 25 éléments, qui correspondent à 5 scène x 5 personnages pour l'acte 1.\n",
"En regardant de près les valeurs de largeur des rectangles `width`, on voit que les 5 premiers rectangles correspondent au premier personnage (cela correspond aux valeurs de pourcentage de paroles pour les 5 scènes de l'acte) = la première colonne du dataframe qui est affiché juste au dessus, les 5 rectangles suivants correspondent au second personnage et ainsi de suite. Il va falloir calculer les positions des textes en conséquences. "
]
},
{
"cell_type": "code",
"execution_count": 43,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
},
{
"data": {
"image/png": "\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
},
{
"data": {
"image/png": "\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
},
{
"data": {
"image/png": "\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
},
{
"data": {
"image/png": "\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"from matplotlib import colors\n",
"# Il va nous falloir compter le nombre d'actes de la pièce\n",
"# et faire une boucle sur ces derniers pour construire \n",
"# un dataframe par acte à partir du dataframe global\n",
"# que dont on va caler la structure en fonction de\n",
"# l'exemple disponible sur la page.\n",
"# Le dataframe doit contenir une ligne par scène de l'acte\n",
"# courant et une colonne par protagoniste de la scène\n",
"actNums = pd.unique(textDataSynthesisTableDf[\"act\"])\n",
"nbActs = actNums.size\n",
"\n",
"for actNum in actNums:\n",
" actDf = textDataSynthesisTableDf[textDataSynthesisTableDf[\"act\"]==float(actNum)].copy()\n",
" #actDf\n",
" sceneNums = pd.unique(actDf[\"scene\"])\n",
" actPersos = pd.unique(actDf[\"author\"])\n",
" #print(\"act {0:} persos {1:}\".format(actNum,actPersos))\n",
" actDict = {\"scene\":[]}\n",
" for perso in actPersos:\n",
" # Création d'une colonne par personnage de l'acte\n",
" actDict[perso] = []\n",
" \n",
" for sceneNum in sceneNums:\n",
" actDict[\"scene\"].append(sceneNum)\n",
" sceneDf = actDf[actDf[\"scene\"]==float(sceneNum)].copy()\n",
" scenePersos = pd.unique(sceneDf[\"scene\"])\n",
" for perso in actPersos:\n",
" tmpDf = sceneDf[sceneDf[\"author\"]==perso].copy()\n",
" if not tmpDf.empty:\n",
" currentPersoNbWordsInScene = tmpDf[\"speech_length\"].sum()\n",
" #print(currentPersoNbWordsInScene)\n",
" actDict[perso].append(currentPersoNbWordsInScene)\n",
" else:\n",
" actDict[perso].append(0)\n",
" \n",
" # Il faut ensuite transformer le dictionnaire d'acte en dataframe\n",
" # on va en faire une version en pourcentage de paroles par scène.\n",
" # Il faudra récupérer les valeurs du nombre de mots afin d'afficher\n",
" # sur les graphiques.\n",
" #print(actDict)\n",
" actSceneSynthesisGraphDf = pd.DataFrame.from_dict(actDict)\n",
" #print(actSceneSynthesisGraphDf)\n",
" # On va créer une version en pourcentage du dataframe\n",
" # de synthèse par scène d'un acte.\n",
" percentDf = actSceneSynthesisGraphDf.copy()\n",
" # On utilise actPersos en indice pour ne traiter que les colonnes de personnages\n",
" # et ignorer la colonne donnant le numéro de scène\n",
" percentDf[actPersos] = percentDf[actPersos].div(percentDf[actPersos].sum(axis=1), axis=0)\n",
" percentDf = percentDf.sort_index(axis=1)\n",
" #print(percentDf)\n",
" #colors = {perso:colors.rgb2hex(avarePersoDict[perso]['color']) for perso in actPersos}\n",
" sortedPersos = np.sort(actPersos)\n",
" colors = []\n",
" for perso in sortedPersos:\n",
" colors.append(avarePersoDict[perso]['color'])\n",
"\n",
" # Rappel: Pour l'affichage en barres empilées à l'horizonatal, une recherche nous à permis de tomber\n",
" # sur la page suivante qui nous a aidé afin de faire le tracer souhaité:\n",
" # --> https://www.geeksforgeeks.org/stacked-percentage-bar-plot-in-matplotlib/\n",
" \n",
" percentDf.plot(\\\n",
" x = 'scene', \\\n",
" kind = 'barh', \\\n",
" color=colors, \\\n",
" stacked = True, \\\n",
" title = \"Acte {}\".format(actNum), \\\n",
" mark_right = True)\n",
" ax = plt.gca()\n",
" ax.invert_yaxis()\n",
" sceneCount = len(sceneNums)\n",
" for i, bar in enumerate(ax.patches):\n",
" #print(bar)\n",
" # On calcul l'index du personnage dans la liste des personnages de l'acte\n",
" # en prenant la partie entière de la division de i par le nombre de scènes\n",
" # de l'acte. En effet, comme on a pu le montrer un peu plus haut,\n",
" # les données sont parcourues de la manière suivante, les barres du graphique, les rectangles\n",
" # représentant les pourcentage de paroles, sont données pour toutes les scènes pour chaque\n",
" # personnage du dataframe.\n",
" # Pour le premier acte i va aller de 0 à 24 et le résultat de floor(i/sceneCount) va \n",
" # valloir 0 0 0 0 0 1 1 1 1 1 2 2 2 2 2 ... 4 4 4 4 4 où 4 est l'indice du dernier personnage (il y en a 5)\n",
" # On s'assure que persoIdx est un entier pour l'utiliser comme élément d'indiçage de l'array numpy des noms\n",
" # des personnages de l'acte courant trié sortedPersos.\n",
" persoIdx = int(np.floor(i/sceneCount))\n",
" #print(persoIdx)\n",
" # On calcul la ligne de la donnée\n",
" # On récupère le nom du personnage\n",
" persoName = sortedPersos[persoIdx]\n",
" #print(persoName)\n",
" # Ensuite, on va calculer le \"numéro\" de scène auquel correspond la barre courante\n",
" # en utilisant le reste de la division euclidienne de i par le nombre de scènes\n",
" # Pour le premier acte i va aller de 0 à 24 et le résultat de i % sceneCount va \n",
" # valloir 0 1 2 3 4 ... autant de fois qu'il y a de personnages dans l'acte courant\n",
" # et où 0 1 2 3 4 donne le numéro de ligne dans le dataframe\n",
" dataLineIdx = i % sceneCount\n",
" if bar.get_width() != 0:\n",
" # Si la largeur de la barre en cours est différente de 0, l'auteur associé a prononcé un certain nombres de mots\n",
" # que l'on va récupérer dans le dataframe qui n'a pas été mis en pourcentage et on va l'afficher au milieu du rectangle\n",
" # correspondant.\n",
" #print(actSceneSynthesisGraphDf[persoName])\n",
" nbWords = actSceneSynthesisGraphDf[persoName].iloc[dataLineIdx]\n",
" ax.text(bar.get_x()+bar.get_width()/2, \\\n",
" bar.get_y()+bar.get_height()/2, \\\n",
" \"{:d}\".format(nbWords), \\\n",
" rotation=20, \\\n",
" ha = 'center', \\\n",
" va = 'center')\n",
" # cf. (https://stackoverflow.com/questions/66837088/how-to-write-text-inside-the-bar-in-a-horizontal-bar-graph-matplotlib) \n",
" # ax.text(0.1, bar.get_y()+bar.get_height()/2, disease, color = 'white', ha = 'left', va = 'center') --> on comprend\n",
" # que les premiers paramètres donne la position du texte dans la barre notamment grâce à bar.get_y()+bar.get_height()/2\n",
" # qui met la coordonnée en y à la coordonnée de début de la barre + la moitié de sa hauteur. Ensuite, en ayant observé\n",
" # quelques comportements en modifiant les paramètres ha et va on comprend que cela règle l'ancrage du texte, i.e. \n",
" # cela précise à quoi font référence les coordonnées renseignées ha (alignement horizontal) et va (alignement vertical)\n",
" # center indique que la coordonnées renseignée représente le centre de la boîte de texte pour l'axe considéré,\n",
" # center, center --> indique que le centre de la boîte de texte se trouve aux coordonnées passées en entrée.\n",
" \n",
" # Positionnement de la légende en haut à droite en dehors du plot\n",
" # cf. (https://www.geeksforgeeks.org/how-to-place-legend-outside-of-the-plot-in-matplotlib/)\n",
" plt.legend(bbox_to_anchor=(1.05, 1.0), loc='upper left')\n",
" # Hide ticks of x axis on figures\n",
" plt.tick_params(axis='x', \\\n",
" which='both', \\\n",
" bottom=False, \\\n",
" top=False, \\\n",
" labelbottom=False) \n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Réponse à la question facultative"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Introduction\n",
"\n",
"Un nouveau regard sur le texte de la pièce nous montre que la manière dont nous avons géré auteurs et destinataires des répliques est \"naïf\". Cela n'a pas d'impact sur les réponses aux deux premières questions mais sur la dernière question oui.\n",
"Voici un commentaire de notre code:\n",
"```\n",
" # Il y avait déjà un auteur d'une réplique, currentAuthor\n",
" # le nouvel auteur est donc le destinataire de la réplique précédente.\n",
"```\n",
"\n",
"renseignant sur notre approche et qui montre la manière dont nous identifions auteurs et destinataires. Cette approche fonctionne parfaitement lorrsqu'il n'y a que deux personnages dans une scène mais n'est plus qu'une approximation lorsqu'il y a plus de deux personnages. En effet, cela peut être plus compliqué comme le montre quelques extraits ci-dessous:\n",
"\n",
"#### Extrait 1\n",
"\n",
"```\n",
"______________________________________________________________________________________________________________________\n",
"### Scène IV. (Acte 5)\n",
"Élise, Mariane, Frosine, Harpagon, Valère, Maître Jacques, le Commissaire, son Clerc\n",
"\n",
"\n",
" HARPAGON.\n",
"Ah ! fille scélérate ! Fille indigne d'un Père comme moi ! C'est ainsi que tu pratiques les Leçons que je t'ai données ! Tu te laisses prendre d'amour pour un Voleur infâme, et tu lui engages ta foi sans mon consentement ? Mais vous serez trompés l'un et l'autre. Quatre bonnes murailles me répondront de ta conduite ; et une bonne Potence me fera raison de ton audace.\n",
"\n",
" VALÈRE.\n",
"Ce ne sera point votre passion qui jugera l'affaire ; et l'on m'écoutera, au moins, avant que de me condamner.\n",
"\n",
" HARPAGON.\n",
"Je me suis abusé de dire une Potence ; et tu seras roué tout vif.\n",
"\n",
" ÉLISE, *à genoux devant son père*.\n",
"Ah ! mon père, prenez des sentiments un peu plus humains, je vous prie, et n'allez point pousser les choses dans les dernières violences du pouvoir paternel : Ne vous laissez point entraîner aux premiers mouvements de votre passion, et donnez-vous le temps de considérer ce que vous voulez faire.Prenez la peine de mieux voir celui dont vous vous offensez : il est tout autre que vos yeux ne le jugent ; et vous trouverez moins étrange que je me sois donnée à lui, lorsque vous saurez que sans lui vous ne m'auriez plus il y a longtemps. Oui, mon Père, c'est celui qui me sauva de ce grand péril que vous savez que je courus dans l'eau, et à qui vous devez la vie de cette même fille, dont…\n",
"______________________________________________________________________________________________________________________\n",
"```\n",
"\n",
"Ci-dessus, la première réplique d'Harpagon s'adresse à sa fille Elise et non à Valère.\n",
"\n",
"\n",
"#### Extrait 2\n",
"\n",
"```\n",
"______________________________________________________________________________________________________________________\n",
"### Scène V. (Acte 5)\n",
"Anselme, Harpagon, Élise, Mariane, Frosine, Valère, Maître Jacques, le Commissaire, son Clerc\n",
"\n",
"\n",
" ANSELME.\n",
"Qu'est-ce, Seigneur Harpagon, je vous vois tout ému.\n",
"\n",
" HARPAGON.\n",
"Ah ! Seigneur Anselme, vous me voyez le plus infortuné de tous les hommes ; et voici bien du trouble et du désordre au Contrat que vous venez faire ?On m'assassine dans le bien, on m'assassine dans l'honneur ; et voilà un traître, un scélérat, qui a violé tous les droits les plus saints ; qui s'est coulé chez moi sous le titre de Domestique, pour me dérober mon argent, et pour me suborner ma Fille.\n",
"\n",
" VALÈRE.\n",
"Qui songe à votre argent, dont vous me faites un galimatias ?\n",
"\n",
" HARPAGON.\n",
"Oui, ils se sont donné l'un et l'autre une Promesse de mariage. Cet affront vous regarde, Seigneur Anselme ; et c'est vous qui devez vous rendre partie contre lui, et faire toutes les poursuites de la Justice, pour vous venger de son insolence.\n",
"______________________________________________________________________________________________________________________\n",
"```\n",
"\n",
"Ici la première réplique d'Harpagon n'est pas adressée à Valère mais à Anselme, il lui répond.\n",
"\n",
"\n",
"#### Extrait 3\n",
"\n",
"Dans la scène 2 de l'acte 5:\n",
"```\n",
"______________________________________________________________________________________________________________________\n",
" MAÎTRE JACQUES, *à part*.\n",
"Voici justement ce qu'il me faut pour me venger de notre Intendant : depuis qu'il est entré céans, il est le favori, on n'écoute que ses conseils ; et j'ai aussi sur le cœur les coups de bâton de tantôt.\n",
"______________________________________________________________________________________________________________________\n",
"```\n",
"Maître Jacques se parle ici à lui-même.\n",
"\n",
"#### Bilan\n",
"\n",
"Afin d'avoir une graphique exact des échanges, il faudrait donc une analyse du texte bien plus poussée et intelligente que celle mise en place. Néanmoins, cette approche permet d'avoir une bonne approximation des échanges entre les personnages.\\\n",
"Partons donc du tableau de données produites afin de générer le graphe des échanges entre personnages même si l'on sait qu'il ne sera qu'approximatif. "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Création du graphe des échanges entre personnages"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Resources:\n",
"page officielle de la docuementation de networkx sur les types de graphes implémentés [lien](https://networkx.org/documentation/stable/reference/classes/index.html)\\\n",
"--> pour notre besoin, il nous faudra utiliser les graphes `MultiDiGraph`\n",
"\n",
"lien vers le tutorial de la bibliothqe networkx\\\n",
"[tutorial_networkx](https://networkx.org/documentation/stable/tutorial.html)\n",
"\n",
"lien stack overflow vers un code de customisation de graphes de la bibliothèque python networkx\\\n",
"[customisation_graphe](https://stackoverflow.com/questions/25639169/networkx-change-color-width-according-to-edge-attributes-inconsistent-result)\n",
"\n",
"lien github vers un morceau de code ajoutant de la couleur et le réglage de l'épaisseur des arêtes sur un graphe\\\n",
"[couleur_epaisseur_arêtes_graphe](https://gist.github.com/AruniRC/2c53fe7680eeb578593ec816bbfb1653)\n",
"\n",
"En première étape, il va nous falloir construire la matrice d'adjacence du graphe des échanges entre personnages afin d'instancier/créer l'objet graphe voulu de la bibliothèque networkx. La matrice d'adjacence sera un dataframe pandas."
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.6.4"
}
},
"nbformat": 4,
"nbformat_minor": 2
}