{ "cells": [ { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "" }, "tags": [] }, "source": [ "# Analyse des dialogues dans l'Avare de Molière" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "" }, "tags": [] }, "source": [ "## Choix du fichier source\n", "\n", "*L'Avare* de Molière est disponible dans plusieurs formats différents. \n", "Cependant, tous ne se prêtent pas à une analyse sémantique d'une pièce de théâtre. \n", "Les formats reposant sur du texte brut (tels que Markdown ou iramuteq, et par extension, les fichiers ne contenant que les prises de parole) compliquent le triage des [didascalies](https://fr.wikipedia.org/wiki/Didascalie_(théâtre)) et autres blocs de texte insérés dans les scènes, et ne relevant pas directement du dialogue. \n", "Notre choix devra donc se porter sur un format plus structuré.\n", "Nous pourrions tenter l'analyse des fichiers epub ou kindle, mais ce sont des formats destinés à la présentation, ce qui rendrait leur analyse inutilement complexe et coûteuse, alors que de meilleurs formats sont disponibles.\n", "\n", "Les formats de fichier constituant de meilleurs candidats pour une analyse sémantique sont basés sur XML, qui permet la structuration du contenu : TEI (conçu par le *Text Encoding Initiative Consortium*), TXM (co-développé par l'École normale supérieure de Lyon et l'université de Franche-Comté), et HTML (le langage de balisage du web). \n", "\n", "Ces trois formats sont basés sur XML, et peuvent donc théoriquement être exploités avec une même API ([XPath](https://fr.wikipedia.org/wiki/XPath)), sans nécessiter de bibliothèque tierce. \n", "\n", "HTML présente toutefois des avantages considérables : son exploitation par, au minimum, quelques centaines de millions de sites web à travers le monde, et sa gouvernance par un consortium d'entreprises comme Apple, Google ou Mozilla outre-Atlantique, ou encore l'Inria en France. \n", "C'est le format qui a créé internet, et il est réutilisé dans des contextes très différents.\n", "De plus, en tant que développeur web depuis 30 ans, l'auteur de la présente analyse ne cache pas son intérêt particulier pour ce format, avec lequel il est bien plus familier qu'avec les autres.\n", "\n", "Nous poursuivrons donc cette étude avec le fichier `moliere_avare.html` [mis à disposition](http://dramacode.github.io/html/moliere_avare.html) par [dramacode](https://dramacode.github.io)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Ouverture du fichier" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Commençons par regrouper les importations, afin d'en avoir une vue d'ensemble." ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "slideshow": { "slide_type": "" }, "tags": [] }, "outputs": [], "source": [ "# Parseur XML, requêtes XPath\n", "import xml.etree.ElementTree as ET\n", "\n", "# Analyse\n", "import pandas as pd\n", "\n", "# Utile pour la gestion des caractères accentués\n", "import locale\n", "\n", "# Nous permet de combiner deux listes de longueur indéterminée\n", "from itertools import zip_longest\n", "\n", "# Utilisation d'expressions régulières (regex)\n", "import re\n", "\n", "# Traçage de graphiques\n", "import matplotlib.pyplot as plt\n", "\n", "# Permet de définir et d'afficher la colormap des personnages\n", "from itertools import cycle\n", "import matplotlib.patches as mpatches\n", "\n", "# Utiles aux calculs effectués pour les graphiques\n", "import math\n", "import numpy as np\n", "\n", "# Dépendances pour le graphe final\n", "from pathlib import Path\n", "from jinja2 import Environment, FileSystemLoader\n", "\n", "# Pose un certain nombre de problèmes pour l'exportation,\n", "# en raison de sa nature dynamique (et écrit en javascript)\n", "import pyvis\n", "from pyvis.network import Network\n", "import matplotlib.colors as mcolors\n", "from IPython.display import HTML" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "# La définition de la locale nous permettra de gérer correctement les majuscules\n", "# accentuées\n", "locale.setlocale(locale.LC_COLLATE, \"fr_FR.UTF-8\") # ou \"fr_FR.UTF-8\", \"fr_FR\" selon le système\n", "\n", "ns = {\"x\": \"http://www.w3.org/1999/xhtml\"}\n", "root = ET.parse(\"moliere_avare.html\").getroot()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Outils préliminaires\n", "\n", "Nous travaillons sur une pièce de théâtre, par définition divisée en actes et en scènes.\n", "Nous allons donc nous créer quelques outils pour accéder facilement à ces éléments structurés, que nous complèterons de diverses fonctions utilisées à plusieurs reprises dans notre étude." ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "# Nettoyage des titres\n", "def clean_title(el, tag):\n", " return \"\".join(el.find(tag, ns).itertext()).replace(\"§\", \"\").strip()\n", "\n", "# Actes avec ordre explicite\n", "def list_acts():\n", " acts = []\n", "\n", " for idx, act in enumerate(root.findall(\".//x:section[@class='div1 act level2']\", ns)):\n", " acts.append({\n", " \"id\": act.get(\"id\"),\n", " \"title\": clean_title(act, \"x:h2\"),\n", " \"node\": act,\n", " \"order\": idx,\n", " })\n", "\n", " return acts\n", "\n", "# Scènes d’un acte donné, avec ordre explicite\n", "def list_scenes(act=None, act_id=None):\n", " if act is None:\n", " if act_id is None:\n", " raise ValueError(\"Un élément `act` ou un identifiant doit être spécifié\")\n", "\n", " act = root.find(f\".//x:section[@class='div1 act level2'][@id='{act_id}']\", ns)\n", "\n", " if act is None:\n", " raise ValueError(f\"Acte introuvable: {act_id}\")\n", "\n", " scenes = []\n", "\n", " for idx, scene in enumerate(act.findall(\"x:section[@class='div2 scene level3']\", ns)):\n", " scenes.append({\n", " \"id\": scene.get(\"id\"),\n", " \"title\": clean_title(scene, \"x:h3\"),\n", " \"node\": scene,\n", " \"order\": idx,\n", " })\n", "\n", " return scenes\n", "\n", "# On compacte les espaces pour calquer le comptage sur l'OBVIL\n", "# Supprime les balises de l'élément HTML soumis.\n", "# Cela permet de ne conserver que les noms de personnages extraits des blocs de dialogue,\n", "# sans les didascalies.\n", "def text_without_i(el):\n", " parts = []\n", "\n", " if el.tag != f\"{{{ns['x']}}}i\" and el.text and el.text.strip():\n", " parts.append(el.text.strip())\n", "\n", " for child in el:\n", " if child.tag != f\"{{{ns['x']}}}i\":\n", " parts.extend(text_without_i(child))\n", "\n", " # on garde toujours le texte suivant, même si le noeud enfant est une balise \n", " if child.tail and child.tail.strip():\n", " parts.append(child.tail.strip())\n", "\n", " return parts\n", "\n", "# Formate le nom d'un acteur extrait d'un dialogue\n", "def speaker_name(sp):\n", " name = \" \".join(text_without_i(sp)).strip()\n", "\n", " # nettoyage simple de la ponctuation finale\n", " name = name.rstrip(\",;:\").strip()\n", "\n", " return name\n", "\n", "# Résolution d'un nom d'acteur à partir de notre table de correspondance\n", "alias_index = {}\n", "def resolve_name(name):\n", " return alias_index.get(name, name)\n", "\n", "# Extrait le texte brut d'un dialogue soumis sous la forme d'un élément HTML\n", "def speech_text(sp):\n", " parts = []\n", "\n", " for p in sp.findall(\".//x:p[@class='p autofirst']\", ns):\n", " parts.extend(text_without_i(p))\n", "\n", " raw = \" \".join(parts)\n", " return \" \".join(raw.split()).strip()\n", "\n", "# Compte le nombre de mots d'un texte brut.\n", "# On utilise ici une regex simple dédiée à cet usage.\n", "def word_count(txt):\n", " return len(re.findall(r\"\\b\\w+\\b\", txt, flags=re.UNICODE))\n", "\n", "# Conversion d'un texte en nombre de lignes (60 caractères par ligne)\n", "def line_count(txt, line_length=60):\n", " return len(txt) / line_length if txt else 0\n", "\n", "# Retourne l'acteur associé à une réplique (
)\n", "def speech_actor(sp):\n", " speaker_el = sp.find(\"x:p[@class='speaker']\", ns)\n", "\n", " if speaker_el is None:\n", " return \"\"\n", "\n", " return resolve_name(speaker_name(speaker_el))\n", "\n", "# Liste les répliques d'une scène (par noeud ou identifiant) avec texte et nombre de mots\n", "def scene_speeches(scene=None, scene_id=None):\n", " if scene is None:\n", " if scene_id is None:\n", " raise ValueError(\"Un élément `scene` ou un identifiant doit être spécifié\")\n", "\n", " scene = root.find(f\".//x:section[@class='div2 scene level3'][@id='{scene_id}']\", ns)\n", "\n", " if scene is None:\n", " raise ValueError(f\"Scène introuvable: {scene_id}\")\n", "\n", " speeches = []\n", "\n", " for sp_div in scene.findall(\".//x:div[@class='sp']\", ns):\n", " speaker = speech_actor(sp_div)\n", "\n", " if not speaker:\n", " continue\n", "\n", " txt = speech_text(sp_div)\n", "\n", " speeches.append({\n", " \"speaker\": speaker,\n", " \"text\": txt,\n", " \"word_count\": word_count(txt),\n", " \"node\": sp_div,\n", " })\n", "\n", " return speeches\n", "\n", "# Création d'une colormap associant une couleur à un personnage\n", "def create_actors_colormap(personnages):\n", " # Définition d'une palette de couleurs pour les personnages\n", " palette = cycle(plt.cm.tab20.colors)\n", " color_map = {}\n", "\n", " for p in personnages:\n", " color_map[p] = next(palette)\n", "\n", " return color_map" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Vérifions que nous obtenons bien la liste des actes et des scènes :" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Acte I - Scène I01\n", "Acte I - Scène I02\n", "Acte I - Scène I03\n", "Acte I - Scène I04\n", "Acte I - Scène I05\n", "Acte II - Scène II01\n", "Acte II - Scène II02\n", "Acte II - Scène II03\n", "Acte II - Scène II04\n", "Acte II - Scène II05\n", "Acte III - Scène III01\n", "Acte III - Scène III02\n", "Acte III - Scène III03\n", "Acte III - Scène III04\n", "Acte III - Scène III05\n", "Acte III - Scène III06\n", "Acte III - Scène III07\n", "Acte III - Scène III08\n", "Acte III - Scène III09\n", "Acte IV - Scène IV01\n", "Acte IV - Scène IV02\n", "Acte IV - Scène IV03\n", "Acte IV - Scène IV04\n", "Acte IV - Scène IV05\n", "Acte IV - Scène IV06\n", "Acte IV - Scène IV07\n", "Acte V - Scène V01\n", "Acte V - Scène V02\n", "Acte V - Scène V03\n", "Acte V - Scène V04\n", "Acte V - Scène V05\n", "Acte V - Scène V06\n" ] } ], "source": [ "for act in list_acts():\n", " for scene in list_scenes(act=act[\"node\"]):\n", " print (\"Acte \" + act[\"id\"] + \" - Scène \" + scene[\"id\"])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Obtention de la liste des acteurs" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "La requête xpath suivante permet d'extraire la liste des acteurs donnée au début du fichier, autrement appelée [_dramatis personae_](https://fr.wikipedia.org/wiki/Dramatis_personæ_(théâtre))." ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
PersonnageDescription
0HarpagonPère de Cléante et d'Élise, et Amoureux de Mar...
1CléanteFils d'Harpagon, Amant de Mariane.
2ÉliseFille d'Harpagon, Amante de Valère.
3ValèreFils d'Anselme, et Amant d'Élise.
4MarianeAmante de Cléante, et aimée d'Harpagon.
5AnselmePère de Valère et de Mariane.
6FrosineFemme d'Intrigue.
7Maitre SimonCourtier.
8Maitre JacquesCuisinier et Cocher d'Harpagon.
9La FlècheValet de Cléante.
10Dame ClaudeServante d'Harpagon.
11Brindavoinelaquais d'Harpagon.
12La Merluchelaquais d'Harpagon.
13Le commissaireet son clerc.
\n", "
" ], "text/plain": [ " Personnage Description\n", "0 Harpagon Père de Cléante et d'Élise, et Amoureux de Mar...\n", "1 Cléante Fils d'Harpagon, Amant de Mariane.\n", "2 Élise Fille d'Harpagon, Amante de Valère.\n", "3 Valère Fils d'Anselme, et Amant d'Élise.\n", "4 Mariane Amante de Cléante, et aimée d'Harpagon.\n", "5 Anselme Père de Valère et de Mariane.\n", "6 Frosine Femme d'Intrigue.\n", "7 Maitre Simon Courtier.\n", "8 Maitre Jacques Cuisinier et Cocher d'Harpagon.\n", "9 La Flèche Valet de Cléante.\n", "10 Dame Claude Servante d'Harpagon.\n", "11 Brindavoine laquais d'Harpagon.\n", "12 La Merluche laquais d'Harpagon.\n", "13 Le commissaire et son clerc." ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Retourne une liste formatée des personnages définis dans la dramatis personae.\n", "# Prend en compte les majuscules accentuées.\n", "def dramatis_personae():\n", " rows = []\n", "\n", " # Requête xpath permettant d'obtenir la liste des balises
  • listant les acteurs\n", " for li in root.findall(\".//x:div[@id='castList']//x:li\", ns):\n", " # L'acteur se trouve dans une balise \n", " span = li.find(\"x:span\", ns)\n", " name = span.text.strip()\n", "\n", " # description = texte qui suit le dans la même balise
  • \n", " desc = (span.tail or \"\").strip()\n", "\n", " if desc.startswith(\",\"):\n", " desc = desc[1:].strip()\n", "\n", " rows.append({\"Personnage\": name, \"Description\": desc})\n", "\n", " return pd.DataFrame(rows)\n", "\n", "dramatis_personae = dramatis_personae()\n", "\n", "# Affichage de la liste\n", "dramatis_personae" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nous pouvons déjà constater que le commissaire et son clerc sont considérés comme un acteur unique.\n", "Nous verrons plus tard si cette information est importante (par exemple, si le clerc s'exprime en son nom propre)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nous allons confronter cette liste avec la liste des protagonistes mentionnés en introduction de chaque scène, puis avec ceux qui interviennent \"réellement\", c'est-à-dire ceux qui ont une ligne de dialogue.\n", "Cette étape devra nous permettre d'identifier des différences d'orthographe subtiles qu'il sera utile de gérer." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Noms des personnages par scène" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nous allons itérer sur chaque acte, puis chaque scène, afin de consulter la liste des protagonistes. \n", "N'oublions pas que ces listes sont facultatives, et ne désignent pas les acteurs dotés d'une réplique.\n", "Néanmoins, nous pourrions identifier des éléments potentiellement intéressants, tels que des orthographes différentes ou une anomalie quelconque." ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "slideshow": { "slide_type": "" }, "tags": [] }, "outputs": [ { "data": { "text/html": [ "
    \n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
    ActeScèneProtagonistes
    0Acte PremierScène Première[Valère, Élise]
    1Acte PremierScène II[Cléante, Élise]
    2Acte PremierScène III[Harpagon, La Flèche]
    3Acte PremierScène IV[Élise, Cléante, Harpagon]
    4Acte PremierScène V[Valère, Harpagon, Élise]
    5Acte IIScène Première[Cléante, La Flèche]
    6Acte IIScène II[Maître Simon, Harpagon, Cléante, La Flèche]
    7Acte IIScène III[Frosine, Harpagon]
    8Acte IIScène IV[La Flèche, Frosine]
    9Acte IIScène V[Harpagon, Frosine]
    10Acte IIIScène Première[Harpagon, Cléante, Élise, Valère, Dame Claude...
    11Acte IIIScène II[Maître Jacques, Valère]
    12Acte IIIScène III[Frosine, Mariane, Maître Jacques]
    13Acte IIIScène IV[Mariane, Frosine]
    14Acte IIIScène V[Harpagon, Frosine, Mariane]
    15Acte IIIScène VI[Élise, Harpagon, Mariane, Frosine]
    16Acte IIIScène VII[Cléante, Harpagon, Élise, Mariane, Frosine]
    17Acte IIIScène VIII[Harpagon, Mariane, Frosine, Cléante, Brindavo...
    18Acte IIIScène IX[Harpagon, Mariane, Cléante, Élise, Frosine, L...
    19Acte IVScène Première[Cléante, Mariane, Élise, Frosine]
    20Acte IVScène II[Harpagon, Cléante, Mariane, Élise, Frosine]
    21Acte IVScène III[Harpagon, Cléante]
    22Acte IVScène IV[Maître Jacques, Harpagon, Cléante]
    23Acte IVScène V[Cléante, Harpagon]
    24Acte IVScène VI[La Flèche, Cléante]
    25Acte IVScène VII[]
    26Acte VScène Première[Harpagon, Le Commissaire, son Clerc]
    27Acte VScène II[Maître Jacques, Harpagon, Le Commissaire, son...
    28Acte VScène III[Valère, Harpagon, le Commissaire, son Clerc, ...
    29Acte VScène IV[Élise, Mariane, Frosine, Harpagon, Valère, Ma...
    30Acte VScène V[Anselme, Harpagon, Élise, Mariane, Frosine, V...
    31Acte VScène VI[Cléante, Valère, Mariane, Élise, Frosine, Har...
    \n", "
    " ], "text/plain": [ " Acte Scène \\\n", "0 Acte Premier Scène Première \n", "1 Acte Premier Scène II \n", "2 Acte Premier Scène III \n", "3 Acte Premier Scène IV \n", "4 Acte Premier Scène V \n", "5 Acte II Scène Première \n", "6 Acte II Scène II \n", "7 Acte II Scène III \n", "8 Acte II Scène IV \n", "9 Acte II Scène V \n", "10 Acte III Scène Première \n", "11 Acte III Scène II \n", "12 Acte III Scène III \n", "13 Acte III Scène IV \n", "14 Acte III Scène V \n", "15 Acte III Scène VI \n", "16 Acte III Scène VII \n", "17 Acte III Scène VIII \n", "18 Acte III Scène IX \n", "19 Acte IV Scène Première \n", "20 Acte IV Scène II \n", "21 Acte IV Scène III \n", "22 Acte IV Scène IV \n", "23 Acte IV Scène V \n", "24 Acte IV Scène VI \n", "25 Acte IV Scène VII \n", "26 Acte V Scène Première \n", "27 Acte V Scène II \n", "28 Acte V Scène III \n", "29 Acte V Scène IV \n", "30 Acte V Scène V \n", "31 Acte V Scène VI \n", "\n", " Protagonistes \n", "0 [Valère, Élise] \n", "1 [Cléante, Élise] \n", "2 [Harpagon, La Flèche] \n", "3 [Élise, Cléante, Harpagon] \n", "4 [Valère, Harpagon, Élise] \n", "5 [Cléante, La Flèche] \n", "6 [Maître Simon, Harpagon, Cléante, La Flèche] \n", "7 [Frosine, Harpagon] \n", "8 [La Flèche, Frosine] \n", "9 [Harpagon, Frosine] \n", "10 [Harpagon, Cléante, Élise, Valère, Dame Claude... \n", "11 [Maître Jacques, Valère] \n", "12 [Frosine, Mariane, Maître Jacques] \n", "13 [Mariane, Frosine] \n", "14 [Harpagon, Frosine, Mariane] \n", "15 [Élise, Harpagon, Mariane, Frosine] \n", "16 [Cléante, Harpagon, Élise, Mariane, Frosine] \n", "17 [Harpagon, Mariane, Frosine, Cléante, Brindavo... \n", "18 [Harpagon, Mariane, Cléante, Élise, Frosine, L... \n", "19 [Cléante, Mariane, Élise, Frosine] \n", "20 [Harpagon, Cléante, Mariane, Élise, Frosine] \n", "21 [Harpagon, Cléante] \n", "22 [Maître Jacques, Harpagon, Cléante] \n", "23 [Cléante, Harpagon] \n", "24 [La Flèche, Cléante] \n", "25 [] \n", "26 [Harpagon, Le Commissaire, son Clerc] \n", "27 [Maître Jacques, Harpagon, Le Commissaire, son... \n", "28 [Valère, Harpagon, le Commissaire, son Clerc, ... \n", "29 [Élise, Mariane, Frosine, Harpagon, Valère, Ma... \n", "30 [Anselme, Harpagon, Élise, Mariane, Frosine, V... \n", "31 [Cléante, Valère, Mariane, Élise, Frosine, Har... " ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "def list_scene_protagonists():\n", " rows = []\n", "\n", " for act in list_acts():\n", " for scene in list_scenes(act=act[\"node\"]):\n", " stage = scene[\"node\"].find(\"x:div[@class='stage stage']\", ns)\n", "\n", " # Si nous trouvons un noeud xpath pour cette requête, c'est un personnage\n", " if stage is not None:\n", " raw = \"\".join(stage.itertext()).strip()\n", " people = [p.strip() for p in raw.split(\",\") if p.strip()]\n", " else:\n", " people = []\n", "\n", " rows.append({\n", " \"Acte\": act[\"title\"],\n", " \"Scène\": scene[\"title\"],\n", " \"Protagonistes\": people,\n", " })\n", "\n", " return pd.DataFrame(rows)\n", "\n", "df_scenes = list_scene_protagonists()\n", "df_scenes" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "" }, "tags": [] }, "source": [ "Nous voyons ici que la scène VII de l'acte IV ne contient aucun protagoniste déclaré dans la liste attenante[^1], mais nous allons de toute façon la compléter par l'extraction individuelle des interventions concrètes de chaque acteur.\n", "\n", "[^1]: Cette liste n'est pas obligatoire dans le contexte théâtral. Ici, on peut supposer que son absence est dûe à un monologue par exemple." ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "slideshow": { "slide_type": "" }, "tags": [] }, "outputs": [ { "data": { "text/html": [ "
    \n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
    ActeScèneIntervenants
    0Acte PremierScène Première[Valère, Élise]
    1Acte PremierScène II[Cléante, Élise]
    2Acte PremierScène III[Harpagon, La Flèche]
    3Acte PremierScène IV[Harpagon, Cléante, Élise]
    4Acte PremierScène V[Harpagon, Valère, Élise]
    5Acte IIScène Première[Cléante, La Flèche]
    6Acte IIScène II[Maître simon, Harpagon, La Flèche, Cléante]
    7Acte IIScène III[Frosine, Harpagon]
    8Acte IIScène IV[La Flèche, Frosine]
    9Acte IIScène V[Harpagon, Frosine]
    10Acte IIIScène Première[Harpagon, Maître Jacques, La Merluche, Brinda...
    11Acte IIIScène II[Valère, Maître Jacques]
    12Acte IIIScène III[Frosine, Maître Jacques]
    13Acte IIIScène IV[Mariane, Frosine]
    14Acte IIIScène V[Harpagon, Frosine]
    15Acte IIIScène VI[Mariane, Élise, Harpagon, Frosine]
    16Acte IIIScène VII[Cléante, Mariane, Harpagon, Frosine, Valère]
    17Acte IIIScène VIII[Brindavoine, Harpagon]
    18Acte IIIScène IX[La Merluche, Harpagon, Cléante, Valère]
    19Acte IVScène Première[Cléante, Élise, Mariane, Frosine]
    20Acte IVScène II[Harpagon, Élise, Cléante]
    21Acte IVScène III[Harpagon, Cléante]
    22Acte IVScène IV[Maître Jacques, Cléante, Harpagon]
    23Acte IVScène V[Cléante, Harpagon]
    24Acte IVScène VI[La Flèche, Cléante]
    25Acte IVScène VII[Harpagon]
    26Acte VScène Première[Le Commissaire, Harpagon]
    27Acte VScène II[Maître Jacques, Harpagon, Le Commissaire]
    28Acte VScène III[Harpagon, Valère, Maître Jacques]
    29Acte VScène IV[Harpagon, Valère, Élise, Maître Jacques, Fros...
    30Acte VScène V[Anselme, Harpagon, Valère, Mariane, Maître Ja...
    31Acte VScène VI[Cléante, Harpagon, Mariane, Anselme, Le Commi...
    \n", "
    " ], "text/plain": [ " Acte Scène \\\n", "0 Acte Premier Scène Première \n", "1 Acte Premier Scène II \n", "2 Acte Premier Scène III \n", "3 Acte Premier Scène IV \n", "4 Acte Premier Scène V \n", "5 Acte II Scène Première \n", "6 Acte II Scène II \n", "7 Acte II Scène III \n", "8 Acte II Scène IV \n", "9 Acte II Scène V \n", "10 Acte III Scène Première \n", "11 Acte III Scène II \n", "12 Acte III Scène III \n", "13 Acte III Scène IV \n", "14 Acte III Scène V \n", "15 Acte III Scène VI \n", "16 Acte III Scène VII \n", "17 Acte III Scène VIII \n", "18 Acte III Scène IX \n", "19 Acte IV Scène Première \n", "20 Acte IV Scène II \n", "21 Acte IV Scène III \n", "22 Acte IV Scène IV \n", "23 Acte IV Scène V \n", "24 Acte IV Scène VI \n", "25 Acte IV Scène VII \n", "26 Acte V Scène Première \n", "27 Acte V Scène II \n", "28 Acte V Scène III \n", "29 Acte V Scène IV \n", "30 Acte V Scène V \n", "31 Acte V Scène VI \n", "\n", " Intervenants \n", "0 [Valère, Élise] \n", "1 [Cléante, Élise] \n", "2 [Harpagon, La Flèche] \n", "3 [Harpagon, Cléante, Élise] \n", "4 [Harpagon, Valère, Élise] \n", "5 [Cléante, La Flèche] \n", "6 [Maître simon, Harpagon, La Flèche, Cléante] \n", "7 [Frosine, Harpagon] \n", "8 [La Flèche, Frosine] \n", "9 [Harpagon, Frosine] \n", "10 [Harpagon, Maître Jacques, La Merluche, Brinda... \n", "11 [Valère, Maître Jacques] \n", "12 [Frosine, Maître Jacques] \n", "13 [Mariane, Frosine] \n", "14 [Harpagon, Frosine] \n", "15 [Mariane, Élise, Harpagon, Frosine] \n", "16 [Cléante, Mariane, Harpagon, Frosine, Valère] \n", "17 [Brindavoine, Harpagon] \n", "18 [La Merluche, Harpagon, Cléante, Valère] \n", "19 [Cléante, Élise, Mariane, Frosine] \n", "20 [Harpagon, Élise, Cléante] \n", "21 [Harpagon, Cléante] \n", "22 [Maître Jacques, Cléante, Harpagon] \n", "23 [Cléante, Harpagon] \n", "24 [La Flèche, Cléante] \n", "25 [Harpagon] \n", "26 [Le Commissaire, Harpagon] \n", "27 [Maître Jacques, Harpagon, Le Commissaire] \n", "28 [Harpagon, Valère, Maître Jacques] \n", "29 [Harpagon, Valère, Élise, Maître Jacques, Fros... \n", "30 [Anselme, Harpagon, Valère, Mariane, Maître Ja... \n", "31 [Cléante, Harpagon, Mariane, Anselme, Le Commi... " ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "def list_scene_speakers():\n", " rows = []\n", "\n", " for act in list_acts():\n", " for scene in list_scenes(act=act[\"node\"]):\n", " speakers, seen = [], set()\n", "\n", " for sp in scene[\"node\"].findall(\".//x:p[@class='speaker']\", ns):\n", " name = speaker_name(sp)\n", "\n", " # On évite d'ajouter à la liste un acteur que l'on a déjà vu passer\n", " if name and name not in seen:\n", " seen.add(name)\n", " speakers.append(name)\n", "\n", " rows.append({\n", " \"Acte\": act[\"title\"],\n", " \"Scène\": scene[\"title\"],\n", " \"Intervenants\": speakers,\n", " })\n", "\n", " return pd.DataFrame(rows)\n", "\n", "df_speakers = list_scene_speakers()\n", "df_speakers" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
    \n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
    Intervenant
    0Anselme
    1Brindavoine
    2Cléante
    3Élise
    4Frosine
    5Harpagon
    6La Flèche
    7La Merluche
    8Le Commissaire
    9Maître Jacques
    10Maître simon
    11Mariane
    12Valère
    \n", "
    " ], "text/plain": [ " Intervenant\n", "0 Anselme\n", "1 Brindavoine\n", "2 Cléante\n", "3 Élise\n", "4 Frosine\n", "5 Harpagon\n", "6 La Flèche\n", "7 La Merluche\n", "8 Le Commissaire\n", "9 Maître Jacques\n", "10 Maître simon\n", "11 Mariane\n", "12 Valère" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Tri localisé pour les intervenants et déduplication\n", "intervenants_uniques = sorted(\n", " {name for names in df_speakers[\"Intervenants\"] for name in names},\n", " key=locale.strxfrm\n", ")\n", "\n", "intervenants_df = pd.DataFrame({\"Intervenant\": intervenants_uniques})\n", "intervenants_df" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "On peut désormais identifier les différences avec la _dramatis personae_, afin de vérifier l'uniformité des orthographes.\n", "Par corollaire, on pourra, en même temps, identifier les acteurs sans réplique." ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
    \n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
    Personnage (en-tête)Intervenant (répliques)
    0Dame ClaudeLe Commissaire
    1Le commissaireMaître Jacques
    2Maitre JacquesMaître simon
    3Maitre SimonNone
    \n", "
    " ], "text/plain": [ " Personnage (en-tête) Intervenant (répliques)\n", "0 Dame Claude Le Commissaire\n", "1 Le commissaire Maître Jacques\n", "2 Maitre Jacques Maître simon\n", "3 Maitre Simon None" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "acteurs_set = set(dramatis_personae[\"Personnage\"])\n", "intervenants_set = set(intervenants_uniques)\n", "\n", "# On écarte les noms exactement identiques\n", "communs = acteurs_set & intervenants_set\n", "acteurs_only = sorted(acteurs_set - communs, key=locale.strxfrm)\n", "intervenants_only = sorted(intervenants_set - communs, key=locale.strxfrm)\n", "\n", "df_diff = pd.DataFrame(\n", " list(zip_longest(acteurs_only, intervenants_only)),\n", " columns=[\"Personnage (en-tête)\", \"Intervenant (répliques)\"]\n", ")\n", "\n", "df_diff" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`None` indique simplement un remplissage par `zip_longest` pour que les deux listes aient la même taille." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "On identifie bien deux orthographes différentes pour trois acteurs. La liste des personnages initiale omet les accents circonflexes de \"Maître\", \"commissaire\" est écrit en minuscule, et \"Simon\" a perdu sa majuscule." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Enfin, il est clair que Dame Claude n'a aucune réplique (puisqu'on ne la retrouve pas dans la liste des intervenants)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "On peut donc créer une table de correspondance, associant un nom correctement orthographié avec les variantes que l'on peut trouver dans le texte initial. Nous utiliserons comme référence la graphie française correcte de \"maître\", et \"Commissaire\" avec une majuscule." ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [], "source": [ "alias_map = {\n", " \"Maître Jacques\": {\"Maître Jacques\", \"Maitre Jacques\"},\n", " \"Maître Simon\": {\"Maitre Simon\", \"Maître simon\"},\n", " \"Le Commissaire\": {\"Le Commissaire\", \"Le commissaire\"},\n", "}\n", "\n", "alias_index = {alias: canon for canon, aliases in alias_map.items() for alias in aliases}" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Quantité de parole par acteur\n", "\n", "Maintenant que nous disposons d'une liste uniformisée des noms des différents acteurs, nous pouvons analyser l'ensemble de la pièce et quantifier le texte prononcé par chaque acteur." ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
    \n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
    ActeScènePersonnageMots
    0Acte IIScène IICléante127
    1Acte IIScène IIHarpagon171
    2Acte IIScène IILa Flèche12
    3Acte IIScène IIMaître Simon197
    4Acte IIScène IIIFrosine1
    ...............
    90Acte VScène VICléante130
    91Acte VScène VIHarpagon89
    92Acte VScène VILe Commissaire26
    93Acte VScène VIMariane36
    94Acte VScène VIMaître Jacques23
    \n", "

    95 rows × 4 columns

    \n", "
    " ], "text/plain": [ " Acte Scène Personnage Mots\n", "0 Acte II Scène II Cléante 127\n", "1 Acte II Scène II Harpagon 171\n", "2 Acte II Scène II La Flèche 12\n", "3 Acte II Scène II Maître Simon 197\n", "4 Acte II Scène III Frosine 1\n", ".. ... ... ... ...\n", "90 Acte V Scène VI Cléante 130\n", "91 Acte V Scène VI Harpagon 89\n", "92 Acte V Scène VI Le Commissaire 26\n", "93 Acte V Scène VI Mariane 36\n", "94 Acte V Scène VI Maître Jacques 23\n", "\n", "[95 rows x 4 columns]" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# TODO : Est-ce que cette fonction est redondante avec\n", "# les fonctions utilitaires créées précédemment ?\n", "def count_words_by_actor():\n", " rows = []\n", "\n", " for act in list_acts():\n", " for scene in list_scenes(act=act[\"node\"]):\n", " for order, speech in enumerate(scene_speeches(scene=scene[\"node\"])):\n", " txt = speech[\"text\"]\n", " rows.append({\n", " \"Acte\": act[\"title\"],\n", " \"Scène\": scene[\"title\"],\n", " \"Ordre\": order,\n", " \"Personnage\": speech[\"speaker\"],\n", " \"Texte\": txt,\n", " \"Mots\": speech[\"word_count\"],\n", " \"Lignes\": line_count(txt),\n", " })\n", "\n", " return pd.DataFrame(rows)\n", "\n", "df_speeches = count_words_by_actor()\n", "df_counts = df_speeches.groupby([\"Acte\", \"Scène\", \"Personnage\"], as_index=False)[\"Mots\"].sum()\n", "df_counts" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "" }, "tags": [] }, "source": [ "Le comptage semble s'effectuer correctement, mais un tel tableau n'est pas digeste. \n", "On peut noter par exemple que \"Acte Premier\" est dilué au centre du tableau, en raison de la clause `groupby`, qui trie implicitement le tableau, et ignore donc notre tri initial.\n", "Nous pouvons toutefois ignorer ce détail ici, et regrouper par personnage : de cette manière, nous aurons un aperçu global du temps de parole de chacun à travers l'oeuvre." ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Personnage le plus taciturne : Brindavoine (43 mots)\n", "Personnage le plus locace : Harpagon (6132 mots)\n" ] } ], "source": [ "global_df = df_speeches.groupby([\"Personnage\"])[\"Mots\"].sum()\n", "\n", "moins_bavard_nom = global_df.idxmin()\n", "moins_bavard_mots = global_df.min()\n", "\n", "plus_bavard_nom = global_df.idxmax()\n", "plus_bavard_mots = global_df.max()\n", "\n", "print(f\"Personnage le plus taciturne : {moins_bavard_nom} ({moins_bavard_mots} mots)\")\n", "print(f\"Personnage le plus locace : {plus_bavard_nom} ({plus_bavard_mots} mots)\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Notons que nous avons déjà établi que Dame Claude n'avait aucune réplique, et bien que le Commissaire soit accompagné d'un clerc, ce dernier ne parle jamais non plus." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Montrons la proportion de dialogues par personnage à travers un diagramme circulaire :" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
    " ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "n_small = 5\n", "y0, dy = 1.3, 0.05 # Positionnement du bloc des acteurs les moins locaces\n", "x_col = -0.5\n", "\n", "totaux = df_speeches.groupby(\"Personnage\")[\"Mots\"].sum().sort_values(ascending=False)\n", "labels = totaux.index\n", "values = totaux.values\n", "color_map = create_actors_colormap(labels)\n", "colors = [color_map[p] for p in labels]\n", "\n", "fig, ax = plt.subplots(figsize=(7, 7))\n", "wedges, _ = ax.pie(values, colors=colors, startangle=90, counterclock=False, normalize=True)\n", "\n", "small_roles = global_df.sort_values().head(n_small) # les moins bavards, ordre croissant\n", "\n", "# Placement de l'étiquette pour les petits rôles\n", "for i, (name, val) in enumerate(small_roles.items()):\n", " idx = labels.get_loc(name)\n", " w = wedges[idx]\n", "\n", " theta = np.deg2rad((w.theta1 + w.theta2) / 2)\n", " xw, yw = np.cos(theta), np.sin(theta)\n", " xpos, ypos = x_col, y0 - i * dy\n", "\n", " ax.annotate(\n", " f\"{name} ({val})\",\n", " xy=(xw, yw), xytext=(xpos, ypos),\n", " ha=\"right\", va=\"center\", fontsize=9,\n", " arrowprops=dict(\n", " arrowstyle=\"-\",\n", " color=colors[idx],\n", " lw=1,\n", " connectionstyle=\"angle,angleA=0,angleB=90\",\n", " shrinkA=0, shrinkB=0,\n", " ),\n", " )\n", "\n", "# Autres rôles : nom autour + valeur au centre\n", "for idx, name in enumerate(labels):\n", " if name in small_roles.index:\n", " continue\n", "\n", " w = wedges[idx]\n", " theta = np.deg2rad((w.theta1 + w.theta2) / 2)\n", " r_label, r_value = 1.1, 0.7\n", "\n", " ax.text(r_label * np.cos(theta), r_label * np.sin(theta), name, ha=\"center\", va=\"center\", fontsize=9)\n", " ax.text(r_value * np.cos(theta), r_value * np.sin(theta), str(totaux[name]), ha=\"center\", va=\"center\", fontsize=9, color=\"black\")\n", "\n", "ax.set_title(\"Répartition des mots prononcés par personnage\", pad=50)\n", "ax.axis(\"equal\")\n", "plt.tight_layout()\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Statistiques complémentaires\n", "\n", "Inspirées des tableaux de l'OBVIL, nous examinons la place de chaque personnage et les relations directes entre interlocuteurs (une ligne = 60 caractères).\n", "Commençons par la \"Table des rôles\" :" ] }, { "cell_type": "code", "execution_count": 14, "metadata": { "slideshow": { "slide_type": "" }, "tags": [] }, "outputs": [ { "data": { "text/html": [ "
    \n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
    RôleScènesRépl.Répl. moy.PrésenceTexteTexte % prés.Texte × pers.Interlocution
    0[TOUS]32 sc.959 répl.1,8 l.1 769 l. (100 %)1 769 l. (100 %)100 %5 847 l. (100 %)3,3 pers.
    1Harpagon23 sc.354 répl.1,5 l.1 296 l. (73 %)514 l. (29 %)40 %4 729 l. (81 %)3,7 pers.
    2Cléante14 sc.161 répl.1,8 l.900 l. (51 %)285 l. (16 %)32 %3 486 l. (60 %)3,9 pers.
    3Élise9 sc.51 répl.1,8 l.681 l. (39 %)92 l. (5 %)13 %2 667 l. (46 %)3,9 pers.
    4Valère9 sc.101 répl.2,3 l.695 l. (39 %)232 l. (13 %)33 %3 067 l. (52 %)4,4 pers.
    5Mariane6 sc.31 répl.2,5 l.359 l. (20 %)79 l. (4 %)22 %1 638 l. (28 %)4,6 pers.
    6Anselme2 sc.20 répl.2,3 l.143 l. (8 %)45 l. (3 %)32 %749 l. (13 %)5,3 pers.
    7Frosine10 sc.60 répl.3,3 l.466 l. (26 %)201 l. (11 %)43 %1 465 l. (25 %)3,1 pers.
    8Maître Simon1 sc.5 répl.3,2 l.44 l. (2 %)16 l. (1 %)37 %175 l. (3 %)4,0 pers.
    9Maître Jacques9 sc.85 répl.1,6 l.557 l. (32 %)140 l. (8 %)25 %2 670 l. (46 %)4,8 pers.
    10La Flèche5 sc.66 répl.2,0 l.255 l. (14 %)132 l. (7 %)52 %598 l. (10 %)2,3 pers.
    11Dame Claude0 sc.0 répl.0,0 l.0 l.0 l.0 %0 l. (0 %)0,0 pers.
    12Brindavoine2 sc.3 répl.1,1 l.166 l. (9 %)3 l. (0 %)2 %1 146 l. (20 %)6,9 pers.
    13La Merluche2 sc.5 répl.0,9 l.175 l. (10 %)5 l. (0 %)3 %1 189 l. (20 %)6,8 pers.
    14Le Commissaire3 sc.17 répl.1,5 l.110 l. (6 %)26 l. (1 %)24 %418 l. (7 %)3,8 pers.
    \n", "
    " ], "text/plain": [ " Rôle Scènes Répl. Répl. moy. Présence \\\n", "0 [TOUS] 32 sc. 959 répl. 1,8 l. 1 769 l. (100 %) \n", "1 Harpagon 23 sc. 354 répl. 1,5 l. 1 296 l. (73 %) \n", "2 Cléante 14 sc. 161 répl. 1,8 l. 900 l. (51 %) \n", "3 Élise 9 sc. 51 répl. 1,8 l. 681 l. (39 %) \n", "4 Valère 9 sc. 101 répl. 2,3 l. 695 l. (39 %) \n", "5 Mariane 6 sc. 31 répl. 2,5 l. 359 l. (20 %) \n", "6 Anselme 2 sc. 20 répl. 2,3 l. 143 l. (8 %) \n", "7 Frosine 10 sc. 60 répl. 3,3 l. 466 l. (26 %) \n", "8 Maître Simon 1 sc. 5 répl. 3,2 l. 44 l. (2 %) \n", "9 Maître Jacques 9 sc. 85 répl. 1,6 l. 557 l. (32 %) \n", "10 La Flèche 5 sc. 66 répl. 2,0 l. 255 l. (14 %) \n", "11 Dame Claude 0 sc. 0 répl. 0,0 l. 0 l. \n", "12 Brindavoine 2 sc. 3 répl. 1,1 l. 166 l. (9 %) \n", "13 La Merluche 2 sc. 5 répl. 0,9 l. 175 l. (10 %) \n", "14 Le Commissaire 3 sc. 17 répl. 1,5 l. 110 l. (6 %) \n", "\n", " Texte Texte % prés. Texte × pers. Interlocution \n", "0 1 769 l. (100 %) 100 % 5 847 l. (100 %) 3,3 pers. \n", "1 514 l. (29 %) 40 % 4 729 l. (81 %) 3,7 pers. \n", "2 285 l. (16 %) 32 % 3 486 l. (60 %) 3,9 pers. \n", "3 92 l. (5 %) 13 % 2 667 l. (46 %) 3,9 pers. \n", "4 232 l. (13 %) 33 % 3 067 l. (52 %) 4,4 pers. \n", "5 79 l. (4 %) 22 % 1 638 l. (28 %) 4,6 pers. \n", "6 45 l. (3 %) 32 % 749 l. (13 %) 5,3 pers. \n", "7 201 l. (11 %) 43 % 1 465 l. (25 %) 3,1 pers. \n", "8 16 l. (1 %) 37 % 175 l. (3 %) 4,0 pers. \n", "9 140 l. (8 %) 25 % 2 670 l. (46 %) 4,8 pers. \n", "10 132 l. (7 %) 52 % 598 l. (10 %) 2,3 pers. \n", "11 0 l. 0 % 0 l. (0 %) 0,0 pers. \n", "12 3 l. (0 %) 2 % 1 146 l. (20 %) 6,9 pers. \n", "13 5 l. (0 %) 3 % 1 189 l. (20 %) 6,8 pers. \n", "14 26 l. (1 %) 24 % 418 l. (7 %) 3,8 pers. " ] }, "execution_count": 14, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Agrégats au niveau des scènes\n", "scene_totals = (df_speeches.groupby([\"Acte\", \"Scène\"], as_index=False)\n", " .agg(scene_lines=(\"Lignes\", \"sum\"),\n", " participants=(\"Personnage\", \"nunique\")))\n", "scene_totals[\"textexpers\"] = scene_totals[\"scene_lines\"] * scene_totals[\"participants\"]\n", "scene_totals[\"SceneKey\"] = scene_totals[\"Acte\"] + \" | \" + scene_totals[\"Scène\"]\n", "\n", "total_lines_play = scene_totals[\"scene_lines\"].sum()\n", "textexpers_total = scene_totals[\"textexpers\"].sum()\n", "\n", "# Statistiques par personnage\n", "speech_stats = df_speeches.groupby(\"Personnage\").agg(\n", " repl=(\"Texte\", \"count\"),\n", " text_lines=(\"Lignes\", \"sum\"),\n", ")\n", "\n", "presence = (df_speeches[[\"Acte\", \"Scène\", \"Personnage\"]]\n", " .drop_duplicates()\n", " .merge(scene_totals[[\"Acte\", \"Scène\", \"scene_lines\", \"textexpers\"]],\n", " on=[\"Acte\", \"Scène\"], how=\"left\"))\n", "\n", "presence_stats = presence.groupby(\"Personnage\").agg(\n", " scenes=(\"Scène\", \"count\"),\n", " presence_lines=(\"scene_lines\", \"sum\"),\n", " textexpers=(\"textexpers\", \"sum\"),\n", ")\n", "\n", "roles = speech_stats.join(presence_stats, how=\"outer\").fillna(0)\n", "\n", "# Ajout des rôles muets (ex : Dame Claude) pour qu'ils apparaissent dans le tableau\n", "for name in (resolve_name(p) for p in dramatis_personae[\"Personnage\"]):\n", " if name not in roles.index:\n", " roles.loc[name] = 0\n", "\n", "roles[\"repl_moy\"] = roles[\"text_lines\"] / roles[\"repl\"]\n", "roles[\"presence_pct\"] = roles[\"presence_lines\"] / total_lines_play\n", "roles[\"text_pct\"] = roles[\"text_lines\"] / total_lines_play\n", "roles[\"text_presence_pct\"] = roles[\"text_lines\"] / roles[\"presence_lines\"]\n", "roles[\"textexpers_pct\"] = roles[\"textexpers\"] / textexpers_total\n", "roles[\"interlocution\"] = roles[\"textexpers\"] / roles[\"presence_lines\"]\n", "\n", "roles = roles.replace([np.inf, -np.inf], 0).fillna(0)\n", "\n", "# Ordre basé sur la distribution initiale\n", "role_order = [name for name in (resolve_name(p) for p in dramatis_personae[\"Personnage\"]) if name in roles.index]\n", "role_order += [r for r in roles.index if r not in role_order]\n", "\n", "roles = roles.loc[role_order]\n", "\n", "# Ligne globale\n", "all_row = pd.Series({\n", " \"scenes\": scene_totals.shape[0],\n", " \"repl\": len(df_speeches),\n", " \"repl_moy\": df_speeches[\"Lignes\"].sum() / len(df_speeches),\n", " \"presence_lines\": total_lines_play,\n", " \"presence_pct\": 1.0,\n", " \"text_lines\": df_speeches[\"Lignes\"].sum(),\n", " \"text_pct\": 1.0,\n", " \"text_presence_pct\": df_speeches[\"Lignes\"].sum() / total_lines_play if total_lines_play else 0,\n", " \"textexpers\": textexpers_total,\n", " \"textexpers_pct\": 1.0,\n", " \"interlocution\": textexpers_total / total_lines_play if total_lines_play else 0,\n", "})\n", "\n", "roles = pd.concat([\n", " pd.DataFrame({\"Personnage\": [\"[TOUS]\"]}).set_index(\"Personnage\").assign(**all_row),\n", " roles\n", "])\n", "\n", "roles.index.name = \"Rôle\"\n", "\n", "# Quelques utilitaires spécifiques\n", "\n", "def format_number(value, decimals=0):\n", " fmt = f\"{value:,.{decimals}f}\"\n", " return fmt.replace(\",\", \" \").replace(\".\", \",\")\n", "def format_lines(value, decimals=0):\n", " return f\"{format_number(round(value, decimals), decimals)} l.\"\n", "def format_percent(value, decimals=0):\n", " return f\"{format_number(value * 100, decimals)} %\"\n", "def format_people(value):\n", " return f\"{format_number(value, 1)} pers.\"\n", "\n", "roles_display = roles.reset_index()\n", "roles_display[\"Scènes\"] = roles_display[\"scenes\"].fillna(0).astype(int).astype(str) + \" sc.\"\n", "roles_display[\"Répl.\"] = roles_display[\"repl\"].fillna(0).astype(int).astype(str) + \" répl.\"\n", "roles_display[\"Répl. moy.\"] = roles_display[\"repl_moy\"].apply(lambda v: format_lines(v, 1))\n", "roles_display[\"Présence\"] = roles_display.apply(\n", " lambda r: f\"{format_lines(r['presence_lines'])}\" + (f\" ({format_percent(r['presence_pct'])})\" if r[\"presence_lines\"] else \"\"),\n", " axis=1,\n", ")\n", "roles_display[\"Texte\"] = roles_display.apply(\n", " lambda r: f\"{format_lines(r['text_lines'])}\" + (f\" ({format_percent(r['text_pct'])})\" if r[\"text_lines\"] else \"\"),\n", " axis=1,\n", ")\n", "roles_display[\"Texte % prés.\"] = roles_display[\"text_presence_pct\"].apply(lambda v: format_percent(v, 0))\n", "roles_display[\"Texte × pers.\"] = roles_display.apply(\n", " lambda r: f\"{format_lines(r['textexpers'])} ({format_percent(r['textexpers_pct'])})\",\n", " axis=1,\n", ")\n", "roles_display[\"Interlocution\"] = roles_display[\"interlocution\"].apply(format_people)\n", "\n", "roles_table = roles_display[[\"Rôle\", \"Scènes\", \"Répl.\", \"Répl. moy.\", \"Présence\", \"Texte\", \"Texte % prés.\", \"Texte × pers.\", \"Interlocution\"]]\n", "roles_table\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Il existe des différences entre le tableau que nous avons généré et celui de l'OBVIL.\n", "Ces différences peuvent être attribuées à :\n", "\n", "- une méthode de nettoyage des lignes différente (nous avons opté pour un nettoyage agressif des espaces surnuméraires)\n", "- une gestion des décimales différentes (est-ce que l'OBVIL arrondi à l'entier supérieur ou inférieur, ou tronque les décimales ?)\n", "\n", "Ces différences affectent mathématiquement les statistiques qui découlent de ce comptage, notamment l'interlocution." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Statistiques par relation\n", "\n", "Chaque relation s'appuie sur l'enchaînement de répliques adjacentes entre deux personnages (monologues inclus), ce qui reflète les échanges directs plutôt que la simple coprésence sur scène.\n" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
    \n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
    RelationDétailScènesTexteInterlocution
    0Harpagon33 l. (100 %) 1 répl. 32,7 l.1 sc.33 l. (2 %)1,0 pers.
    1Cléante / Harpagon135 l. (49 %) 97 répl. 1,4 l. - 140 l. (51 %) ...9 sc.275 l. (16 %)4,6 pers.
    2Harpagon / Élise41 l. (60 %) 28 répl. 1,5 l. - 28 l. (40 %) 28...6 sc.69 l. (4 %)4,7 pers.
    3Harpagon / Valère96 l. (44 %) 65 répl. 1,5 l. - 121 l. (56 %) 5...7 sc.217 l. (12 %)4,9 pers.
    4Harpagon / Mariane9 l. (39 %) 7 répl. 1,2 l. - 13 l. (61 %) 5 ré...2 sc.22 l. (1 %)4,9 pers.
    5Anselme / Harpagon25 l. (71 %) 11 répl. 2,2 l. - 10 l. (29 %) 8 ...2 sc.35 l. (2 %)5,3 pers.
    6Frosine / Harpagon128 l. (70 %) 39 répl. 3,3 l. - 56 l. (30 %) 3...5 sc.184 l. (10 %)3,0 pers.
    7Harpagon / Maître Simon5 l. (22 %) 3 répl. 1,5 l. - 16 l. (78 %) 4 ré...1 sc.20 l. (1 %)4,0 pers.
    8Harpagon / Maître Jacques58 l. (38 %) 49 répl. 1,2 l. - 94 l. (62 %) 51...7 sc.153 l. (9 %)4,9 pers.
    9Harpagon / La Flèche35 l. (62 %) 33 répl. 1,1 l. - 22 l. (38 %) 33...1 sc.57 l. (3 %)2,0 pers.
    10Brindavoine / Harpagon1 l. (38 %) 2 répl. 0,7 l. - 2 l. (62 %) 2 rép...2 sc.4 l. (0 %)6,9 pers.
    11Harpagon / La Merluche1 l. (11 %) 1 répl. 0,6 l. - 5 l. (89 %) 5 rép...2 sc.5 l. (0 %)6,8 pers.
    12Harpagon / Le Commissaire11 l. (53 %) 10 répl. 1,1 l. - 10 l. (47 %) 9 ...3 sc.21 l. (1 %)3,8 pers.
    13Cléante / Élise66 l. (84 %) 10 répl. 6,6 l. - 13 l. (16 %) 9 ...2 sc.78 l. (4 %)3,0 pers.
    14Cléante / Mariane31 l. (60 %) 12 répl. 2,6 l. - 21 l. (40 %) 10...3 sc.52 l. (3 %)4,8 pers.
    15Cléante / Frosine3 l. (8 %) 5 répl. 0,6 l. - 37 l. (92 %) 6 rép...2 sc.40 l. (2 %)4,5 pers.
    16Cléante / Maître Jacques14 l. (51 %) 8 répl. 1,8 l. - 14 l. (49 %) 8 r...1 sc.28 l. (2 %)3,0 pers.
    17Cléante / La Flèche31 l. (27 %) 25 répl. 1,2 l. - 85 l. (73 %) 26...3 sc.116 l. (7 %)2,5 pers.
    18Valère / Élise65 l. (59 %) 11 répl. 5,9 l. - 45 l. (41 %) 11...2 sc.110 l. (6 %)2,5 pers.
    19Mariane / Élise1 l. (23 %) 2 répl. 0,6 l. - 4 l. (77 %) 1 rép...2 sc.6 l. (0 %)4,0 pers.
    20Mariane / Valère3 l. (41 %) 1 répl. 2,6 l. - 4 l. (59 %) 3 rép...1 sc.6 l. (0 %)5,0 pers.
    21Anselme / Valère19 l. (47 %) 8 répl. 2,4 l. - 22 l. (53 %) 7 r...1 sc.41 l. (2 %)5,0 pers.
    22Maître Jacques / Valère18 l. (49 %) 14 répl. 1,3 l. - 19 l. (51 %) 18...4 sc.37 l. (2 %)5,2 pers.
    23Frosine / Mariane18 l. (48 %) 6 répl. 3,0 l. - 20 l. (52 %) 7 r...4 sc.38 l. (2 %)4,1 pers.
    24Frosine / Maître Jacques1 l. (42 %) 1 répl. 1,0 l. - 1 l. (58 %) 2 rép...2 sc.2 l. (0 %)4,7 pers.
    25Frosine / La Flèche11 l. (42 %) 5 répl. 2,3 l. - 16 l. (58 %) 5 r...1 sc.28 l. (2 %)2,0 pers.
    26Le Commissaire / Maître Jacques13 l. (76 %) 7 répl. 1,8 l. - 4 l. (24 %) 5 ré...1 sc.17 l. (1 %)3,0 pers.
    \n", "
    " ], "text/plain": [ " Relation \\\n", "0 Harpagon \n", "1 Cléante / Harpagon \n", "2 Harpagon / Élise \n", "3 Harpagon / Valère \n", "4 Harpagon / Mariane \n", "5 Anselme / Harpagon \n", "6 Frosine / Harpagon \n", "7 Harpagon / Maître Simon \n", "8 Harpagon / Maître Jacques \n", "9 Harpagon / La Flèche \n", "10 Brindavoine / Harpagon \n", "11 Harpagon / La Merluche \n", "12 Harpagon / Le Commissaire \n", "13 Cléante / Élise \n", "14 Cléante / Mariane \n", "15 Cléante / Frosine \n", "16 Cléante / Maître Jacques \n", "17 Cléante / La Flèche \n", "18 Valère / Élise \n", "19 Mariane / Élise \n", "20 Mariane / Valère \n", "21 Anselme / Valère \n", "22 Maître Jacques / Valère \n", "23 Frosine / Mariane \n", "24 Frosine / Maître Jacques \n", "25 Frosine / La Flèche \n", "26 Le Commissaire / Maître Jacques \n", "\n", " Détail Scènes Texte \\\n", "0 33 l. (100 %) 1 répl. 32,7 l. 1 sc. 33 l. (2 %) \n", "1 135 l. (49 %) 97 répl. 1,4 l. - 140 l. (51 %) ... 9 sc. 275 l. (16 %) \n", "2 41 l. (60 %) 28 répl. 1,5 l. - 28 l. (40 %) 28... 6 sc. 69 l. (4 %) \n", "3 96 l. (44 %) 65 répl. 1,5 l. - 121 l. (56 %) 5... 7 sc. 217 l. (12 %) \n", "4 9 l. (39 %) 7 répl. 1,2 l. - 13 l. (61 %) 5 ré... 2 sc. 22 l. (1 %) \n", "5 25 l. (71 %) 11 répl. 2,2 l. - 10 l. (29 %) 8 ... 2 sc. 35 l. (2 %) \n", "6 128 l. (70 %) 39 répl. 3,3 l. - 56 l. (30 %) 3... 5 sc. 184 l. (10 %) \n", "7 5 l. (22 %) 3 répl. 1,5 l. - 16 l. (78 %) 4 ré... 1 sc. 20 l. (1 %) \n", "8 58 l. (38 %) 49 répl. 1,2 l. - 94 l. (62 %) 51... 7 sc. 153 l. (9 %) \n", "9 35 l. (62 %) 33 répl. 1,1 l. - 22 l. (38 %) 33... 1 sc. 57 l. (3 %) \n", "10 1 l. (38 %) 2 répl. 0,7 l. - 2 l. (62 %) 2 rép... 2 sc. 4 l. (0 %) \n", "11 1 l. (11 %) 1 répl. 0,6 l. - 5 l. (89 %) 5 rép... 2 sc. 5 l. (0 %) \n", "12 11 l. (53 %) 10 répl. 1,1 l. - 10 l. (47 %) 9 ... 3 sc. 21 l. (1 %) \n", "13 66 l. (84 %) 10 répl. 6,6 l. - 13 l. (16 %) 9 ... 2 sc. 78 l. (4 %) \n", "14 31 l. (60 %) 12 répl. 2,6 l. - 21 l. (40 %) 10... 3 sc. 52 l. (3 %) \n", "15 3 l. (8 %) 5 répl. 0,6 l. - 37 l. (92 %) 6 rép... 2 sc. 40 l. (2 %) \n", "16 14 l. (51 %) 8 répl. 1,8 l. - 14 l. (49 %) 8 r... 1 sc. 28 l. (2 %) \n", "17 31 l. (27 %) 25 répl. 1,2 l. - 85 l. (73 %) 26... 3 sc. 116 l. (7 %) \n", "18 65 l. (59 %) 11 répl. 5,9 l. - 45 l. (41 %) 11... 2 sc. 110 l. (6 %) \n", "19 1 l. (23 %) 2 répl. 0,6 l. - 4 l. (77 %) 1 rép... 2 sc. 6 l. (0 %) \n", "20 3 l. (41 %) 1 répl. 2,6 l. - 4 l. (59 %) 3 rép... 1 sc. 6 l. (0 %) \n", "21 19 l. (47 %) 8 répl. 2,4 l. - 22 l. (53 %) 7 r... 1 sc. 41 l. (2 %) \n", "22 18 l. (49 %) 14 répl. 1,3 l. - 19 l. (51 %) 18... 4 sc. 37 l. (2 %) \n", "23 18 l. (48 %) 6 répl. 3,0 l. - 20 l. (52 %) 7 r... 4 sc. 38 l. (2 %) \n", "24 1 l. (42 %) 1 répl. 1,0 l. - 1 l. (58 %) 2 rép... 2 sc. 2 l. (0 %) \n", "25 11 l. (42 %) 5 répl. 2,3 l. - 16 l. (58 %) 5 r... 1 sc. 28 l. (2 %) \n", "26 13 l. (76 %) 7 répl. 1,8 l. - 4 l. (24 %) 5 ré... 1 sc. 17 l. (1 %) \n", "\n", " Interlocution \n", "0 1,0 pers. \n", "1 4,6 pers. \n", "2 4,7 pers. \n", "3 4,9 pers. \n", "4 4,9 pers. \n", "5 5,3 pers. \n", "6 3,0 pers. \n", "7 4,0 pers. \n", "8 4,9 pers. \n", "9 2,0 pers. \n", "10 6,9 pers. \n", "11 6,8 pers. \n", "12 3,8 pers. \n", "13 3,0 pers. \n", "14 4,8 pers. \n", "15 4,5 pers. \n", "16 3,0 pers. \n", "17 2,5 pers. \n", "18 2,5 pers. \n", "19 4,0 pers. \n", "20 5,0 pers. \n", "21 5,0 pers. \n", "22 5,2 pers. \n", "23 4,1 pers. \n", "24 4,7 pers. \n", "25 2,0 pers. \n", "26 3,0 pers. " ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from collections import defaultdict\n", "\n", "# Accumulateur : pour chaque relation (acteur seul - monologues) ou (acteurA, acteurB),\n", "# on stocke les lignes, le nombre de répliques, les scènes concernées,\n", "# les lignes de présence cumulées et un poids d’interlocution (lignes × nb de participants).\n", "relation_stats = defaultdict(lambda: {\n", " \"lines\": defaultdict(float),\n", " \"counts\": defaultdict(int),\n", " \"scenes\": set(),\n", " \"presence_lines\": 0.0,\n", " \"interlocution_weight\": 0.0,\n", "})\n", "\n", "scene_lookup = scene_totals.set_index([\"Acte\", \"Scène\"])[[\"scene_lines\", \"participants\"]]\n", "\n", "for (act, scene), scene_df in df_speeches.groupby([\"Acte\", \"Scène\"]):\n", " scene_df = scene_df.sort_values(\"Ordre\")\n", " speakers = scene_df[\"Personnage\"].tolist()\n", " lines = scene_df[\"Lignes\"].tolist()\n", " scene_lines = scene_lookup.loc[(act, scene), \"scene_lines\"]\n", " participants = scene_lookup.loc[(act, scene), \"participants\"]\n", " scene_key = f\"{act} | {scene}\"\n", "\n", " # Scène à un seul intervenant : on enregistre un monologue\n", " if len(set(speakers)) == 1:\n", " actor = speakers[0]\n", " stats = relation_stats[(actor,)]\n", " stats[\"lines\"][actor] += scene_lines\n", " stats[\"counts\"][actor] += len(speakers)\n", " stats[\"scenes\"].add(scene_key)\n", " stats[\"presence_lines\"] += scene_lines\n", " stats[\"interlocution_weight\"] += scene_lines * participants\n", " continue\n", "\n", " relations_here = set()\n", " \n", " # Pour chaque changement d’intervenant, on attribue les lignes du locuteur au duo (ordre ignoré)\n", " for speaker, next_speaker, speaker_lines in zip(speakers, speakers[1:], lines):\n", " if speaker == next_speaker:\n", " continue\n", " \n", " key = tuple(sorted((speaker, next_speaker)))\n", " stats = relation_stats[key]\n", " stats[\"lines\"][speaker] += speaker_lines\n", " stats[\"counts\"][speaker] += 1\n", " stats[\"scenes\"].add(scene_key)\n", " relations_here.add(key)\n", "\n", " # On ajoute la présence et l’interlocution une seule fois par scène et par relation\n", " for key in relations_here:\n", " stats = relation_stats[key]\n", " stats[\"presence_lines\"] += scene_lines\n", " stats[\"interlocution_weight\"] += scene_lines * participants\n", "\n", "role_order_index = {name: idx for idx, name in enumerate(role_order)}\n", "\n", "def relation_sort_key(rel):\n", " if len(rel) == 1:\n", " return (role_order_index.get(rel[0], len(role_order_index)), -1)\n", " \n", " a, b = rel\n", " \n", " return (\n", " min(role_order_index.get(a, len(role_order_index)), role_order_index.get(b, len(role_order_index))),\n", " max(role_order_index.get(a, len(role_order_index)), role_order_index.get(b, len(role_order_index))),\n", " )\n", "\n", "relation_rows = []\n", "\n", "for rel in sorted(relation_stats, key=relation_sort_key):\n", " data = relation_stats[rel]\n", " total_lines = sum(data[\"lines\"].values())\n", "\n", " # On ignore les relations sans matière (moins de 2 lignes au total)\n", " if total_lines < 2:\n", " continue\n", " \n", " # On ignore les relations où au moins un protagoniste n’a jamais prononcé de réplique dans ce duo\n", " if len(rel) > 1 and any(data[\"counts\"].get(actor, 0) == 0 for actor in rel):\n", " continue\n", "\n", " scenes_count = len(data[\"scenes\"])\n", " interlocution = data[\"interlocution_weight\"] / data[\"presence_lines\"] if data[\"presence_lines\"] else 0\n", "\n", " parts = []\n", " \n", " for actor in rel:\n", " actor_lines = data[\"lines\"].get(actor, 0)\n", " actor_repl = data[\"counts\"].get(actor, 0)\n", " avg_lines = actor_lines / actor_repl if actor_repl else 0\n", " share = actor_lines / total_lines if total_lines else 0\n", " \n", " parts.append(\n", " f\"{format_lines(actor_lines)} ({format_percent(share)}) {actor_repl} répl. {format_lines(avg_lines, 1)}\"\n", " )\n", "\n", " relation_rows.append({\n", " \"Relation\": \" / \".join(rel),\n", " \"Détail\": \" - \".join(parts),\n", " \"Scènes\": f\"{scenes_count} sc.\",\n", " \"Texte\": f\"{format_lines(total_lines)} ({format_percent(total_lines / total_lines_play)})\",\n", " \"Interlocution\": format_people(interlocution),\n", " })\n", "\n", "relations_table = pd.DataFrame(relation_rows)\n", "relations_table" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bien que le décompte des lignes diffère toujours de celui de l'OBVIL (comme attendu et pour les mêmes raisons que précédemment), l'interlocution est identique.\n", "En effet, les écarts de comptage de lignes n’affectent pas l’interlocution ; seule une différence de liste d’intervenants par scène la ferait varier." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Voyons maintenant si nous parvenons à reproduire le graphique proposé par l'OBVIL :" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
    " ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Ordonnancement des actes et des scènes\n", "# On affichera les labels bruts (\"Acte Premier\") mais on utilisera un ordre \"naturel\"\n", "scene_order = []\n", "\n", "for act in list_acts():\n", " for sc in list_scenes(act=act[\"node\"]):\n", " scene_order.append(f\"{act['title']} | {sc['title']}\")\n", "\n", "# Préparation des données\n", "df = df_counts.copy()\n", "\n", "# Création d'une clé unique pour identifier un couple acte/scène\n", "# Cela permet de forcer l'ordre d'affichage, au lieu de suivre un ordre alphabétique\n", "# qui noierait \"Acte Premier\" au milieu de la liste, par exemple\n", "df[\"SceneKey\"] = pd.Categorical(df[\"Acte\"] + \" | \" + df[\"Scène\"], categories=scene_order, ordered=True)\n", "\n", "# Obtention du pourcentage que représente un dialogue particulier au sein d'une scène\n", "df[\"share\"] = df[\"Mots\"] / df.groupby(\"SceneKey\", observed=False)[\"Mots\"].transform(\"sum\")\n", "\n", "# Calcul du total de mots pour une scène donnée\n", "totals = df.groupby(\"SceneKey\", observed=False)[\"Mots\"].sum()\n", "\n", "# Paramétrage du graphique\n", "gap = 0 # Espace vertical ajouté entre deux scènes\n", "label_fs = 8 # Taille de la police des étiquettes\n", "min_target = 10 # Hauteur minimale souhaitée\n", "\n", "# Définition de la hauteur d'une scène.\n", "# Nous utilisons ici une fonction racine carré.\n", "# Le but de ce calcul est d'éviter que les scènes contenant le moins de mots\n", "# se trouvent compressées en une ligne si fine qu'il ne serait pas possible\n", "# de distinguer les différents protagonistes.\n", "# On sacrifie donc le rapport proportionnel strict au profit d'une meilleure\n", "# lisibilité.\n", "def scene_height(total):\n", " return max(min_target, math.sqrt(total) * factor)\n", "\n", "create_actors_colormap(df[\"Personnage\"].unique())\n", "\n", "# Calcul de l'échelle des scènes : évite qu'une scène courte soit\n", "# représentée par une ligne trop fine pour être distinguée\n", "min_total = totals.min()\n", "factor = min_target / math.log1p(min_total)\n", "\n", "figure, axis = plt.subplots(figsize=(12, len(scene_order) * 0.5))\n", "\n", "# Affichage de la colormap des personnages\n", "handles = [mpatches.Patch(color=col, label=name) for name, col in color_map.items()]\n", "axis.legend(handles=handles, title=\"Personnage\", bbox_to_anchor=(1.25, 1), loc=\"upper left\")\n", "\n", "y = 0 # \"Curseur\" vertical permettant de positionner les scènes\n", "\n", "# Traçage des scènes\n", "for scene in scene_order:\n", " scene_rows = df[df[\"SceneKey\"] == scene]\n", " h = scene_height(totals.loc[scene])\n", "\n", " left = 0\n", "\n", " for _, row in scene_rows.iterrows():\n", " # broken_barth est la méthode nous permettant de tracer des barres\n", " # horizontales juxtaposés\n", " axis.broken_barh([(left, row[\"share\"])], (y, h),\n", " facecolors=color_map[row[\"Personnage\"]],\n", " edgecolors=\"white\", linewidth=0.5)\n", "\n", " # Décalage horizontal de la prochaine barre\n", " left += row[\"share\"]\n", "\n", " # Étiquette correspondant à la scène\n", " axis.text(1.01, y + h/2, scene, va=\"center\", fontsize=label_fs)\n", "\n", " # Décalage vertical de la prochaine scène\n", " y += h + gap\n", "\n", "axis.set_xlim(0, 1)\n", "axis.set_ylim(0, y)\n", "axis.invert_yaxis() # Acte I en haut\n", "axis.set_xlabel(\"% de la scène (largeur) - une ligne par scène\")\n", "axis.set_yticks([]) # On masque l'ordonnée à gauche\n", "axis.spines[[\"top\", \"right\", \"left\", \"bottom\"]].set_visible(False) # On masque les délimitations du graphique\n", "plt.tight_layout()" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "" }, "tags": [] }, "source": [ "L'ordre des dialogues est respecté sur ce graphique, contrairement au graphique de l'OBVIL.\n", "Par exemple, dans la deuxième scène du premier acte, Cléante est bien la première à prendre la parole, et non Élise." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Graphe réseau des dialogues" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "" }, "tags": [] }, "source": [ "Ici, nous allons représenter les dialogues par un graphe réseau.\n", "Nous allons essayer de reproduire le [graphe](https://obtic.huma-num.fr/obvil-web/corpus/moliere/moliere_avare) proposé par l'OBVIL." ] }, { "cell_type": "code", "execution_count": 56, "metadata": { "slideshow": { "slide_type": "" }, "tags": [] }, "outputs": [ { "data": { "text/html": [ "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", "
    \n", "

    \n", "
    \n", "\n", "\n", " \n", " \n", "\n", "\n", "
    \n", "

    \n", "
    \n", " \n", " \n", "\n", "\n", " \n", "
    \n", " \n", " \n", "
    \n", "
    \n", "\n", " \n", " \n", "\n", " \n", " \n", "" ], "text/plain": [ "" ] }, "execution_count": 56, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Arêtes directionnelles source -> cible : succession des locuteurs par scène\n", "def interlocution_edges(df_speeches):\n", " df = df_speeches.copy()\n", " df[\"SceneKey\"] = df[\"Acte\"] + \" | \" + df[\"Scène\"]\n", " df[\"order\"] = range(len(df))\n", " df = df.sort_values([\"SceneKey\", \"order\"])\n", " df[\"next\"] = df.groupby(\"SceneKey\")[\"Personnage\"].shift(-1)\n", "\n", " return (df.dropna(subset=[\"next\"])\n", " .groupby([\"Personnage\", \"next\"], as_index=False)[\"Mots\"]\n", " .sum()\n", " .rename(columns={\"Personnage\": \"source\", \"next\": \"target\", \"Mots\": \"weight\"}))\n", "\n", "# Données\n", "totaux = df_speeches.groupby(\"Personnage\")[\"Mots\"].sum()\n", "edges_dir = interlocution_edges(df_speeches)\n", "\n", "# Template + ressources inline (vis.js embarqué)\n", "tpl_dir = Path(pyvis.__file__).with_name(\"templates\")\n", "env = Environment(loader=FileSystemLoader(tpl_dir))\n", "\n", "net = Network(\n", " height=\"700px\",\n", " width=\"100%\",\n", " bgcolor=\"#f8f8f8\",\n", " notebook=True,\n", " directed=True,\n", " cdn_resources=\"remote\",\n", ")\n", "net.template = env.get_template(\"template.html\")\n", "\n", "# Réglage vis.js : on « écarte » les nœuds avec le solver repulsion\n", "# On importe exceptionnellement json ici pour pouvoir travailler les options\n", "# directement dans ce format\n", "import json\n", "\n", "options = {\n", " \"physics\": {\n", " \"solver\": \"repulsion\",\n", " \"repulsion\": {\n", " \"nodeDistance\": 240,\n", " \"springLength\": 180,\n", " \"springConstant\": 0.05,\n", " \"damping\": 0.12,\n", " },\n", " },\n", " \"edges\": {\n", " \"arrows\": {\"to\": {\"enabled\": True}},\n", " \"smooth\": {\"type\": \"dynamic\"},\n", " },\n", " \"nodes\": {\n", " \"shape\": \"dot\",\n", " \"borderWidth\": 1.2,\n", " },\n", "}\n", "\n", "net.set_options(json.dumps(options))\n", "\n", "# Noeuds : label centré dans la bulle (font align center)\n", "for n, mots in totaux.items():\n", " net.add_node(\n", " n,\n", " label=n,\n", " title=f\"{mots} mots\",\n", " shape=\"dot\",\n", " size=8 + 0.6 * np.sqrt(mots),\n", " color=mcolors.to_hex(color_map.get(n)) if color_map.get(n) else None,\n", " font={\"size\": 18, \"align\": \"center\", \"color\": \"#111\"},\n", " )\n", "\n", "# Arêtes : poids log1p, couleur héritée de la source\n", "for _, r in edges_dir.iterrows():\n", " if r[\"source\"] == r[\"target\"]:\n", " continue\n", " net.add_edge(\n", " r[\"source\"],\n", " r[\"target\"],\n", " value=np.log1p(r[\"weight\"]),\n", " title=f\"{r['weight']} mots\",\n", " color=net.get_node(r[\"source\"])[\"color\"],\n", " )\n", "\n", "# On évite l'iframe qui poserait un problème de sécurité (Content Security Policy)\n", "html = net.generate_html(notebook=True)\n", "HTML(html)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "" }, "tags": [] }, "source": [ "Ce graphique 3D interactif permet de cliquer sur un nom et de le déplacer afin de faire apparaître toutes les relations. En outre, le survol d'un nom ou de la flèche représentant une relation donnera le nombre de mots associés.\n", "\n", "La pile logicielle employée par l'OBVIL pour son propre graphique repose sur Sigma et ForceAtlas2, des modules `nodejs` que je ne souhaitais pas exploiter dans ce notebook." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "" }, "tags": [] }, "source": [ "## Conclusion\n", "\n", "Cette étude a révélé que malgré tout le soin que l'on peut apporter au traitement d'un sujet spécifique, il est possible d'introduire involontairement des \"artefacts\" dans les données sur lesquelles on travaille. \n", "Ici, il s'agit de différences d'orthographes mineures, invisibles lors d'une lecture par un humain, mais qui peuvent rendre une étude assistée par l'informatique plus complexe, voire sujette aux erreurs.\n", "On le répète assez souvent en informatique (et particulièrement en développement web) : on ne doit jamais avoir confiance dans les entrées...\n", "Cela a nécessité un travail assez important en amont, et il faut préciser que ce n'est pas infaillible.\n", "\n", "Une autre source potentielle d'erreur, que ce soit au niveau de l'analyse ou de l'interprétation, consiste en des définitions ou des méthodologies différentes.\n", "Ici, nous avons calculé des statistiques divergentes de celles de l'OBVIL, probablement en raison d'une définition différente de ce qu'est une \"ligne\".\n", "Pour notre étude, nous considérons qu'une ligne est une suite de 60 caractères, dont les espaces surnuméraires ont été supprimés (incluant les sauts de lignes).\n", "\n", "Or, ce n'est qu'après une inspection plus poussée du dépôt de l'outil [dramagraph](https://github.com/dramacode/dramagraph/tree/gh-pages) de l'OBLIV révèle la méthode : après \"nettoyage\" des fichiers TEI source par l'emploi d'une [feuille de style XSL](https://github.com/dramacode/dramagraph/blob/gh-pages/naked.xsl), [un autre fichier XSL](https://github.com/dramacode/dramagraph/blob/gh-pages/drama2csv.xsl#L517) est en charge, notamment, du formatage des paragraphes (séparés par des retours de ligne), de la [gestion des accents](https://github.com/dramacode/dramagraph/blob/gh-pages/drama2csv.xsl#L14) et de [la casse](https://github.com/dramacode/dramagraph/blob/gh-pages/drama2csv.xsl#L524), et enfin de la production [des compteurs](https://github.com/dramacode/dramagraph/blob/gh-pages/drama2csv.xsl#L490).\n", "\n", "Par conséquent, pour retrouver des statistiques identiques à l'OBVIL, il aurait fallut passer par le même _pipeline_.\n", "On aurait du choisir d'utiliser le TEI comme fichier source et lui appliquer les mêmes fichiers XSL, ce qui nous aurait donné directement accès aux statistiques, sans avoir besoin de les recalculer nous-même, réduisant considérablement la taille de ce notebook.\n", "\n", "On en déduit finalement que :\n", "\n", "- l'enthousiasme est parfois un ennemi ! J'aurai du prendre davantage de temps pour examiner comment l'OBVIL a produit ses statistiques, avant de me lancer dans une étude personnelle\n", "- bien que structuré, HTML est un \"produit transformé\" : les fichiers TEI ont manifestement servi comme base à tous les autres formats proposés par l'OBVIL ; j'aurai du l'identifier comme source idéale" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.4" } }, "nbformat": 4, "nbformat_minor": 5 }