# Sujet 5 - Analyse des dialogues dans l'Avare de Molière

## Récupérer les données

In [46]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import re

L’Observatoire de la vie littéraire (OBVIL) promeut une approche de l'analyse des textes littéraires fondée sur le numérique. Dans le cadre du Projet Molière, des pièces de cet auteur ont été numérisées et sont accessibles librement dans différents formats utilisables par un programme informatique. Nous allons utiliser ici les textes sous format markdown accessibles [ici](http://dramacode.github.io/markdown/moliere_avare.txt).

In [2]:
data_url = 'http://dramacode.github.io/markdown/moliere_avare.txt'

Pour plus de reproductibilité, nous allons télécharger les données dans ce répertoire GitLab d'abord puis nous allons lire ce fichier plutôt que l'url directement.

In [3]:
data_file = "moliere_avare.txt"

import os
import urllib.request
if not os.path.exists(data_file):
    urllib.request.urlretrieve(data_url, data_file)

Nous pouvons regarder les premières lignes de ce fichier:

In [4]:
%load_ext rpy2.ipython

In [10]:
%%sh
head -n 55 moliere_avare.txt

---
identifier: moliere_avare  
creator: Molière.  
date: 1668  
title: L'Avare. Comédie  
---


L'AVARE,

COMÉDIE.

Par J.B.P. MOLIÈRE.

À PARIS, Chez JEAN RIBOU, au Palais, vis à vis la Porte de l'Église de la Sainte Chapelle, à l'Image Saint-Louis. M. DC. LXIX. *AVEC PRIVILÈGE DU ROI*



# ACTEURS.
 – Harpagon, Père de Cléante et d'Élise, et Amoureux de Mariane.
 – Cléante, Fils d'Harpagon, Amant de Mariane.
 – Élise, Fille d'Harpagon, Amante de Valère.
 – Valère, Fils d'Anselme, et Amant d'Élise.
 – Mariane, Amante de Cléante, et aimée d'Harpagon.
 – Anselme, Père de Valère et de Mariane.
 – Frosine, Femme d'Intrigue.
 – Maitre Simon, Courtier.
 – Maitre Jacques, Cuisinier et Cocher d'Harpagon.
 – La Flèche, Valet de Cléante.
 – Dame Claude, Servante d'Harpagon.
 – Brindavoine, laquais d'Harpagon.
 – La Merluche, laquais d'Harpagon.
 – Le commissaire, et son clerc.
La Scène est à Paris.



# L'Avare, *Comédie.*.


## Acte Premier.


### Scène Première.
Valère, Élise


    VALÈRE.
H

Comme nous pouvons le voir, les actes sont marqués par un double-dièse en début de ligne et les scènes sont marquées par un triple-dièse en début de ligne. Les dialogues de personnages ont l'air d'être sur 2 lignes : une première avec le nom du personnage en majuscule et une deuxième avec les répliques du personnage.

Nous allons tenter de réarranger les données sous forme de tableau, comme ceci :

| Personnage | Acte | Scene | Nombre de Mots | Nombre de Repliques |
|:-------|:------|:-------|:------------|:----------------|
| nom du personnage | acte dans lequel il apparait | scène dans laquelle il figure | le nombre de mots qu'il parle | le nombre de repliques |

Nous allons créer un fonction qui va remplacer les caractères à accent en caractère "normaux":

In [47]:
import unicodedata

def remove_accents(input_str):
    nfkd_form = unicodedata.normalize('NFKD', input_str)
    return u"".join([c for c in nfkd_form if not unicodedata.combining(c)])

Comme nous pouvons le voir, il y a quelques discordances entre la liste des personnages énumérés en-dessous du numéro de scène et les répliques dans le dialogue.

In [84]:
acte = 0
scene = 0
infos_scene = {}

data = []
with open(data_file) as f:
    lines = f.readlines()
nbline = 0
while nbline < len(lines):
    line = lines[nbline]
    if line.startswith("## Acte"):
        acte += 1
    elif line.startswith("### Sc"):
        if infos_scene:
            data += infos_scene.values()
        scene += 1
        nbline += 1
        line = lines[nbline]
        if line.strip():
            infos_scene = {l.strip().upper():{'acte':acte,'scene':scene,'personnage':l.strip().upper(),'nombre_de_mots':0,'nombre_de_repliques':0} for l in remove_accents(line.strip()).split(",")}
        else:
            infos_scene = {}
            print("No characters listed for scene",scene,"acte",acte)
    elif re.search(r"^    [A-ZÈÉ ]+.$",line):
        assert acte and scene
        personnage = remove_accents(re.search(r"^    ([A-ZÈÉ ]+).$",line).groups()[0])
        nbline += 1
        line = lines[nbline]
        assert line.strip() # check line is not empty
        nombre_de_mots = len(line.split()) # on va supposer que la ponctuation est négligeable dans le compte
        if personnage not in infos_scene:
            print(personnage,"is not listed under scene",scene,"acte",acte,"but is speaking")
            infos_scene[personnage] = {'acte':acte,'scene':scene,'personnage':personnage,'nombre_de_mots':0,'nombre_de_repliques':0}
        infos_scene[personnage]['nombre_de_repliques'] += 1
        infos_scene[personnage]['nombre_de_mots'] += nombre_de_mots
    nbline += 1
df = pd.DataFrame(data)
df

VALERE is not listed under scene 19 acte 3 but is speaking
No characters listed for scene 26 acte 4
HARPAGON is not listed under scene 26 acte 4 but is speaking


Unnamed: 0,acte,nombre_de_mots,nombre_de_repliques,personnage,scene
0,1,596,8,VALERE,1
1,1,473,8,ELISE,1
2,1,725,10,CLEANTE,2
3,1,150,9,ELISE,2
4,1,396,34,HARPAGON,3
5,1,242,32,LA FLECHE,3
6,1,147,23,ELISE,4
7,1,211,29,CLEANTE,4
8,1,1044,53,HARPAGON,4
9,1,621,22,VALERE,5


Voyons voir s'il y a bien le bon nombre d'Actes et de Scènes:

In [85]:
%%sh
grep -c "## Acte" moliere_avare.txt
grep -c "### Scène" moliere_avare.txt

5
32


In [86]:
df.acte.value_counts().shape

(5,)

In [87]:
df.scene.value_counts().shape

(31,)

In [88]:
df.personnage.value_counts().shape

(15,)

On voit donc qu'on retrouve le même nombre d'actes et de scènes qu'avec l'analyse de texte via `grep`. On retrouve aussi les 15 personnages listées en début de document.

In [90]:
print("".join(lines[19:33]))

 – Harpagon, Père de Cléante et d'Élise, et Amoureux de Mariane.
 – Cléante, Fils d'Harpagon, Amant de Mariane.
 – Élise, Fille d'Harpagon, Amante de Valère.
 – Valère, Fils d'Anselme, et Amant d'Élise.
 – Mariane, Amante de Cléante, et aimée d'Harpagon.
 – Anselme, Père de Valère et de Mariane.
 – Frosine, Femme d'Intrigue.
 – Maitre Simon, Courtier.
 – Maitre Jacques, Cuisinier et Cocher d'Harpagon.
 – La Flèche, Valet de Cléante.
 – Dame Claude, Servante d'Harpagon.
 – Brindavoine, laquais d'Harpagon.
 – La Merluche, laquais d'Harpagon.
 – Le commissaire, et son clerc.



## Analyser les données