Skip to content
Projects
Groups
Snippets
Help
Loading...
Help
Submit feedback
Contribute to GitLab
Sign in
Toggle navigation
M
mooc-rr
Project
Project
Details
Activity
Releases
Cycle Analytics
Repository
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
Issues
0
Issues
0
List
Board
Labels
Milestones
Merge Requests
0
Merge Requests
0
CI / CD
CI / CD
Pipelines
Jobs
Schedules
Charts
Wiki
Wiki
Snippets
Snippets
Members
Members
Collapse sidebar
Close sidebar
Activity
Graph
Charts
Create a new issue
Jobs
Commits
Issue Boards
Open sidebar
081719cca9ac8afd4af5d59a2e265c44
mooc-rr
Commits
091bca22
Commit
091bca22
authored
Mar 31, 2020
by
081719cca9ac8afd4af5d59a2e265c44
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
Upload New File
parent
fcc46137
Changes
1
Show whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
107 additions
and
0 deletions
+107
-0
TEIIntroduction_fr.org
module1/exo2/TEIIntroduction_fr.org
+107
-0
No files found.
module1/exo2/TEIIntroduction_fr.org
0 → 100644
View file @
091bca22
# -*- coding: utf-8 -*-
# -*- mode: org -*-
#+TITLE: La Text Encoding Initiative, un vocabulaire et des spécifications pour une analyse textuelle transparente
#+Author: Sabrina Granger
#+STARTUP: overview indent inlineimages logdrawer
#+LANGUAGE: fr
L'auteure de ce texte est *Sabrina Granger*,
conservatrice des bibliothèques à l’Urfist (Unité régionale de
formation à l'information scientifique et technique) de Bordeaux.
** Introduction
La question de la reproductibilité, pour soi comme pour les autres,
soulève entre autres celle de la pérennité de l'information
scientifique. Or, les données produites avec des logiciels propriétaires
et/ou sous des formats spécifiques à un outil offrent encore moins de
garantie d'accessibilité sur le long terme. La Text Encoding Initiative
(TEI) constitue un exemple de format de balisage standard.
** Les apports de la TEI dans l'analyse de textes
Si vous utilisez des textes (littéraires, législatifs, archives,
/etc/.), une technique de balisage de données peut vous permettre
d'aller au-delà du seul décompte brut d'occurrences : la Text Encoding
Initiative (TEI). Lou Burnard, l'un des fondateurs de la TEI, prend
l'exemple du mot "Paris" : s'agit-il de la ville du Texas, de la
capitale française, voire du prénom d'une héritière américaine ? Si trier
manuellement le bon grain de l'ivraie est possible - mais non sans
risque d'erreur - à l'échelle d'un petit /corpus/, il s'avère nettement
plus complexe de travailler sur *une masse de documents plus importante
et/ou plus hétérogène*. La TEI permet de résoudre ce problème.
Dans ce cas, /quid/ des /corpus/ peu volumineux ? *Le balisage en TEI
permet de rendre vos données textuelles "intelligentes"*: il est
possible de *baliser des personnages, des langues de citation, des
catégories grammaticales, des passages barrés*, /etc/. Qui peut le plus
peut le moins : s'il existe plus de 500 éléments combinables entre eux,
il est possible de travailler avec un jeu de balises réduit. Pour
traiter un roman, 5 ou 6 balises peuvent suffire.
** Une solution permettant de s'affranchir d'une dépendance logicielle
L'encodage des données en TEI permet de concevoir des /corpus/ à très
forte valeur ajoutée. Dès lors se posent les questions de l'*accès*, de
la *conservation* voire du *partage* de cette plus-value. Si le recours
à certains logiciels proposant des outils d'encodage de données est
commode, sur le long terme, leur utilisation peut nuire à la
reproductibilité de vos travaux. En effet, l'un des avantages de la TEI
est d'offrir un *codage standard, affranchissant ainsi ses utilisateurs
de toute dépendance logicielle*.
Si certains logiciels intègrent le codage en TEI, d'autres reposent sur
des codages qui leur sont propres (ex. Alceste, Lexico3, /etc/.) ainsi
que le souligne Burnard : "Si vous souhaitez partager les ressources
textuelles que vous créez avec d'autres personnes (ou avec vous-même à
quelques décennies de distance), vous devriez vous préoccuper de la
tendance de nombreux systèmes informatiques à appliquer leur propre
façon de stocker l'information" (Burnard 2014).
*Normalisation n'est pas synonyme de fermeture* : l'un des enjeux de la
TEI est d'offrir un système de balise évolutif grâce à son
extensibilité.
** La TEI en pratique
Bernard et Bohet définissent ainsi la TEI (Bernard and Bohet 2017) : "Il
s'agit d'un balisage s'appuyant sur le langage XML et qui se présente
comme un dictionnaire de balises couvrant à peu près toutes les
situations". Il s'agit de permettre à une machine de lire ces données.
La TEI permet d'*introduire dans le texte des informations allant bien
au-delà des éléments formels* comme le montre
[[https://fr.wikipedia.org/wiki/Text_Encoding_Initiative][ce comparatif
tiré de Wikipédia]] entre d'une part, un encodage en HTML, où l'on prend
en compte uniquement les aspects de présentation, et d'autre part, un
encodage en TEI, où l'on peut introduire des informations sur les
personnages, la versification des éléments.
Le travail s'effectue sur des données numériques ; si les données sont
issues d'une numérisation, elles doivent au préalable être traitées avec
un logiciel de reconnaissance optique des caractères (OCR) (Humanum
2015).
Il existe des *éditeurs* tels que
[[https://framalibre.org/content/xml-copy-editor][XML Copy Editor]].
Certains logiciels incluent un *convertisseur* ; on peut citer :
- le [[http://textometrie.ens-lyon.fr/spip.php?rubrique96][logiciel TXM]]
- le [[http://obvil.sorbonne-universite.site/developpements/odette][logiciel Odette]] permet de passer d'un document en traitement de texte à des
données en XML/TEI
Exemple de texte encodé : Oscar Wilde. /The Importance of Being Earnest/
[[https://teibyexample.org/examples/TBED05v00.htm?target=wilde][disponible
sur le site web TEI by example]]
** Sources
Bernard, Michel, and Baptiste Bohet. 2017. Littérométrie: outils
numériques pour l'analyse des textes littéraires. Paris, France: Presses
Sorbonne nouvelle.
Burnard, Lou. 2014. What Is the Text Encoding Initiative? : How to Add
Intelligent Markup to Digital Resources. Encyclopédie Numérique.
Marseille: OpenEdition Press. http://books.openedition.org/oep/426.
Humanum. 2015. 'Le Guide Des Bonnes Pratiques Numériques'. TGIR des
humanités numériques.
https://www.huma-num.fr/ressources/guide-des-bonnes-pratiques-numeriques.
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment