diff --git a/module1/exo2/TEIIntroduction_fr.org b/module1/exo2/TEIIntroduction_fr.org new file mode 100644 index 0000000000000000000000000000000000000000..e6f18e50db9f9672ed351794a91fce5aacd0ba7c --- /dev/null +++ b/module1/exo2/TEIIntroduction_fr.org @@ -0,0 +1,107 @@ +# -*- coding: utf-8 -*- +# -*- mode: org -*- + +#+TITLE: La Text Encoding Initiative, un vocabulaire et des spécifications pour une analyse textuelle transparente +#+Author: Sabrina Granger +#+STARTUP: overview indent inlineimages logdrawer +#+LANGUAGE: fr +L'auteure de ce texte est *Sabrina Granger*, +conservatrice des bibliothèques à l’Urfist (Unité régionale de +formation à l'information scientifique et technique) de Bordeaux. +** Introduction + +La question de la reproductibilité, pour soi comme pour les autres, +soulève entre autres celle de la pérennité de l'information +scientifique. Or, les données produites avec des logiciels propriétaires +et/ou sous des formats spécifiques à un outil offrent encore moins de +garantie d'accessibilité sur le long terme. La Text Encoding Initiative +(TEI) constitue un exemple de format de balisage standard. + +** Les apports de la TEI dans l'analyse de textes + +Si vous utilisez des textes (littéraires, législatifs, archives, +/etc/.), une technique de balisage de données peut vous permettre +d'aller au-delà du seul décompte brut d'occurrences : la Text Encoding +Initiative (TEI). Lou Burnard, l'un des fondateurs de la TEI, prend +l'exemple du mot "Paris" : s'agit-il de la ville du Texas, de la +capitale française, voire du prénom d'une héritière américaine ? Si trier +manuellement le bon grain de l'ivraie est possible - mais non sans +risque d'erreur - à l'échelle d'un petit /corpus/, il s'avère nettement +plus complexe de travailler sur *une masse de documents plus importante +et/ou plus hétérogène*. La TEI permet de résoudre ce problème. + +Dans ce cas, /quid/ des /corpus/ peu volumineux ? *Le balisage en TEI +permet de rendre vos données textuelles "intelligentes"*: il est +possible de *baliser des personnages, des langues de citation, des +catégories grammaticales, des passages barrés*, /etc/. Qui peut le plus +peut le moins : s'il existe plus de 500 éléments combinables entre eux, +il est possible de travailler avec un jeu de balises réduit. Pour +traiter un roman, 5 ou 6 balises peuvent suffire. + +** Une solution permettant de s'affranchir d'une dépendance logicielle + +L'encodage des données en TEI permet de concevoir des /corpus/ à très +forte valeur ajoutée. Dès lors se posent les questions de l'*accès*, de +la *conservation* voire du *partage* de cette plus-value. Si le recours +à certains logiciels proposant des outils d'encodage de données est +commode, sur le long terme, leur utilisation peut nuire à la +reproductibilité de vos travaux. En effet, l'un des avantages de la TEI +est d'offrir un *codage standard, affranchissant ainsi ses utilisateurs +de toute dépendance logicielle*. + +Si certains logiciels intègrent le codage en TEI, d'autres reposent sur +des codages qui leur sont propres (ex. Alceste, Lexico3, /etc/.) ainsi +que le souligne Burnard : "Si vous souhaitez partager les ressources +textuelles que vous créez avec d'autres personnes (ou avec vous-même à +quelques décennies de distance), vous devriez vous préoccuper de la +tendance de nombreux systèmes informatiques à appliquer leur propre +façon de stocker l'information" (Burnard 2014). + +*Normalisation n'est pas synonyme de fermeture* : l'un des enjeux de la +TEI est d'offrir un système de balise évolutif grâce à son +extensibilité. + +** La TEI en pratique + +Bernard et Bohet définissent ainsi la TEI (Bernard and Bohet 2017) : "Il +s'agit d'un balisage s'appuyant sur le langage XML et qui se présente +comme un dictionnaire de balises couvrant à peu près toutes les +situations". Il s'agit de permettre à une machine de lire ces données. + +La TEI permet d'*introduire dans le texte des informations allant bien +au-delà des éléments formels* comme le montre +[[https://fr.wikipedia.org/wiki/Text_Encoding_Initiative][ce comparatif +tiré de Wikipédia]] entre d'une part, un encodage en HTML, où l'on prend +en compte uniquement les aspects de présentation, et d'autre part, un +encodage en TEI, où l'on peut introduire des informations sur les +personnages, la versification des éléments. + +Le travail s'effectue sur des données numériques ; si les données sont +issues d'une numérisation, elles doivent au préalable être traitées avec +un logiciel de reconnaissance optique des caractères (OCR) (Humanum +2015). + +Il existe des *éditeurs* tels que +[[https://framalibre.org/content/xml-copy-editor][XML Copy Editor]]. +Certains logiciels incluent un *convertisseur* ; on peut citer : +- le [[http://textometrie.ens-lyon.fr/spip.php?rubrique96][logiciel TXM]] +- le [[http://obvil.sorbonne-universite.site/developpements/odette][logiciel Odette]] permet de passer d'un document en traitement de texte à des +données en XML/TEI + +Exemple de texte encodé : Oscar Wilde. /The Importance of Being Earnest/ +[[https://teibyexample.org/examples/TBED05v00.htm?target=wilde][disponible +sur le site web TEI by example]] + +** Sources + +Bernard, Michel, and Baptiste Bohet. 2017. Littérométrie: outils +numériques pour l'analyse des textes littéraires. Paris, France: Presses +Sorbonne nouvelle. + +Burnard, Lou. 2014. What Is the Text Encoding Initiative? : How to Add +Intelligent Markup to Digital Resources. Encyclopédie Numérique. +Marseille: OpenEdition Press. http://books.openedition.org/oep/426. + +Humanum. 2015. 'Le Guide Des Bonnes Pratiques Numériques'. TGIR des +humanités numériques. +https://www.huma-num.fr/ressources/guide-des-bonnes-pratiques-numeriques.