Update Readme.md

parent 8bef579c
# Journal de bord du Mooc / Mooc's logbook
#Formats de données transversaux : Text Encoding Initiative (TEI) :
##Problématique :
La question de la reproductibilité, pour soi comme pour les autres, soulève
entre autres celle de la pérennité de l'information scientifique. Or, les
données produites avec des logiciels propriétaires et/ou sous des formats
spécifiques à un outil offrent encore moins de garanties d'accessibilité sur le
long terme.
##Pourquoi utiliser le format TEI :
La Text Encoding Initiative (TEI) constitue un exemple de format de balisage
standard. L'un de ses enjeux est d'offrir un système de balise évolutif grâce à
son extensibilité. (Bernard et Bohet définissent ainsi la TEI Bernard and Bohet
2017 : "Il s'agit d'un balisage s'appuyant sur le langage XML et qui se présente
comme un dictionnaire de balises couvrant à peu près toutes les situations".) Il
s'agit de permettre à une machine de lire ces données. De plus le langage XML
sur lequel la TEI repose est garanti par le w3c, un organisme de confiance sans
but lucratif.
La TEI permet d'introduire dans le texte des informations allant bien
au-delà des éléments formels entre d'une part, un encodage en HTML, où l'on
prend en compte uniquement les aspects de présentation, et d'autre part, un
encodage en TEI, où l'on peut introduire des informations sur les personnages,
la versification des éléments. Effectivement le balisage en TEI permet de rendre
les données textuelles "intelligentes": il est possible de baliser des
personnages, des langues de citation, des catégories grammaticales, des passages
barrés, etc. Qui peut le plus peut le moins : s'il existe plus de 500 éléments
combinables entre eux, il est possible de travailler avec un jeu de balises
réduit. Pour traiter un roman, 5 ou 6 balises peuvent suffire.
##Comment utiliser le format TEI :
Le travail s'effectue sur des données numériques, ce qui conçoit que quand
les données sont issues d'une numérisation, elles doivent au préalable être
traitées avec un logiciel de reconnaissance optique des caractères (OCR)
(Humanum 2015).
Il existe des éditeurs tels que XML Copy Editor. Certains logiciels incluent
un convertisseur, on peut citer : le logiciel TXM et le logiciel Odette qui
permettent de passer d'un document en traitement de texte à des données en
XML/TEI.
Exemple de texte encodé : Oscar Wilde. The Importance of Being Earnest
disponible sur le site web TEI by example
#Éditeur de Texte et Traitement de Texte :
##Différence :
Un éditeur de texte à l’inverse d’un logiciel de traitement de texte, est un
fichier dont le contenu est constitué de caractères UTF-8 (Universal Character
Set Transformation Format). Initialement développé par l’ISO dans la norme
internationale ISO/CEI 10646. Par sa nature, UTF-8 est d’un usage de plus en
plus courant sur internet, et dans les systèmes devant échanger de
l’information. Il s’agit également du codage le plus utilisé dans les systèmes
GNU/Linux et compatible pour gérer le plus simplement possible des textes et
leurs traductions dans tous les systèmes d’écriture et tous les alphabets du
monde. En effet celui-ci est totalement compatible avec le standard Unicode, un
jeu de caractères qui a pour objectif de codé l’intégralité des caractères
existants, presque 150 mille caractères pris en charge en 2023 dans plus de 150
écritures avec UTF-8, UTF-16 et UTF-32 (chacun étant un codage dédié à des
pratiques, notamment UTF-8 à destination du texte).
*Note : encore faut-il utiliser une police de caractère qui puisse afficher
tout les caractère souaité à l’écrant.
Un traitement de texte comme Google Docs, LibreOffice Writer, OpenOffice
Writer… son chacun codé dans leur propre format .docx pour Microsoft Word, .xlsx
pour Microsoft Excel... Le format PDF étant l’un des seuls compatibles sur
chaque machine, convertir ses documents avec l’extension de fichier .pdf permet
un meilleur échange des données.
Un traitement de texte permet de maitriser parfaitement l’affichage de son
document au vu des nombreuses options dispensées, les éditeurs de texte
(avec UTF-8) quant à eux assurent la pérennisation des données à long terme,
mais permettent moins facilement une mise en page de son texte. Pour ce faire il
faut passer par des systèmes de balisages. Un balisage léger assez simple
d’utilisation comme Markdown ou un balisage lourd et plus fastidieux comme HTML.
(à noter qu’il faut à chaque fois prévisualiser le rendu du document pour voir
ce à quoi il ressemblera une fois ouvert par un lecteur).
##Conclusion :
Le meilleur couplage à des fins de reproductibilité parait être celui d’un
éditeur de texte (avec UTF-8) et l’emplois du balisage TEI.
FR
Espace réservé au journal de bord du Mooc
EN
Reserved for the Mooc's logbook
\ No newline at end of file
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment