diff --git a/journal/Readme.md b/journal/Readme.md index f56eb60293dc1edebe2b3660a48b225330a72878..6fcc02ec5c87a675d191edb73476908aa8d7bd4c 100644 --- a/journal/Readme.md +++ b/journal/Readme.md @@ -1,9 +1,91 @@ -# Journal de bord du Mooc / Mooc's logbook +#Formats de données transversaux : Text Encoding Initiative (TEI) : + +##Problématique : + La question de la reproductibilité, pour soi comme pour les autres, soulève +entre autres celle de la pérennité de l'information scientifique. Or, les +données produites avec des logiciels propriétaires et/ou sous des formats +spécifiques à un outil offrent encore moins de garanties d'accessibilité sur le +long terme. + +##Pourquoi utiliser le format TEI : + La Text Encoding Initiative (TEI) constitue un exemple de format de balisage +standard. L'un de ses enjeux est d'offrir un système de balise évolutif grâce à +son extensibilité. (Bernard et Bohet définissent ainsi la TEI Bernard and Bohet +2017 : "Il s'agit d'un balisage s'appuyant sur le langage XML et qui se présente +comme un dictionnaire de balises couvrant à peu près toutes les situations".) Il +s'agit de permettre à une machine de lire ces données. De plus le langage XML +sur lequel la TEI repose est garanti par le w3c, un organisme de confiance sans +but lucratif. + La TEI permet d'introduire dans le texte des informations allant bien +au-delà des éléments formels entre d'une part, un encodage en HTML, où l'on +prend en compte uniquement les aspects de présentation, et d'autre part, un +encodage en TEI, où l'on peut introduire des informations sur les personnages, +la versification des éléments. Effectivement le balisage en TEI permet de rendre +les données textuelles "intelligentes": il est possible de baliser des +personnages, des langues de citation, des catégories grammaticales, des passages +barrés, etc. Qui peut le plus peut le moins : s'il existe plus de 500 éléments +combinables entre eux, il est possible de travailler avec un jeu de balises +réduit. Pour traiter un roman, 5 ou 6 balises peuvent suffire. + + +##Comment utiliser le format TEI : + Le travail s'effectue sur des données numériques, ce qui conçoit que quand +les données sont issues d'une numérisation, elles doivent au préalable être +traitées avec un logiciel de reconnaissance optique des caractères (OCR) +(Humanum 2015). + Il existe des éditeurs tels que XML Copy Editor. Certains logiciels incluent +un convertisseur, on peut citer : le logiciel TXM et le logiciel Odette qui +permettent de passer d'un document en traitement de texte à des données en +XML/TEI. + + Exemple de texte encodé : Oscar Wilde. The Importance of Being Earnest +disponible sur le site web TEI by example + + +#Éditeur de Texte et Traitement de Texte : + +##Différence : + Un éditeur de texte à l’inverse d’un logiciel de traitement de texte, est un +fichier dont le contenu est constitué de caractères UTF-8 (Universal Character +Set Transformation Format). Initialement développé par l’ISO dans la norme +internationale ISO/CEI 10646. Par sa nature, UTF-8 est d’un usage de plus en +plus courant sur internet, et dans les systèmes devant échanger de +l’information. Il s’agit également du codage le plus utilisé dans les systèmes +GNU/Linux et compatible pour gérer le plus simplement possible des textes et +leurs traductions dans tous les systèmes d’écriture et tous les alphabets du +monde. En effet celui-ci est totalement compatible avec le standard Unicode, un +jeu de caractères qui a pour objectif de codé l’intégralité des caractères +existants, presque 150 mille caractères pris en charge en 2023 dans plus de 150 +écritures avec UTF-8, UTF-16 et UTF-32 (chacun étant un codage dédié à des +pratiques, notamment UTF-8 à destination du texte). + *Note : encore faut-il utiliser une police de caractère qui puisse afficher +tout les caractère souaité à l’écrant. + + Un traitement de texte comme Google Docs, LibreOffice Writer, OpenOffice +Writer… son chacun codé dans leur propre format .docx pour Microsoft Word, .xlsx +pour Microsoft Excel... Le format PDF étant l’un des seuls compatibles sur +chaque machine, convertir ses documents avec l’extension de fichier .pdf permet +un meilleur échange des données. + + Un traitement de texte permet de maitriser parfaitement l’affichage de son +document au vu des nombreuses options dispensées, les éditeurs de texte +(avec UTF-8) quant à eux assurent la pérennisation des données à long terme, +mais permettent moins facilement une mise en page de son texte. Pour ce faire il +faut passer par des systèmes de balisages. Un balisage léger assez simple +d’utilisation comme Markdown ou un balisage lourd et plus fastidieux comme HTML. +(à noter qu’il faut à chaque fois prévisualiser le rendu du document pour voir +ce à quoi il ressemblera une fois ouvert par un lecteur). + + +##Conclusion : + Le meilleur couplage à des fins de reproductibilité parait être celui d’un +éditeur de texte (avec UTF-8) et l’emplois du balisage TEI. + + + + + -FR -Espace réservé au journal de bord du Mooc -EN -Reserved for the Mooc's logbook \ No newline at end of file