From 0fbba29e70f147b6a8d5bbfd635dbb14244f22c1 Mon Sep 17 00:00:00 2001 From: 67d8d149e378f7db72df30b59b782d31 <67d8d149e378f7db72df30b59b782d31@app-learninglab.inria.fr> Date: Sat, 27 Jul 2024 12:56:13 +0000 Subject: [PATCH] Update Readme.md --- journal/Readme.md | 25 +++++++++++-------------- 1 file changed, 11 insertions(+), 14 deletions(-) diff --git a/journal/Readme.md b/journal/Readme.md index 6fcc02e..2159888 100644 --- a/journal/Readme.md +++ b/journal/Readme.md @@ -1,14 +1,14 @@ #Formats de données transversaux : Text Encoding Initiative (TEI) : ##Problématique : - La question de la reproductibilité, pour soi comme pour les autres, soulève -entre autres celle de la pérennité de l'information scientifique. Or, les + La question de la **reproductibilité, pour soi comme pour les autres**, soulève +entre autres celle de la **pérennité** de l'information scientifique. Or, les données produites avec des logiciels propriétaires et/ou sous des formats spécifiques à un outil offrent encore moins de garanties d'accessibilité sur le long terme. ##Pourquoi utiliser le format TEI : - La Text Encoding Initiative (TEI) constitue un exemple de format de balisage + La Text Encoding Initiative *(TEI)* constitue un exemple de format de balisage standard. L'un de ses enjeux est d'offrir un système de balise évolutif grâce à son extensibilité. (Bernard et Bohet définissent ainsi la TEI Bernard and Bohet 2017 : "Il s'agit d'un balisage s'appuyant sur le langage XML et qui se présente @@ -31,8 +31,8 @@ réduit. Pour traiter un roman, 5 ou 6 balises peuvent suffire. ##Comment utiliser le format TEI : Le travail s'effectue sur des données numériques, ce qui conçoit que quand les données sont issues d'une numérisation, elles doivent au préalable être -traitées avec un logiciel de reconnaissance optique des caractères (OCR) -(Humanum 2015). +traitées avec un logiciel de reconnaissance optique des caractères *(OCR)* +*(Humanum 2015)*. Il existe des éditeurs tels que XML Copy Editor. Certains logiciels incluent un convertisseur, on peut citer : le logiciel TXM et le logiciel Odette qui permettent de passer d'un document en traitement de texte à des données en @@ -46,9 +46,8 @@ disponible sur le site web TEI by example ##Différence : Un éditeur de texte à l’inverse d’un logiciel de traitement de texte, est un -fichier dont le contenu est constitué de caractères UTF-8 (Universal Character -Set Transformation Format). Initialement développé par l’ISO dans la norme -internationale ISO/CEI 10646. Par sa nature, UTF-8 est d’un usage de plus en +fichier dont le contenu est constitué de caractères UTF-8 *(Universal Character Set Transformation Format)*. +Initialement développé par l’ISO dans la norme internationale ISO/CEI 10646. Par sa nature, UTF-8 est d’un usage de plus en plus courant sur internet, et dans les systèmes devant échanger de l’information. Il s’agit également du codage le plus utilisé dans les systèmes GNU/Linux et compatible pour gérer le plus simplement possible des textes et @@ -56,8 +55,7 @@ leurs traductions dans tous les systèmes d’écriture et tous les alphabets du monde. En effet celui-ci est totalement compatible avec le standard Unicode, un jeu de caractères qui a pour objectif de codé l’intégralité des caractères existants, presque 150 mille caractères pris en charge en 2023 dans plus de 150 -écritures avec UTF-8, UTF-16 et UTF-32 (chacun étant un codage dédié à des -pratiques, notamment UTF-8 à destination du texte). +écritures avec UTF-8, UTF-16 et UTF-32 *(chacun étant un codage dédié à des pratiques, notamment UTF-8 à destination du texte)*. *Note : encore faut-il utiliser une police de caractère qui puisse afficher tout les caractère souaité à l’écrant. @@ -69,17 +67,16 @@ un meilleur échange des données. Un traitement de texte permet de maitriser parfaitement l’affichage de son document au vu des nombreuses options dispensées, les éditeurs de texte -(avec UTF-8) quant à eux assurent la pérennisation des données à long terme, +*(avec UTF-8)* quant à eux assurent la pérennisation des données à long terme, mais permettent moins facilement une mise en page de son texte. Pour ce faire il faut passer par des systèmes de balisages. Un balisage léger assez simple d’utilisation comme Markdown ou un balisage lourd et plus fastidieux comme HTML. -(à noter qu’il faut à chaque fois prévisualiser le rendu du document pour voir -ce à quoi il ressemblera une fois ouvert par un lecteur). +*(à noter qu’il faut à chaque fois prévisualiser le rendu du document pour voir ce à quoi il ressemblera une fois ouvert par un lecteur)*. ##Conclusion : Le meilleur couplage à des fins de reproductibilité parait être celui d’un -éditeur de texte (avec UTF-8) et l’emplois du balisage TEI. +**éditeur de texte** avec **UTF-8** et l’emplois du **balisage TEI**. -- 2.18.1