Update Readme.md

parent 1a24b560
#Formats de données transversaux : Text Encoding Initiative (TEI) :
##Problématique :
La question de la reproductibilité, pour soi comme pour les autres, soulève
entre autres celle de la pérennité de l'information scientifique. Or, les
La question de la **reproductibilité, pour soi comme pour les autres**, soulève
entre autres celle de la **pérennité** de l'information scientifique. Or, les
données produites avec des logiciels propriétaires et/ou sous des formats
spécifiques à un outil offrent encore moins de garanties d'accessibilité sur le
long terme.
##Pourquoi utiliser le format TEI :
La Text Encoding Initiative (TEI) constitue un exemple de format de balisage
La Text Encoding Initiative *(TEI)* constitue un exemple de format de balisage
standard. L'un de ses enjeux est d'offrir un système de balise évolutif grâce à
son extensibilité. (Bernard et Bohet définissent ainsi la TEI Bernard and Bohet
2017 : "Il s'agit d'un balisage s'appuyant sur le langage XML et qui se présente
......@@ -31,8 +31,8 @@ réduit. Pour traiter un roman, 5 ou 6 balises peuvent suffire.
##Comment utiliser le format TEI :
Le travail s'effectue sur des données numériques, ce qui conçoit que quand
les données sont issues d'une numérisation, elles doivent au préalable être
traitées avec un logiciel de reconnaissance optique des caractères (OCR)
(Humanum 2015).
traitées avec un logiciel de reconnaissance optique des caractères *(OCR)*
*(Humanum 2015)*.
Il existe des éditeurs tels que XML Copy Editor. Certains logiciels incluent
un convertisseur, on peut citer : le logiciel TXM et le logiciel Odette qui
permettent de passer d'un document en traitement de texte à des données en
......@@ -46,9 +46,8 @@ disponible sur le site web TEI by example
##Différence :
Un éditeur de texte à l’inverse d’un logiciel de traitement de texte, est un
fichier dont le contenu est constitué de caractères UTF-8 (Universal Character
Set Transformation Format). Initialement développé par l’ISO dans la norme
internationale ISO/CEI 10646. Par sa nature, UTF-8 est d’un usage de plus en
fichier dont le contenu est constitué de caractères UTF-8 *(Universal Character Set Transformation Format)*.
Initialement développé par l’ISO dans la norme internationale ISO/CEI 10646. Par sa nature, UTF-8 est d’un usage de plus en
plus courant sur internet, et dans les systèmes devant échanger de
l’information. Il s’agit également du codage le plus utilisé dans les systèmes
GNU/Linux et compatible pour gérer le plus simplement possible des textes et
......@@ -56,8 +55,7 @@ leurs traductions dans tous les systèmes d’écriture et tous les alphabets du
monde. En effet celui-ci est totalement compatible avec le standard Unicode, un
jeu de caractères qui a pour objectif de codé l’intégralité des caractères
existants, presque 150 mille caractères pris en charge en 2023 dans plus de 150
écritures avec UTF-8, UTF-16 et UTF-32 (chacun étant un codage dédié à des
pratiques, notamment UTF-8 à destination du texte).
écritures avec UTF-8, UTF-16 et UTF-32 *(chacun étant un codage dédié à des pratiques, notamment UTF-8 à destination du texte)*.
*Note : encore faut-il utiliser une police de caractère qui puisse afficher
tout les caractère souaité à l’écrant.
......@@ -69,17 +67,16 @@ un meilleur échange des données.
Un traitement de texte permet de maitriser parfaitement l’affichage de son
document au vu des nombreuses options dispensées, les éditeurs de texte
(avec UTF-8) quant à eux assurent la pérennisation des données à long terme,
*(avec UTF-8)* quant à eux assurent la pérennisation des données à long terme,
mais permettent moins facilement une mise en page de son texte. Pour ce faire il
faut passer par des systèmes de balisages. Un balisage léger assez simple
d’utilisation comme Markdown ou un balisage lourd et plus fastidieux comme HTML.
(à noter qu’il faut à chaque fois prévisualiser le rendu du document pour voir
ce à quoi il ressemblera une fois ouvert par un lecteur).
*(à noter qu’il faut à chaque fois prévisualiser le rendu du document pour voir ce à quoi il ressemblera une fois ouvert par un lecteur)*.
##Conclusion :
Le meilleur couplage à des fins de reproductibilité parait être celui d’un
éditeur de texte (avec UTF-8) et l’emplois du balisage TEI.
**éditeur de texte** avec **UTF-8** et l’emplois du **balisage TEI**.
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment