Skip to content
Projects
Groups
Snippets
Help
Loading...
Help
Submit feedback
Contribute to GitLab
Sign in
Toggle navigation
M
mooc-rr
Project
Project
Details
Activity
Releases
Cycle Analytics
Repository
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
Issues
0
Issues
0
List
Board
Labels
Milestones
Merge Requests
0
Merge Requests
0
CI / CD
CI / CD
Pipelines
Jobs
Schedules
Charts
Wiki
Wiki
Snippets
Snippets
Members
Members
Collapse sidebar
Close sidebar
Activity
Graph
Charts
Create a new issue
Jobs
Commits
Issue Boards
Open sidebar
67d8d149e378f7db72df30b59b782d31
mooc-rr
Commits
1a24b560
Commit
1a24b560
authored
Jul 27, 2024
by
67d8d149e378f7db72df30b59b782d31
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
Update Readme.md
parent
8bef579c
Changes
1
Show whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
87 additions
and
5 deletions
+87
-5
Readme.md
journal/Readme.md
+87
-5
No files found.
journal/Readme.md
View file @
1a24b560
# Journal de bord du Mooc / Mooc's logbook
#Formats de données transversaux : Text Encoding Initiative (TEI) :
##Problématique :
La question de la reproductibilité, pour soi comme pour les autres, soulève
entre autres celle de la pérennité de l'information scientifique. Or, les
données produites avec des logiciels propriétaires et/ou sous des formats
spécifiques à un outil offrent encore moins de garanties d'accessibilité sur le
long terme.
##Pourquoi utiliser le format TEI :
La Text Encoding Initiative (TEI) constitue un exemple de format de balisage
standard. L'un de ses enjeux est d'offrir un système de balise évolutif grâce à
son extensibilité. (Bernard et Bohet définissent ainsi la TEI Bernard and Bohet
2017 : "Il s'agit d'un balisage s'appuyant sur le langage XML et qui se présente
comme un dictionnaire de balises couvrant à peu près toutes les situations".) Il
s'agit de permettre à une machine de lire ces données. De plus le langage XML
sur lequel la TEI repose est garanti par le w3c, un organisme de confiance sans
but lucratif.
La TEI permet d'introduire dans le texte des informations allant bien
au-delà des éléments formels entre d'une part, un encodage en HTML, où l'on
prend en compte uniquement les aspects de présentation, et d'autre part, un
encodage en TEI, où l'on peut introduire des informations sur les personnages,
la versification des éléments. Effectivement le balisage en TEI permet de rendre
les données textuelles "intelligentes": il est possible de baliser des
personnages, des langues de citation, des catégories grammaticales, des passages
barrés, etc. Qui peut le plus peut le moins : s'il existe plus de 500 éléments
combinables entre eux, il est possible de travailler avec un jeu de balises
réduit. Pour traiter un roman, 5 ou 6 balises peuvent suffire.
##Comment utiliser le format TEI :
Le travail s'effectue sur des données numériques, ce qui conçoit que quand
les données sont issues d'une numérisation, elles doivent au préalable être
traitées avec un logiciel de reconnaissance optique des caractères (OCR)
(Humanum 2015).
Il existe des éditeurs tels que XML Copy Editor. Certains logiciels incluent
un convertisseur, on peut citer : le logiciel TXM et le logiciel Odette qui
permettent de passer d'un document en traitement de texte à des données en
XML/TEI.
Exemple de texte encodé : Oscar Wilde. The Importance of Being Earnest
disponible sur le site web TEI by example
#Éditeur de Texte et Traitement de Texte :
##Différence :
Un éditeur de texte à l’inverse d’un logiciel de traitement de texte, est un
fichier dont le contenu est constitué de caractères UTF-8 (Universal Character
Set Transformation Format). Initialement développé par l’ISO dans la norme
internationale ISO/CEI 10646. Par sa nature, UTF-8 est d’un usage de plus en
plus courant sur internet, et dans les systèmes devant échanger de
l’information. Il s’agit également du codage le plus utilisé dans les systèmes
GNU/Linux et compatible pour gérer le plus simplement possible des textes et
leurs traductions dans tous les systèmes d’écriture et tous les alphabets du
monde. En effet celui-ci est totalement compatible avec le standard Unicode, un
jeu de caractères qui a pour objectif de codé l’intégralité des caractères
existants, presque 150 mille caractères pris en charge en 2023 dans plus de 150
écritures avec UTF-8, UTF-16 et UTF-32 (chacun étant un codage dédié à des
pratiques, notamment UTF-8 à destination du texte).
*
Note : encore faut-il utiliser une police de caractère qui puisse afficher
tout les caractère souaité à l’écrant.
Un traitement de texte comme Google Docs, LibreOffice Writer, OpenOffice
Writer… son chacun codé dans leur propre format .docx pour Microsoft Word, .xlsx
pour Microsoft Excel... Le format PDF étant l’un des seuls compatibles sur
chaque machine, convertir ses documents avec l’extension de fichier .pdf permet
un meilleur échange des données.
Un traitement de texte permet de maitriser parfaitement l’affichage de son
document au vu des nombreuses options dispensées, les éditeurs de texte
(avec UTF-8) quant à eux assurent la pérennisation des données à long terme,
mais permettent moins facilement une mise en page de son texte. Pour ce faire il
faut passer par des systèmes de balisages. Un balisage léger assez simple
d’utilisation comme Markdown ou un balisage lourd et plus fastidieux comme HTML.
(à noter qu’il faut à chaque fois prévisualiser le rendu du document pour voir
ce à quoi il ressemblera une fois ouvert par un lecteur).
##Conclusion :
Le meilleur couplage à des fins de reproductibilité parait être celui d’un
éditeur de texte (avec UTF-8) et l’emplois du balisage TEI.
FR
Espace réservé au journal de bord du Mooc
EN
Reserved for the Mooc's logbook
\ No newline at end of file
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment