Skip to content
Projects
Groups
Snippets
Help
Loading...
Help
Submit feedback
Contribute to GitLab
Sign in
Toggle navigation
M
mooc-rr
Project
Project
Details
Activity
Releases
Cycle Analytics
Repository
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
Issues
0
Issues
0
List
Board
Labels
Milestones
Merge Requests
0
Merge Requests
0
CI / CD
CI / CD
Pipelines
Jobs
Schedules
Charts
Wiki
Wiki
Snippets
Snippets
Members
Members
Collapse sidebar
Close sidebar
Activity
Graph
Charts
Create a new issue
Jobs
Commits
Issue Boards
Open sidebar
67d8d149e378f7db72df30b59b782d31
mooc-rr
Commits
0fbba29e
Commit
0fbba29e
authored
Jul 27, 2024
by
67d8d149e378f7db72df30b59b782d31
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
Update Readme.md
parent
1a24b560
Changes
1
Show whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
11 additions
and
14 deletions
+11
-14
Readme.md
journal/Readme.md
+11
-14
No files found.
journal/Readme.md
View file @
0fbba29e
#Formats de données transversaux : Text Encoding Initiative (TEI) :
#Formats de données transversaux : Text Encoding Initiative (TEI) :
##Problématique :
##Problématique :
La question de la
reproductibilité, pour soi comme pour les autres
, soulève
La question de la
**reproductibilité, pour soi comme pour les autres**
, soulève
entre autres celle de la
pérennité
de l'information scientifique. Or, les
entre autres celle de la
**pérennité**
de l'information scientifique. Or, les
données produites avec des logiciels propriétaires et/ou sous des formats
données produites avec des logiciels propriétaires et/ou sous des formats
spécifiques à un outil offrent encore moins de garanties d'accessibilité sur le
spécifiques à un outil offrent encore moins de garanties d'accessibilité sur le
long terme.
long terme.
##Pourquoi utiliser le format TEI :
##Pourquoi utiliser le format TEI :
La Text Encoding Initiative
(TEI)
constitue un exemple de format de balisage
La Text Encoding Initiative
*(TEI)*
constitue un exemple de format de balisage
standard. L'un de ses enjeux est d'offrir un système de balise évolutif grâce à
standard. L'un de ses enjeux est d'offrir un système de balise évolutif grâce à
son extensibilité. (Bernard et Bohet définissent ainsi la TEI Bernard and Bohet
son extensibilité. (Bernard et Bohet définissent ainsi la TEI Bernard and Bohet
2017 : "Il s'agit d'un balisage s'appuyant sur le langage XML et qui se présente
2017 : "Il s'agit d'un balisage s'appuyant sur le langage XML et qui se présente
...
@@ -31,8 +31,8 @@ réduit. Pour traiter un roman, 5 ou 6 balises peuvent suffire.
...
@@ -31,8 +31,8 @@ réduit. Pour traiter un roman, 5 ou 6 balises peuvent suffire.
##Comment utiliser le format TEI :
##Comment utiliser le format TEI :
Le travail s'effectue sur des données numériques, ce qui conçoit que quand
Le travail s'effectue sur des données numériques, ce qui conçoit que quand
les données sont issues d'une numérisation, elles doivent au préalable être
les données sont issues d'une numérisation, elles doivent au préalable être
traitées avec un logiciel de reconnaissance optique des caractères
(OCR)
traitées avec un logiciel de reconnaissance optique des caractères
*(OCR)*
(Humanum 2015)
.
*(Humanum 2015)*
.
Il existe des éditeurs tels que XML Copy Editor. Certains logiciels incluent
Il existe des éditeurs tels que XML Copy Editor. Certains logiciels incluent
un convertisseur, on peut citer : le logiciel TXM et le logiciel Odette qui
un convertisseur, on peut citer : le logiciel TXM et le logiciel Odette qui
permettent de passer d'un document en traitement de texte à des données en
permettent de passer d'un document en traitement de texte à des données en
...
@@ -46,9 +46,8 @@ disponible sur le site web TEI by example
...
@@ -46,9 +46,8 @@ disponible sur le site web TEI by example
##Différence :
##Différence :
Un éditeur de texte à l’inverse d’un logiciel de traitement de texte, est un
Un éditeur de texte à l’inverse d’un logiciel de traitement de texte, est un
fichier dont le contenu est constitué de caractères UTF-8 (Universal Character
fichier dont le contenu est constitué de caractères UTF-8
*(Universal Character Set Transformation Format)*
.
Set Transformation Format). Initialement développé par l’ISO dans la norme
Initialement développé par l’ISO dans la norme internationale ISO/CEI 10646. Par sa nature, UTF-8 est d’un usage de plus en
internationale ISO/CEI 10646. Par sa nature, UTF-8 est d’un usage de plus en
plus courant sur internet, et dans les systèmes devant échanger de
plus courant sur internet, et dans les systèmes devant échanger de
l’information. Il s’agit également du codage le plus utilisé dans les systèmes
l’information. Il s’agit également du codage le plus utilisé dans les systèmes
GNU/Linux et compatible pour gérer le plus simplement possible des textes et
GNU/Linux et compatible pour gérer le plus simplement possible des textes et
...
@@ -56,8 +55,7 @@ leurs traductions dans tous les systèmes d’écriture et tous les alphabets du
...
@@ -56,8 +55,7 @@ leurs traductions dans tous les systèmes d’écriture et tous les alphabets du
monde. En effet celui-ci est totalement compatible avec le standard Unicode, un
monde. En effet celui-ci est totalement compatible avec le standard Unicode, un
jeu de caractères qui a pour objectif de codé l’intégralité des caractères
jeu de caractères qui a pour objectif de codé l’intégralité des caractères
existants, presque 150 mille caractères pris en charge en 2023 dans plus de 150
existants, presque 150 mille caractères pris en charge en 2023 dans plus de 150
écritures avec UTF-8, UTF-16 et UTF-32 (chacun étant un codage dédié à des
écritures avec UTF-8, UTF-16 et UTF-32
*(chacun étant un codage dédié à des pratiques, notamment UTF-8 à destination du texte)*
.
pratiques, notamment UTF-8 à destination du texte).
*
Note : encore faut-il utiliser une police de caractère qui puisse afficher
*
Note : encore faut-il utiliser une police de caractère qui puisse afficher
tout les caractère souaité à l’écrant.
tout les caractère souaité à l’écrant.
...
@@ -69,17 +67,16 @@ un meilleur échange des données.
...
@@ -69,17 +67,16 @@ un meilleur échange des données.
Un traitement de texte permet de maitriser parfaitement l’affichage de son
Un traitement de texte permet de maitriser parfaitement l’affichage de son
document au vu des nombreuses options dispensées, les éditeurs de texte
document au vu des nombreuses options dispensées, les éditeurs de texte
(avec UTF-8)
quant à eux assurent la pérennisation des données à long terme,
*(avec UTF-8)*
quant à eux assurent la pérennisation des données à long terme,
mais permettent moins facilement une mise en page de son texte. Pour ce faire il
mais permettent moins facilement une mise en page de son texte. Pour ce faire il
faut passer par des systèmes de balisages. Un balisage léger assez simple
faut passer par des systèmes de balisages. Un balisage léger assez simple
d’utilisation comme Markdown ou un balisage lourd et plus fastidieux comme HTML.
d’utilisation comme Markdown ou un balisage lourd et plus fastidieux comme HTML.
(à noter qu’il faut à chaque fois prévisualiser le rendu du document pour voir
*(à noter qu’il faut à chaque fois prévisualiser le rendu du document pour voir ce à quoi il ressemblera une fois ouvert par un lecteur)*
.
ce à quoi il ressemblera une fois ouvert par un lecteur).
##Conclusion :
##Conclusion :
Le meilleur couplage à des fins de reproductibilité parait être celui d’un
Le meilleur couplage à des fins de reproductibilité parait être celui d’un
éditeur de texte (avec UTF-8) et l’emplois du balisage TEI
.
**éditeur de texte**
avec
**UTF-8**
et l’emplois du
**balisage TEI**
.
...
...
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment