From d486a370d6a6863e61719df3615fdacd878b4fb5 Mon Sep 17 00:00:00 2001 From: Arnaud Legrand Date: Mon, 25 Mar 2019 12:48:23 +0100 Subject: [PATCH] Add table of contents for HTML generation --- module1/ressources/sequence1.org | 8 +++ module1/ressources/sequence1_fr.org | 20 ++++--- module1/ressources/sequence2.org | 91 ++++++++++++++++------------- module1/ressources/sequence2_fr.org | 25 +++++--- module1/ressources/sequence3_fr.org | 11 ++-- module1/ressources/sequence5_fr.org | 41 ++++++++----- 6 files changed, 120 insertions(+), 76 deletions(-) diff --git a/module1/ressources/sequence1.org b/module1/ressources/sequence1.org index 1732bc9..881d19a 100644 --- a/module1/ressources/sequence1.org +++ b/module1/ressources/sequence1.org @@ -12,6 +12,14 @@ #+EXCLUDE_TAGS: noexport #+CREATOR: Emacs 26.1 (Org mode 9.1.9) +* Table of contents :TOC: +- [[#introduction][Introduction]] +- [[#annotated-manuscripts][Annotated manuscripts]] +- [[#note-cabinets-from-placcius-and-leibniz][Note cabinets from Placcius and Leibniz]] +- [[#on-the-preface-to-penguin-island][On the preface to /Penguin Island/]] +- [[#the-logbooks][The logbooks]] +- [[#one-missing-the-classic-laboratory-notebook][One missing: the classic laboratory notebook]] + * Introduction This sequence discusses a much wider issue than /reproducible research/ (RR). Implementing RR requires thorough note-taking and note-taking concerns everyone. The purpose of this sequence is therefore to remind the reader / auditor that he/she already knows: *note-taking concerns everyone*. Few examples are used to that end. diff --git a/module1/ressources/sequence1_fr.org b/module1/ressources/sequence1_fr.org index be3e291..e4fb20a 100644 --- a/module1/ressources/sequence1_fr.org +++ b/module1/ressources/sequence1_fr.org @@ -13,9 +13,14 @@ #+CREATOR: Emacs 26.1 (Org mode 9.1.9) #+STARTUP: indent -* Notes et références sur la séquence 1 : « Nous utilisons tous des cahiers de notes » - -** Manuscrits annotés +* Table des matières :TOC: +- [[#manuscrits-annotés][Manuscrits annotés]] +- [[#armoires-à-notes-de-placcius-et-leibniz][Armoires à notes de Placcius et Leibniz]] +- [[#la-préface-de-lîle-des-pingouins-danatole-france][La préface de « L'île des pingouins » d'Anatole France]] +- [[#les-livres-de-bord][Les livres de bord]] +- [[#un-absent-le-cahier-de-laboratoire-classique][Un absent : le cahier de laboratoire classique]] + +* Manuscrits annotés En guise d'entrée dans l'univers des manuscrits annotés, je fais suivre une petite sélection de passages du premier chapitre de « LA PAGE. DE L'ANTIQUITÉ À L'ÈRE DU NUMÉRIQUE » d'Anthony Grafton (Hazan, 2012) : #+BEGIN_EXAMPLE @@ -61,11 +66,11 @@ pas rompus à la rhétorique, ont classé ce livre imprimé parmi les manuscrits Page 40. -** Armoires à notes de Placcius et Leibniz +* Armoires à notes de Placcius et Leibniz J'ai trouvé cet exemple dans les travaux d'[[https://projects.iq.harvard.edu/ablair][Ann Blair]] comme « [[https://dash.harvard.edu/handle/1/4774908][The Rise of Note-Taking in Early Modern Europe]] » et son livre « [[https://yalebooks.yale.edu/book/9780300165395/too-much-know][TOO MUCH TO KNOW. Managing Scholarly Information before the Modern Age]] », publié chez /Yale University Press/ en 2011. -** La préface de « L'île des pingouins » d'Anatole France +* La préface de « L'île des pingouins » d'Anatole France Étant très loin de connaître Anatole France sur le bout des doigts, j'ai trouvé la référence citée dans le remarquable article de Keith Thomas publié par la /London Review of Books/, [[https://www.lrb.co.uk/v32/n11/keith-thomas/diary][le 10 juin 2010]]. Cet article (en anglais) décrit et discute le travail concret de prise de notes par un historien, il est de plus très bien écrit et plein d'anecdotes. -** Les livres de bord +* Les livres de bord Je remercie Joël Caselli de m'avoir aidé à interpréter le contenu du livre de bord d'Éric Tabarly. Le projet européen de reconstruction des climats des océans atlantique et indien (et non pacifique comme je le dis dans le cours !) : [[http://webs.ucm.es/info/cliwoc/][/Climatological Database for the World's Oceans 1750-1850/]] ; dispose d'un site internet très intéressant (mais en anglais). @@ -75,8 +80,7 @@ On trouvera des citations abondantes (et effrayantes) de livres de bord de navir - -** Un absent : le cahier de laboratoire classique +* Un absent : le cahier de laboratoire classique Je traduis ici la section 6.2 /Notebooks and Records/ du remarquable livre de E. Bright Wilson /An Introduction to Scientific Research/ réimprimé par Dover. diff --git a/module1/ressources/sequence2.org b/module1/ressources/sequence2.org index d140e11..476db8c 100644 --- a/module1/ressources/sequence2.org +++ b/module1/ressources/sequence2.org @@ -13,6 +13,17 @@ #+CREATOR: Emacs 26.1 (Org mode 9.1.9) +* Table of contents :TOC: +- [[#illustrations-used-in-the-first-figure][Illustrations used in the first figure]] +- [[#wax-tablet-and-stylus][Wax tablet and stylus]] + - [[#from-the-scroll-to-the-codex][From the /scroll/ to the /codex/]] +- [[#codex-significance][/Codex/ significance]] +- [[#eusebius-and-the-invention-of-cross-references][Eusebius and the invention of cross-references]] + - [[#eusebian-canons][Eusebian canons]] +- [[#let-us-not-forget-china][Let us not forget China]] +- [[#getting-organized-by-using-the-right-slot][Getting organized by using the right slot]] +- [[#constructing-a-notebook-index-the-john-locke-way][Constructing a notebook index the John Locke way]] + * Illustrations used in the first figure All illustrations are taken from Wikimedia Commons @@ -39,58 +50,42 @@ The entire tablet could be erased for reuse by warming it to about 50 °C and sm "a clean slate" equates to the Latin expression "tabula rasa". #+END_QUOTE -* From the /scroll/ to the /codex/ - -The shift from the /scroll/ to the /codex/ is fundamental for development of written civilization. - -A scroll (from the Old French escroe or escroue), is a roll of papyrus, [[https://en.wikipedia.org/wiki/Parchment][parchment]], or paper containing writing. - -From [[https://en.wikipedia.org/wiki/History_of_scrolls#Replacement_by_the_Codex][Wikipedia]]: - -#+BEGIN_QUOTE -The codex was a new format for reading the written word, consisting of individual pages loosely attached to each other at one -side and bound with boards or cloth. It came to replace the scroll thanks to several problems that limited the scroll's function -and readability. For one, scrolls were very long, sometimes as long as ten meters. This made them hard to hold open and read, a -difficulty not helped by the fact that most scrolls in that era were read horizontally, instead of vertically as scrolling virtual -documents are read now. The text on a scroll was continuous, without page breaks, which made indexing and bookmarking impossible. -Conversely, the codex was easier to hold open, separate pages made it possible to index sections and mark a page, and the protective -covers kept the fragile pages intact better than scrolls generally stayed. This last made it particularly attractive for important -religious texts. -#+END_QUOTE +** From the /scroll/ to the /codex/ -The bottom left mosaic shows Virgil seating (70-19 BCE) holding a scroll of the /Aeneid/, with Clio, muse of history, also holding a scroll. + The shift from the /scroll/ to the /codex/ is fundamental for development of written civilization. -As explained by Frédéric Barbier (/Histoire du Livre/): "The scroll / volumen imposes a complex reading practice: one must unroll (/explicare/) and roll at the same time; that forbids working on several scrolls (the original text and its commentary) at the same time or to take notes. It imposes a continuous reading and making consultation impossible." + A scroll (from the Old French escroe or escroue), is a roll of papyrus, [[https://en.wikipedia.org/wiki/Parchment][parchment]], or paper containing writing. -Scrolls are clearly unsuited to "nomadic reading"; can you imagine Ulysses embarking for his Odyssey carrying the 24 scrolls/volumen of the Iliad? + From [[https://en.wikipedia.org/wiki/History_of_scrolls#Replacement_by_the_Codex][Wikipedia]]: -The term /volumen/ is the origin of our modern /volumes/ (a book in several volumes) as of the word for the geometrical concept. + #+BEGIN_QUOTE + The codex was a new format for reading the written word, consisting of individual pages loosely attached to each other at one + side and bound with boards or cloth. It came to replace the scroll thanks to several problems that limited the scroll's function + and readability. For one, scrolls were very long, sometimes as long as ten meters. This made them hard to hold open and read, a + difficulty not helped by the fact that most scrolls in that era were read horizontally, instead of vertically as scrolling virtual + documents are read now. The text on a scroll was continuous, without page breaks, which made indexing and bookmarking impossible. + Conversely, the codex was easier to hold open, separate pages made it possible to index sections and mark a page, and the protective + covers kept the fragile pages intact better than scrolls generally stayed. This last made it particularly attractive for important + religious texts. + #+END_QUOTE -Switching from scroll to codices required two innovations: -- The collection of wax tablets bound together with leather strands. -- The generalization of [[https://en.wikipedia.org/wiki/Parchment][parchment]] (usually sheep skin specially processed) as a replacement for [[https://en.wikipedia.org/wiki/Papyrus][papyrus]]. This generalization could be due (according to Pliny the Elder) to a rivalry between the cities of Pergamon and Alexandria for cultural hegemony: [[https://en.wikipedia.org/wiki/Ptolemy_V_Epiphanes][Ptolemy V Epiphanes]] King of Egypt wanted to block [[https://en.wikipedia.org/wiki/Eumenes_II][Eumenes II]] from developing in Pergamon a library that could compete with the one of Alexandria; he therefore imposed an embargo on papyrus export (Egypt was the sole papyrus producer). Eumenes looked for an alternative and fostered parchment development. The link between Pergamon and parchment is much clearer in German where Pergamon is written in the way as in English but where parchment is written /Pergament/. + The bottom left mosaic shows Virgil seating (70-19 BCE) holding a scroll of the /Aeneid/, with Clio, muse of history, also holding a scroll. -Switching from scrolls to codices will have major consequences on books organization as well as on the reading practices, it will later on allow printing development. + As explained by Frédéric Barbier (/Histoire du Livre/): "The scroll / volumen imposes a complex reading practice: one must unroll (/explicare/) and roll at the same time; that forbids working on several scrolls (the original text and its commentary) at the same time or to take notes. It imposes a continuous reading and making consultation impossible." -The main revolution brought by the codex is the /page/. Thanks to this structural element, the reader can access directly to a specific chapter or a specific part of the text, while scrolls imposed continuous reading *at a time when there were no blanks between words*. According to Collette Sirat: "Twenty centuries will be necessary to realize the paramount importance of the codex for our civilization through the *selective reading* it made possible as opposed to the continuous reading. It opened room for the elaboration of mental structures where the text is dissociated from the speech and its rhythm." + Scrolls are clearly unsuited to "nomadic reading"; can you imagine Ulysses embarking for his Odyssey carrying the 24 scrolls/volumen of the Iliad? -Notice the red letters used on the codex (bottom right), an example of [[https://en.wikipedia.org/wiki/Rubrication][rubrication]] used by scribes to mark paragraphs. With printing and the high cost of colors it entailed, an empty space started to be used to that end. Thinking about it, colors don't cost anything on a numerical support and could perfectly be used again in the same way. + The term /volumen/ is the origin of our modern /volumes/ (a book in several volumes) as of the word for the geometrical concept. -* Eusebius and the invention of cross-references + Switching from scroll to codices required two innovations: + - The collection of wax tablets bound together with leather strands. + - The generalization of [[https://en.wikipedia.org/wiki/Parchment][parchment]] (usually sheep skin specially processed) as a replacement for [[https://en.wikipedia.org/wiki/Papyrus][papyrus]]. This generalization could be due (according to Pliny the Elder) to a rivalry between the cities of Pergamon and Alexandria for cultural hegemony: [[https://en.wikipedia.org/wiki/Ptolemy_V_Epiphanes][Ptolemy V Epiphanes]] King of Egypt wanted to block [[https://en.wikipedia.org/wiki/Eumenes_II][Eumenes II]] from developing in Pergamon a library that could compete with the one of Alexandria; he therefore imposed an embargo on papyrus export (Egypt was the sole papyrus producer). Eumenes looked for an alternative and fostered parchment development. The link between Pergamon and parchment is much clearer in German where Pergamon is written in the way as in English but where parchment is written /Pergament/. -From the Wikipedia page on [[https://en.wikipedia.org/wiki/Eusebius][Eusebius]]: -#+BEGIN_QUOTE -Eusebius of Caesarea (ad 260/265 – 339/340), also known as Eusebius Pamphili, was a historian of Christianity, exegete, and Christian polemicist. He became the bishop of Caesarea Maritima about 314 AD. Together with Pamphilus, he was a scholar of the Biblical canon and is regarded as an extremely learned Christian of his time. He wrote Demonstrations of the Gospel, Preparations for the Gospel, and On Discrepancies between the Gospels, studies of the Biblical text. -#+END_QUOTE + Switching from scrolls to codices will have major consequences on books organization as well as on the reading practices, it will later on allow printing development. -According to Anthony Grafton and Megan Williams (2006) /Christianity and the Transformation of the Book/, The Belknap Press of Harvard University Press, his writings are crucial for our knowledge of the first three centuries of Christian history. /He brought several essential innovations to the book's organization like the cross-references/. + The main revolution brought by the codex is the /page/. Thanks to this structural element, the reader can access directly to a specific chapter or a specific part of the text, while scrolls imposed continuous reading *at a time when there were no blanks between words*. According to Collette Sirat: "Twenty centuries will be necessary to realize the paramount importance of the codex for our civilization through the *selective reading* it made possible as opposed to the continuous reading. It opened room for the elaboration of mental structures where the text is dissociated from the speech and its rhythm." -* Eusebian canons - -Quote from [[https://en.wikipedia.org/wiki/Eusebius#Biblical_text_criticism][Wikipedia]]: -#+BEGIN_QUOTE -For an easier survey of the material of the four Evangelists, Eusebius divided his edition of the New Testament into paragraphs and provided it with a synoptical table so that it might be easier to find the pericopes that belong together. These canon tables or "Eusebian canons" remained in use throughout the Middle Ages, and illuminated manuscript versions are important for the study of early medieval art, as they are the most elaborately decorated pages of many Gospel books. -#+END_QUOTE + Notice the red letters used on the codex (bottom right), an example of [[https://en.wikipedia.org/wiki/Rubrication][rubrication]] used by scribes to mark paragraphs. With printing and the high cost of colors it entailed, an empty space started to be used to that end. Thinking about it, colors don't cost anything on a numerical support and could perfectly be used again in the same way. * /Codex/ significance @@ -114,6 +109,22 @@ Over centuries, /codices/---that we often call /manuscripts/---will slowly evolv An interesting point: Torah's content got "fixed" before the /codex/ generalization and today Torah scrolls are still used. +* Eusebius and the invention of cross-references + +From the Wikipedia page on [[https://en.wikipedia.org/wiki/Eusebius][Eusebius]]: +#+BEGIN_QUOTE +Eusebius of Caesarea (ad 260/265 – 339/340), also known as Eusebius Pamphili, was a historian of Christianity, exegete, and Christian polemicist. He became the bishop of Caesarea Maritima about 314 AD. Together with Pamphilus, he was a scholar of the Biblical canon and is regarded as an extremely learned Christian of his time. He wrote Demonstrations of the Gospel, Preparations for the Gospel, and On Discrepancies between the Gospels, studies of the Biblical text. +#+END_QUOTE + +According to Anthony Grafton and Megan Williams (2006) /Christianity and the Transformation of the Book/, The Belknap Press of Harvard University Press, his writings are crucial for our knowledge of the first three centuries of Christian history. /He brought several essential innovations to the book's organization like the cross-references/. + +** Eusebian canons + + Quote from [[https://en.wikipedia.org/wiki/Eusebius#Biblical_text_criticism][Wikipedia]]: + #+BEGIN_QUOTE + For an easier survey of the material of the four Evangelists, Eusebius divided his edition of the New Testament into paragraphs and provided it with a synoptical table so that it might be easier to find the pericopes that belong together. These canon tables or "Eusebian canons" remained in use throughout the Middle Ages, and illuminated manuscript versions are important for the study of early medieval art, as they are the most elaborately decorated pages of many Gospel books. + #+END_QUOTE + * Let us not forget China The link between the /codex/ generalization, on the one hand, and the apparition of "navigation guides" like the table of content, the index, the running title, on the other hand as a counterpart in the Chinese civilization. diff --git a/module1/ressources/sequence2_fr.org b/module1/ressources/sequence2_fr.org index 35eeedb..ee2ac90 100644 --- a/module1/ressources/sequence2_fr.org +++ b/module1/ressources/sequence2_fr.org @@ -13,8 +13,16 @@ #+CREATOR: Emacs 26.1 (Org mode 9.1.9) #+STARTUP: indent -* Notes et références sur la séquence 2 : « Un aperçu historique de la prise de notes » -** Références générales +* Table des matières :TOC: +- [[#références-générales][Références générales]] +- [[#sur-les-tablettes-de-cires][Sur les tablettes de cires]] +- [[#sur-le-passage-du-rouleau-volumen-au-codex][Sur le passage du rouleau (/volumen/) au codex]] +- [[#sur-eusèbe-de-césarée][Sur Eusèbe de Césarée]] +- [[#parallèle-chinois][Parallèle chinois]] +- [[#retour-sur-larmoire-à-notes][Retour sur l'armoire à notes]] +- [[#lindex-et-john-locke][L'index et John Locke]] + +* Références générales En plus des deux livres déjà cités (en séquence 1) : - « LA PAGE. DE L'ANTIQUITÉ À L'ÈRE DU NUMÉRIQUE » d'Anthony Grafton (Hazan, 2012) ; - « [[https://yalebooks.yale.edu/book/9780300165395/too-much-know][TOO MUCH TO KNOW. Managing Scholarly Information before the Modern Age]] », d'Ann Blair publié chez /Yale University Press/ en 2011 ; @@ -25,10 +33,9 @@ j'ai utilisé : - le catalogue de l'exposition de la BNF « Tous les savoirs du monde : Encyclopédies et bibliothèques de Sumer au XXIème siècle » ; - « [[http://litmedmod.ca/sites/default/files/pdf/vandendorpe-papyrusenligne_lr.pdf][Du papyrus à l'hypertexte]] » de Christian Vandendorpe (La Découverte, 1999). - -** Sur les tablettes de cires +* Sur les tablettes de cires Voir le site de Jacques Poitou (d'où les illustrations sont empruntées) et le livre de Frédéric Barbier, « L'histoire du livre ». -** Sur le passage du rouleau (/volumen/) au codex +* Sur le passage du rouleau (/volumen/) au codex Voir le livre de Frédéric Barbier, celui d'Anthony Grafton. Le /volumen/ est un livre à base de feuilles de papyrus collées les unes aux autres et qui s'enroule sur lui-même. Il a été créé en Égypte vers 3000 av. J.-C. Le texte est rédigé en colonnes parallèles assez étroites. C'est le support du texte par excellence durant les trente siècles précédant notre ère, d'abord en Égypte, puis dans tout le monde méditerranéen. @@ -51,20 +58,20 @@ Au fil des siècles, le codex — qu'on désigne le plus souvent comme un manusc Un point intéressant : le contenu de la Thora est « fixé » avant l'apparition du codex et, aujourd'hui encore, la Thora est écrite sur des /volumen/ (dans les synagogues au moins). La religion chrétienne se développe en même temps que le codex, adopte ce support et le répand ; elle ne donnera jamais au /volumen/ un statut « supérieur », pas plus que ne le fera la religion musulmane. -** Sur Eusèbe de Césarée +* Sur Eusèbe de Césarée Pour en savoir plus sur [[https://fr.wikipedia.org/wiki/Eus%C3%A8be_de_C%C3%A9sar%C3%A9e][Eusèbe de Césarée]], consultez le passionnant deuxième chapitre du livre d'Anthony Grafton. -** Parallèle chinois +* Parallèle chinois Comme je le dis, mon inculture fait que je ne rends pas justice aux contributions chinoises, musulmanes, précolombienne, etc. J'essaierai de combler cette énorme lacune pour les seconde version du CLOM... Ce que je dis sur le passage du volumen au codex accompagné d'un développement des « outils de navigation » (index, table des matières, etc) en Chine lors du développement de leishus vient du bouquin d'Ann Blair (p. 31) qui cite un article de Susan Cherniack, « Book Culture and Textual Transmission in Sung China », /Harvard Journal of Asiatic Studies/ Vol. 54, No. 1 (Jun., 1994), pp. 5-125. -** Retour sur l'armoire à notes +* Retour sur l'armoire à notes Nous revenons sur le « bout de papier » ou la fiche comme support de note. L'inconvénient est que le bout de papier ou la fiche se perdent facilement et ne servent à rien s'ils ne sont pas *classés* en plus d'être rangés. Problème résolu par l'armoire de Placcius. D'une certaine façon, sa conception fait qu'on accède à son contenu par l'index. L'avantage est que les notes peuvent être réorganisées si elles contiennent des information sur plusieurs sujets. Elle peuvent aussi être directement collées dans un livre lors de la composition d'un florilège ou d'un ouvrage de synthèse. Ce dernier procédé était très couramment employé par les humanistes et les érudit de la renaissance et du début de la période moderne. [[https://fr.wikipedia.org/wiki/Conrad_Gessner][Conrad Gessner]] (1516-1565) était un champion de cette technique ; il obtenait même parfois ses fiches en découpant les pages des livres. Encore une fois, ne faites pas cela avec les livres de bibliothèques ! -** L'index et John Locke +* L'index et John Locke Sur l'origine de l'index, on pourra lire l'article de Jean Berger : [[https://www.theindexer.org/files/25-2-berger.pdf][Indexation, Memoire, pouvoir et representations au seuil du XIIe siecle : La redecouverte des feuillets de tables du Liber De Honoribus, premier cartulaire de la collegiale Saint-Julien de Brioude]], /The Indexer/. diff --git a/module1/ressources/sequence3_fr.org b/module1/ressources/sequence3_fr.org index da636e6..8c4e54a 100644 --- a/module1/ressources/sequence3_fr.org +++ b/module1/ressources/sequence3_fr.org @@ -13,20 +13,23 @@ #+CREATOR: Emacs 26.1 (Org mode 9.1.9) #+STARTUP: indent -* Notes et références sur la séquence 3 : « Du fichier texte au langage de balisage léger » +* Table des matières :TOC: +- [[#fichier-texte-et-éditeur-de-texte][Fichier texte et éditeur de texte]] +- [[#le-cas-du-fichier-pdf-ouvert-avec-un-éditeur-de-texte][Le cas du fichier =PDF= ouvert avec un éditeur de texte]] +- [[#sur-lutf-8][Sur l'UTF-8]] -** Fichier texte et éditeur de texte +* Fichier texte et éditeur de texte Une définition plus technique (et moins circulaire !) du fichier texte se trouve sur [[https://fr.wikipedia.org/wiki/Fichier_texte][la page wikipédia]] consacrée au sujet. Pour plus de détails sur les éditeurs de texte, voir aussi la [[https://fr.wikipedia.org/wiki/%C3%89diteur_de_texte][page wikipédia correspondante]]. Un logiciel de « [[https://fr.wikipedia.org/wiki/Traitement_de_texte][traitement de texte]] » est plus sophistiqué qu'un simple éditeur de texte ; il permet de faire plus, ce qui sous entend qu'il peut aussi ouvrir et manipuler des fichiers textes. *Attention* : le format « natif » des traitements de texte est rarement un format texte. Les fichiers =doc= et =docx= de =Word= et =odt= de =LibreOffice= /ne sont pas des fichiers textes/. -** Le cas du fichier =PDF= ouvert avec un éditeur de texte +* Le cas du fichier =PDF= ouvert avec un éditeur de texte Dans le cours filmé, j'utilise l'exemple du [[https://en.wikipedia.org/wiki/Portable_Document_Format][PDF]] — je donne l'adresse de la page wikipedia en anglais, bien plus complète que celle en français — ouvert avec un éditeur de texte pour montrer que le fichier ne peut pas être visualisé avec un tel logiciel, il faut un logiciel de rendu dédié comme =Adobe Reader=, =Evince=, =MuPDF=, =Aperçu=,... Vous remarquez néanmoins que le début du fichier contient du texte (la première ligne nous apprend que le fichier utilise la version 1.3 du format =PDF=). Cette partie au format texte du fichier contient les méta-données — qui ne sont pas montrées, en tout cas pas directement, par les logiciels de rendu. Ces méta-données sont (en partie) au format [[https://en.wikipedia.org/wiki/Extensible_Metadata_Platform][XMP]] (/Extensible Metadata Platform/), nous y reviendrons dans la cinquème séquence. -** Sur l'UTF-8 +* Sur l'UTF-8 Une table des symboles UTF-8, avec leur code se trouve à l'adresse : [[http://www.utf8-chartable.de/]]. C'est pratique pour insérer un symbole pas très courant comme la lettre « TLO » : Ꮰ de la langue cherokee, ou le symbole mathématique ∀, « pour tout ». diff --git a/module1/ressources/sequence5_fr.org b/module1/ressources/sequence5_fr.org index a2ce89b..adc2737 100644 --- a/module1/ressources/sequence5_fr.org +++ b/module1/ressources/sequence5_fr.org @@ -13,8 +13,21 @@ #+CREATOR: Emacs 26.1 (Org mode 9.1.9) #+STARTUP: indent -* Notes et références sur la séquence 5 : « Les étiquettes et les logiciels d'indexation pour s'y retrouver » -** La structure de la séquence +* Table des matières :TOC: +- [[#la-structure-de-la-séquence][La structure de la séquence]] +- [[#la-citation-de-leibniz][La citation de Leibniz]] +- [[#rechercher-avec-un-éditeur-de-texte][Rechercher avec un éditeur de texte]] +- [[#recherche-avec-index-construit-à-la-main-sur-des-cahiers-de-notes][Recherche avec index construit « à la main » sur des cahiers de notes]] +- [[#recherche-avec-index-matérialisés][Recherche avec index « matérialisés »]] +- [[#vers-les-outils-sophistiqués-de-linformatique][Vers les outils « sophistiqués » de l'informatique]] +- [[#les-moteurs-de-recherche-de-bureau][Les moteurs de recherche de bureau]] +- [[#pourquoi-des-étiquettes][Pourquoi des étiquettes]] +- [[#les-métadonnées][Les métadonnées]] + - [[#fichiers-images][Fichiers images]] + - [[#fichiers-pdf][Fichiers =PDF=]] + - [[#fichiers-audios][Fichiers audios]] + +* La structure de la séquence Nous revenons ici sur le problème de l'indexation, pas tant sur l'indexation d'un document unique que sur l'indexation de documents multiples dans des formats divers : - comme nous l'avons déjà affirmé, prendre des notes abondantes et détaillées n'est utile que si nous pouvons retrouver les informations qu'elles contiennent quand nous en avons besoin ; @@ -24,7 +37,7 @@ Nous revenons ici sur le problème de l'indexation, pas tant sur l'indexation d' - mais nous voulons ici aller plus loin, dans le cadre restreint des « notes » numérisées, en discutant de l'indexation de fichiers multiples qu'ils soient au format « texte » où dans d'autres format comme les images =jpg= où les fichier =pdf= ; - cela nous amménera à introduire les « moteurs de recherche de bureau » et à expliquer comment des =étiquettes= ou =mots-clés= peuvent être ajoutés à nos fichiers. -** La citation de Leibniz +* La citation de Leibniz J'ai trouvé la citation introductive : « Il me semble que l'apparat savant contemporain est comparable à un grand magasin qui contient une grande quantité de produits, stockés de façon totalement désordonnée, mélangée ; où les nombres ou lettres d'indexation manquent ; où les inventaires et livres de comptes pouvant aider à ordonner le contenu ont disparus. @@ -35,28 +48,28 @@ sur le site [[http://www.backwordsindexing.com/index.html]], c'est donc une trad Leibniz a, pendant une bonne partie de sa vie, « gagné celle-ci » comme [[https://www.reseau-canope.fr/savoirscdi/societe-de-linformation/le-monde-du-livre-et-des-medias/histoire-du-livre-et-de-la-documentation/biographies/leibniz-le-bibliothecaire.html][bibliothécaire]], ce qui explique en partie sont intérêt très poussé pour les questions de classifications, d'indexations, etc. -** Rechercher avec un éditeur de texte +* Rechercher avec un éditeur de texte La diapo correspondante rappelle juste au lecteur quelque chose qu'il sait déjà et qui est vue, par les gens qui passent des notes « papier » aux notes « numériques », comme le gros attrait du numérique. Les gens de monde Unix/Linux connaissent aussi généralement le programme [[https://fr.wikipedia.org/wiki/Grep][grep]] qui permet de faire des recherches de mots et, plus généralement d'[[https://fr.wikipedia.org/wiki/Expression_r%C3%A9guli%C3%A8re][expressions régulières]], sur un ou /plusieurs/ fichiers ; nous y reviendrons. -** Recherche avec index construit « à la main » sur des cahiers de notes +* Recherche avec index construit « à la main » sur des cahiers de notes Là encore, il s'agit juste d'un rappel pour les lecteurs assidus de ce cours ; à ce stade se sont des experts dans la méthode d'indexation de Locke. -** Recherche avec index « matérialisés » +* Recherche avec index « matérialisés » Encore un rappel pour les lecteurs. -** Vers les outils « sophistiqués » de l'informatique +* Vers les outils « sophistiqués » de l'informatique - les techniques que nous venons de voir ou revoir ne fonctionnent que pour un seul « document » — recherche avec l'éditeur de texte, index d'un cahier — et/ou pour un seul type de document ; - les outils informatiques dont nous disposons nous permettent d'aller plus loin dans l'indexation des fichiers numériques ; - il est possible de rajouter des étiquettes ou mots-clés à des fichiers textes comme à des fichiers images (`jpg`, `png`) ou des fichiers « mixtes » (`pdf`) grâce aux métadonnées qu'ils contiennent ; - les moteurs de recherche de bureau permettent d'indexer l'ensemble des fichiers textes d'une arborescence donnée mais aussi les métadonnées des autres fichiers. -** Les moteurs de recherche de bureau +* Les moteurs de recherche de bureau Les moteurs de recherche de bureau comme : - [[http://docfetcher.sourceforge.net/fr/index.html][DocFetcher]] (Linux, MacOS, Windows) ; @@ -85,8 +98,7 @@ grep -r Galilée Une version plus sophistiquée de =grep= est fournie par le programme [[http://uzix.org/cgvg.html][cgvg]]. - -** Pourquoi des étiquettes +* Pourquoi des étiquettes Une requête basée sur un simple mot renvoie souvent un très grand nombre de propositions, même si la plupart des moteurs de recherche de bureau permettent de filtrer ces dernières. Une façon efficace de limiter leur nombre est d'inclure dans nos documents des étiquettes, c'est-à-dire des points d'ancrage labelisés, qui seront aisément indexés par le moteur de recherche de bureau et dont le label ne correspond à aucun mot ou locution du dictionnaire — nous effectuons ainsi une version simplifiée du travail de l'/indexeur/, la personne chargée de construire l'index d'un livre. Pour que l'étiquette garde un sens, il suffit d'encadrer un mot par une paire de signes de ponctuation comme « : », « ; » ou « ? ». Un label comme « :code: » sera facilement mémorisé et fera un parfait équivalent du mot-clé « code » utilisé dans l'exemple du cahier de note de la deuxième séquence de ce module — pour illustrer la méthode de Locke. @@ -98,15 +110,14 @@ Il nous reste encore nous reste encore un détail technique à régler dans le c à l'endroit de nos notes où nous souhaitons aller rapidement lorsque que nous cherchons une information relative à de la programmation (production de codes). -** Les métadonnées - -*** Fichiers images +* Les métadonnées +** Fichiers images Nous savons à présent comment rajouter des étiquettes à un fichier au format texte, mais nous devons souvent aussi travailler avec des fichiers contenant des images ou des photos, comme les fichiers [[https://fr.wikipedia.org/wiki/JPEG][JPEG]] — les appareils photos numériques utilisent tous ce format —, [[https://fr.wikipedia.org/wiki/Graphics_Interchange_Format][GIF]] ou [[https://fr.wikipedia.org/wiki/Portable_Network_Graphics][PNG]]. La question se pose alors, peut-on ajouter des étiquettes à nos fichiers images de sorte que nos moteurs de recherche de bureau les indexent ? La réponse et oui, grâce aux [[https://fr.wikipedia.org/wiki/M%C3%A9tadonn%C3%A9e][métadonnées]] que contiennent ces fichiers. Les métadonnées, dans ce cas, sont des données stockées dans le fichier mais qui ne sont pas montrées par le logiciel de rendu (en tout cas, pas montrées par défaut). Nous savons tous que ces métadonnées « existent » ; ce sont elles qui contiennent la date, la localisation GPS, le temps d'exposition, etc. de nos photos numériques. Dans les fichiers =JPEG=, elles sont stockées suivant l'[[https://fr.wikipedia.org/wiki/Exchangeable_image_file_format][exchangeable image file format]] (=EXIF=). La plupart des logiciels de manipulations d'images et de photos permettent d'accéder au contenu des métadonnées et de les modifier. L'exemple illustré dans le cours utilise une solution très simple en « ligne de commande », [[http://owl.phy.queensu.ca/~phil/exiftool/][ExifTool]] qui permet de visualiser et de modifier les métadonnées. D'autres logiciels comme [[http://www.exiv2.org/index.html][exiv2]] ou [[https://imagemagick.org/script/index.php][ImageMagick]] permettent de le faire (pour ne citer que des logiciels libres disponibles sur Linux, Windows et MacOS). Certains des éléments du format =EXIF= sont des chaînes de caractères, c'est-à-dire du texte, que nous somme libres d'utiliser comme nous le souhaitons ; nous pouvons dès lors les utiliser pour rajouter nos étiquettes. Nous illustrons dans le cours comment le faire avec =ExifTool=, mais nous aurions aussi pu le faire avec le programme [[https://www.imagemagick.org/script/command-line-options.php#comment][mogrify]] d'ImageMagick. Tous les moteurs de recherche de bureau que nous avons mentionné vont « aller regarder » les métadonnées des fichier =JPEG= lors de la phase d'indexation et nous permettront ainsi d'exploiter les étiquettes que nous y aurons insérées. =EXIF= n'est pas le seul format de métadonnées existant ; un format plus récent est l'[[https://fr.wikipedia.org/wiki/Extensible_Metadata_Platform][Extensible Metadata Platform ]](=XMP=), disponible pour un plus grand nombre de formats de fichiers — il n'est pour l'instant pas lu sur les fichiers =JPEG= par =DocFetcher=, c'est pourquoi nous avons mis en avant le format =EXIF=, mais cela devrait évoluer assez vite ; les autres moteurs comme =Tracker= et =Recoll= le lisent. -*** Fichiers =PDF= +** Fichiers =PDF= En plus des fichiers images, nous sommes tous très fréquemment amenés à travailler avec les fichiers « composites » — contenant textes, images, et plus — que sont les fichiers [[https://fr.wikipedia.org/wiki/Portable_Document_Format][PDF]]. Ces fichiers contiennent eux aussi des métadonnées ; c'est d'ailleurs pour eux qu'Adobe a initialement introduit le format =XMP= que nous venons de discuter. Ces métadonnées peuvent être lues et modifiées, en particulier l'élément =Keywords= (mot-clé) qui peut contenir des chaînes de caractères de longueur arbitraires et qui est parfait pour accueillir nos étiquettes. Le programme =ExifTool=, permet de modifier les métadonnées des fichiers =PDF=. Les moteurs de recherche de bureau que nous avons mentionnés, vont tous aller lire les métadonnées des fichiers =PDF= lors de la phase d'indexation. -*** Fichiers audios +** Fichiers audios Les formats audio comme le [[https://fr.wikipedia.org/wiki/MPEG-1/2_Audio_Layer_III][mp3]] ou le [[https://fr.wikipedia.org/wiki/Ogg][ogg]] contiennent eux aussi des métadonnées, où sont stockés les titres, noms des interprètes, etc ; ces métadonnées peuvent être modifiées et sont lues par les moteurs de recherche de bureau lors de la phase d'indexation. -- 2.18.1