qui est un terme technique de l'édition désignant : citations,
références et sources, notes en bas de pages, introduction, texte en
langue originale (en parallèle avec la traduction), commentaire
historique ou philologique, index fontium (les sources), index locorum
(références avec renvoi à la page où le passage est cité ou mentionné,
par ex. : Évangile selon Marc 1, 1 : p. 100), index nominum (les noms
propres), index rerum (les thèmes), etc.
#+BEGIN_EXAMPLE
"It seems to me that the apparatus of contemporary scholarship is comparable to a very large store which, though it keeps a great variety of goods, yet is totally confused and in disorder, because all items are mixed up, because no numbers or letters of an index are displayed, and because inventories or account ledgers which could throw some light on the matter are missing.
"The larger the mass of collected things, the less will be their usefulness. Therefore, one should not only strive to assemble new goods from everywhere, but one must endeavor to put in the right order those that one already possesses."
#+END_EXAMPLE
http://www.backwordsindexing.com/index.html
#+END_COMMENT
** S'y retrouver dans un fichier texte
:PROPERTIES:
:CUSTOM_ID: sy-retrouver-dans-un-fichier-texte
:END:
[[file:../assets/img/recherche-avec-editeur.png]]
** S'y retrouver dans un cahier
:PROPERTIES:
:CUSTOM_ID: sy-retrouver-dans-un-cahier
:END:
[[file:../assets/img/IndexCahierLocke.jpg]]
** S'y retrouver dans des « fiches »
:PROPERTIES:
:CUSTOM_ID: sy-retrouver-dans-des-fiches
:END:
[[file:../assets/img/Placcius_cabinet_TabIV.png]]
** Problèmes, limitations, solutions ?
:PROPERTIES:
:CUSTOM_ID: problèmes-limitations-solutions
:END:
- Un seul document
- Indexation de fichiers numériques
- Étiquetage de fichiers numériques au sens large
- Moteur de recherche pour indexation et recherche globale
#+BEGIN_COMMENT
- les techniques que nous venons de voir ou revoir ne fonctionnent que
pour un seul « document » --- recherche avec l'éditeur de texte, index
d'un cahier --- et/ou pour un seul type de document
- les outils informatiques dont nous disposons nous permettent d'aller
plus loin dans l'indexation des fichiers numériques
- il est possible de rajouter des étiquettes ou mots-clés à des fichiers
textes comme à des fichiers images (=jpg=, =png=) ou des fichiers
« mixtes » (=pdf=) grâce aux métadonnées qu'ils contiennent
- les moteurs de recherche de bureau permettent d'indexer l'ensemble des
fichiers textes d'une arborescence donnée mais aussi les métadonnées
des autres fichiers
#+END_COMMENT
** Trouver un mot quelconque avec un moteur de recherche de bureau (=DocFetcher=)
# Comment rajouter des étiquettes dans un fichier Markdown ?
Pour rajouter une étiquette ou un mot clé visible par un `moteur de recherche de bureau`, nous pouvons les insérer dans des `commentaires`, c'est-à-dire des parties du fichier texte `source` qui ne seront pas montrées par le logiciel de rendu — comme le navigateur internet lors de la génération d'une sortie au format `HTML`.
Le [didacticiel Markdown](https://enacit1.epfl.ch/markdown-pandoc) de Jean-Daniel Bonjour nous explique clairement comment faire cela en section `3.2.7.4 Autres remarques sur les listes`. Pour rajouter en commentaire l'étiquette `:ceci-est-une-étiquette:`, il suffit de taper : `<!-- :ceci-est-une-étiquette: -->`. Nous pouvons ainsi étiqueter les différents éléments d'une liste :
#+TITLE: Notes sur le module 1 : cahier de notes / cahier de laboratoire
#+AUTHOR: Christophe Pouzat
#+EMAIL: christophe.pouzat@parisdescartes.fr
#+LANGUAGE: fr
#+SELECT_TAGS: export
#+EXCLUDE_TAGS: noexport
#+CREATOR: Emacs 25.3.1 (Org mode 9.0.9)
#+STARTUP: indent
* Introduction au module
La mise en œuvre de la « recherche reproductible ou réplicable » requiert en plus des codes et des données une description de la façon dont les premiers ont été appliqués aux secondes. Cette description devrait contenir une *discussion du choix* des paramètres / arguments des codes lorsque ceux-ci ne sont pas choisis de façon automatique / algorithmique. Des considérations du même ordre doivent d'ailleurs s'appliquer à la conception (choix des algorithmes) et à la réalisation (choix du langage, des librairies, etc.) des codes comme à la conception et à la réalisation de la collecte de données, c'est-à-dire des expériences, des enquêtes, etc.
Le praticien de la recherche reproductible se trouve ainsi confronté à un problème somme toute classique : garder une trace, documenter ce qui est fait. L'épitête « classique » se justifie dès lors que le lecteur réalise qu'il a lui aussi souvent été confronté à ce problème même si sous des formes légérement différentes. Ainsi, bon nombre d'entre nous doit effectuer un travail bibliographique plus ou moins fréquemment, ce qui génère des « notes » pouvant prendre diverse formes sur un ou plusieurs supports. Mais ce travail de prise de notes, ce « traçage », ne s'arrête, le plus souvent, pas là. Prenons le cas de l'algorithme à mettre en œuvre ; après une étude bibliographique en ayant identifié quelques-uns /a priori/ applicable à la situation rencontrée, il nous faudra soit les coder nous-mêmes, soit les trouver déjà codés sur un dépôt type [[https://github.com/][github]] ou [[https://about.gitlab.com/][gitlab]] ; quelque soit la solution adoptée, il nous faudra la documenter -- /en expliquer les raisons/, ce qui peut impliquer une courte étude comparative -- avec des références adéquates ce qui générera de nouvelles notes sur support papier ou numérique. En poursuivant cette logique, on voit vite que la quasi totalité de notre activité peut (ou devrait) s'accompagner d'une prise de notes. Voilà pourquoi notre premier module traitera d'une question qui ne se limite pas, loin s'en faut, à la recherche reproductible, celle du « cahier de notes ». Ce module commencera donc en vous disant quelque chose que vous savez déjà (!) : « nous devons tous prendre des notes. »
Si nous devons tous prendre des notes, nos prédécesseurs ont du le faire aussi. Cette constatation élémentaire faite, nous éviterons de croire que nous sommes les premiers à avoir à faire face un déluge d'informations. Nous en profiterons pour apprendre comment nos brillants ancêtres s'y sont pris. En nous inspirant de nos connaissances des « anciennes » techniques, nous verrons ensuite comment mettre à profit les outils fournis par l'informatique.
Les fichiers texte et les langages de balisage léger vont nous permettre de structurer nos notes et de les « recycler » facilement (dans des articles, des pages web, etc.). La gestion de version nous évitera de tout perdre tout en gardant trace de nos corrections et modifications successives. Enfin, reprendre une activité de zéro parce que retrouver la bonne information dans la jungle de nos notes prendrait plus de temps ne sera plus qu'un souvenir avec la construction d'index.
** Le « cahier de notes »
Le « cahier de notes » doit être considéré ici « au sens large » ; c'est-à-dire que, suivant le contexte, il sera plus proprement appelé « cahier de terrain », « cahier d'observations », « journal » ou « cahier de laboratoire ». Ce qui nous intéresse ici est la notion de supports (papiers ou numériques) dans lesquels des informations sont stockées au fil du temps -- contrairement au cas d'un mémoire ou d'un article où c'est la logique de l'argumentation qui structure le contenu -- ; ces informations sont de plus de nature souvent hétérogène et leurs supports, lorsqu'ils sont multiples, aussi (par exemple, un cahier de notes associé à des fichiers textes).
*** Exemples concrets de « cahier de notes »
- [[http://unesdoc.unesco.org/images/0007/000748/074877fo.pdf][Les cahiers de Léonard de Vinci]] et la page Wikipédia sur [[https://fr.wikipedia.org/wiki/Codex_Leicester][Le Codex Leicester]] ;
- [[https://en.wikipedia.org/wiki/Galileo_Galilei][la page wikipedia sur Galilée]] contient de nombreux liens, certains vers ses cahiers de notes ;
- [[http://gallica.bnf.fr/Search?ArianeWireIndex=index&p=1&lang=EN&f_typedoc=manuscrits&q=Louis+Pasteur+registres][Les « registres de laboratoire » de Pasteur]] sont disponibles sur Gallica ;
- [[http://gallica.bnf.fr/ark:/12148/btv1b90797770/f1.image.r=Emile%20Zola][Les dossiers préparatoires de Zola pour les Rougon-Macquart]] sont aussi disponibles sur Gallica ;
- [[https://ebooks.adelaide.edu.au/c/cook/james/c77j/index.html][Le journal de bord de James Cook]] lors de son premier voyage sont consultables -- [[http://southseas.nla.gov.au/journals/hv01/title.html][un autre exemple]] plus complet est aussi disponible --, la [[https://en.wikipedia.org/wiki/James_Cook][page Wikipedia]] contient un grand nombre de liens ;
- L'essentiel des [[http://darwin-online.org.uk/][cahiers de notes de Charles Darwin]] est consultable en ligne ;
- [[http://linnean-online.org/61332/#/0][Les fiches de Carl von Linnée]] sont consultables en ligne ;
- [[http://scarc.library.oregonstate.edu/coll/pauling/rnb/index.html][Les cahiers de laboratoire de Linus Pauling]] sont disponibles dans leur intégralité ;
- L'histoire de la [[https://fr.wikipedia.org/wiki/Figure_de_la_Terre_et_m%C3%A9ridienne_de_Delambre_et_M%C3%A9chain#M%C3%A9ridienne_de_Delambre_et_M%C3%A9chain_et_progr%C3%A8s_scientifiques_%C3%A0_la_m%C3%AAme_%C3%A9poque][mesure du méridien]] de Dunkerke à Barcelone par Delambre et Méchain est remarquablement contée dans le livre de Ken Alder, « Mesurer le monde - 1792-1799 : l'incroyable histoire de l'invention du mètre » (en poche chez Flammarion) ; les cahiers de notes y jouent un rôle tout à fait primordial.
* Notes et références sur la séquence 1 : « Nous utilisons tous des cahiers de notes »
** Manuscrits annotés
En guise d'entrée dans l'univers des manuscrits annotés, je fais suivre une petite sélection de passages du premier chapitre de « LA PAGE. DE L'ANTIQUITÉ À L'ÈRE DU NUMÉRIQUE » d'Anthony Grafton (Hazan, 2012) :
#+BEGIN_EXAMPLE
Par le mouvement même de sa plume sur la page, il est clair que
Casaubon maîtrise tout ce qu'il lit. Constamment, il souligne des
mots et des expressions, il note en marge des mots clés et des résumés
montrant qu'il a lu attentivement, même quand, précise-t-il dans son
journal intime, il étudie en une journée quarante à cinquante pages
in-folio de grec émaillées de nombreuses abréviations. Les passages
plus importants donnent lieu en marge à des commentaires plus
longs. Sur les pages de titre, Casaubon porte très souvent — un peu
comme Montaigne — un jugement global sur la valeur de l'ouvrage.
Par ailleurs, il note ses réflexions dans des carnets, ou prend
des notes sur des textes qu'il ne peut pas acheter. Tels qu'ils sont
réunis dans sa bibliothèque, ses livres représentent une vie entière de
lecture que l'on peut reconstituer au fil des pages.
#+END_EXAMPLE
Pages 32 et 33, à propos d'[[https://fr.wikipedia.org/wiki/Isaac_Casaubon][Isaac Casaubon]] (1559-1614).
#+BEGIN_EXAMPLE
Pourtant, Harvey a laissé beaucoup plus que cela, et notamment
des traces des ses lectures sous forme de plus d'une centaine de livres
couverts d'annotations magnifiquement écrites de sa belle écriture
italique — en plus des cahiers dans lesquels il notait des extraits.
Manifestement, Harvey considérait la lecture comme sa profession,
et il en a fait aussi un art. Décennie après décennie, il couche ses
pensées sur l'histoire dans une édition in-folio de 1555 de l'Histoire
romaine de Tite-Live. Ses notes, en latin pour la plupart, parcourent
les marges, se répandent entre les chapitres et remplissent
des feuilles volantes, prenant un aspect particulièrement érudit et
assez rébarbatif.
#+END_EXAMPLE
Pages 35 et 36, à propos de [[https://en.wikipedia.org/wiki/Gabriel_Harvey][Gabriel Harvey]] (1545-1630).
#+BEGIN_EXAMPLE
... Mais dans l'exemplaire de travail qui subsiste du
texte, l'édition de base de 1549, il [Casaubon] introduit tant d'annotations
précises que les catalogueurs de la Bibliothèque bodléienne, qui n'étaient
pas rompus à la rhétorique, ont classé ce livre imprimé parmi les manuscrits.
#+END_EXAMPLE
Page 40.
** Armoires à notes de Placcius et Leibniz
J'ai trouvé cet exemple dans les travaux d'[[https://projects.iq.harvard.edu/ablair][Ann Blair]] comme « [[https://dash.harvard.edu/handle/1/4774908][The Rise of Note-Taking in Early Modern Europe]] » et son livre « [[https://yalebooks.yale.edu/book/9780300165395/too-much-know][TOO MUCH TO KNOW. Managing Scholarly Information before the Modern Age]] », publié chez /Yale University Press/ en 2011.
** La préface de « L'île des pingouins » d'Anatole France
Étant très loin de connaître Anatole France sur le bout des doigts, j'ai trouvé la référence citée dans le remarquable article de Keith Thomas publié par la /London Review of Books/, [[https://www.lrb.co.uk/v32/n11/keith-thomas/diary][le 10 juin 2010]]. Cet article (en anglais) décrit et discute le travail concret de prise de notes par un historien, il est de plus très bien écrit et plein d'anecdotes.
** Les livres de bord
Je remercie Joël Caselli de m'avoir aidé à interpréter le contenu du livre de bord d'Éric Tabarly.
Le projet européen de reconstruction des climats des océans atlantique et indien (et non pacifique comme je le dis dans le cours !) : [[http://webs.ucm.es/info/cliwoc/][/Climatological Database for the World's Oceans 1750-1850/]] ; dispose d'un site internet très intéressant (mais en anglais).
On trouvera des citations abondantes (et effrayantes) de livres de bord de navires négriers dans le livre de Marcus Rediker « À bord du négrier : Une histoire atlantique de la traite » (disponible en édition de poche).
** Un absent : le cahier de laboratoire classique
Je traduis ici la section 6.2 /Notebooks and Records/ du remarquable livre de E. Bright Wilson /An Introduction to Scientific Research/ réimprimé par Dover.
Il est difficile de concevoir un cahier de laboratoire parfait et il est malheureusement rare d'en trouver un qui soit même à peu près satisfaisant ; la conservation d'une trace écrite du travail effectué est néanmoins une source majeure d'efficacité. Il y aura forcément des gens opposés à un ensemble de règles fixes, mais cela sera probablement plus rare pour le rituel de garder un cahier que sur d'autres sujets. Par conséquent, un ensemble de règles qui sont généralement considérées comme satisfaisantes, voire même essentielles, seront quelque peu dogmatiquement énoncées.
De grandes découvertes ont été retardées en raison d'une négligente tenue des traces écrites. L'astronome Le Monnier est ainsi supposé avoir observé la planète Uranus à plusieurs reprises -- avant que son identification comme planète ait été annoncée par Herschel --, mais a décidé qu'elle était une étoile fixe. Cela s'explique probablement en partie par le fait qu'il a écrit ses mesures sur des morceaux de papier, y compris un sac en papier contenant à l'origine de la poudre pour cheveux !
Les cahiers de laboratoire doivent être solidement reliés, d'une taille approximative de 20 x 25 cm, avec des pages numérotées. Les feuilles séparées sont trop facilement perdues pour être satisfaisantes, d'autant plus qu'un cahier de laboratoire subit souvent un traitement un peu rude avec peut-être des projections occasionnelles d'acide [c'est un physico-chimiste qui écrit]. Le cas de mesures répétées constitue une exception où une ébauche spéciale imprimée est souvent utile si un bon système est établi pour collecter et relier les feuilles séparées. Les pages avec des lignes sont généralement utilisées, mais il s'agit d'une question de goût personnel, et certaines préfèrent des pages blanches ou à carreaux. Un tampon en caoutchouc peut être utilisé pour fournir des en-têtes pour les entrées les plus communes.
Les données doivent être entrées directement dans le cahier au moment de l'observation. Il est intolérable d'utiliser sa mémoire ou des fragments de papier pour l'enregistrement primaire, du fait de l'inévitabilité des erreurs et des pertes. Il devrait donc y avoir une bonne place pour le cahier à coté du poste de travail, et l'expérimentateur ne devrait jamais être sans son cahier lorsqu'il est en action.
Les données doivent être enregistrées à l'encre, de préférence une encre permanente, un buvard peut être pratique. Sinon, la trace écrite est trop éphémère. Les cahiers sont soumis à une utilisation intensive et les écritures au crayons se détériorent trop rapidement. Lorsque le cahier peut être utilisé comme preuve pour un brevet, l'usage de l'encre s'impose.
Des graphiques approximatifs et qualitatifs peuvent être dessinés directement, mais les graphiques précis sont généralement préparés avec le papier graphique du type le plus approprié [pensez au papier millimétré]. Ils sont ensuite soigneusement collés dans le cahier, une page vierge étant découpée afin de compenser l'épaisseur ajoutée.
Les cahiers doivent porter le nom de l'utilisateur et les dates couvertes. [...]. Les huit ou dix premières pages devraient être réservées pour une table des matières. Il s'agit de lignes ajoutées chronologiquement pour chaque série d'expériences similaires, ainsi que la référence de la page. La table des matières est extrêmement utile pour trouver des éléments plus tard et est très simple à suivre. Un index au dos du cahier est avantageux mais pas indispensable.
Chaque élément devrait être datée et, si plusieurs personnes utilisent un cahier (généralement pas recommandé), paraphé. Le contenu ne devrait pas inscrit de façon trop dense sur les pages ; le papier est bon marché par rapport aux autres dépenses de recherche.
La principale difficulté est de décider ce qu'il faut écrire dans le cahier. Évidemment, on entre les résultats numériques et les valeurs des variables indépendantes telles que la température, la composition ou la pression qui sont directement pertinentes. Il est également nécessaire d'avoir un système d'entrées ou de références afin que, plus tard, il soit possible de dire quel appareil a été utilisé et dans quelles circonstances. Une description assez complète de l'appareil devrait être conservée. Ensuite, lorsque des modifications sont apportées à l'appareil, elles doivent être décrites immédiatement dans le cahier. Il devrait également être possible de retracer la source des courbes d'étalonnage, des corrections, etc., qui étaient appropriées aux données d'un jour donné. Il est utile que les exigences relatives à l'écriture d'un article, d'une thèse ou d'un livre soient gardées à l'esprit. Une telle tâche, une fois effectuée, entraîne généralement la résolution solennelle de garder un cahier plus détaillé dans le futur. Essayer de comprendre le cahier de notes de quelqu'un d'autre constitue aussi un exercice hautement salutaire. Toutes les références aux appareils, aux lieux, aux horaires, aux livres, aux articles, aux graphiques et aux personnes devraient être suffisamment explicites pour être compréhensibles des années plus tard. *Il devrait être possible de prendre chaque article scientifique et de montrer exactement où chaque figure, description ou déclaration est justifiée par des observations originales dans le cahier de laboratoire, et exactement pourquoi les nombres final et original diffèrent, si tel est le cas*.
Un énoncé du but de chaque expérience et un résumé des conclusions obtenues rendent le cahier beaucoup plus utile.
Les croquis, dessins et diagrammes sont essentiels. Comme tant d'observations sont visuelles, /il est important de noter ce qui est réellement vu, y compris des éléments qui ne sont pas entièrement compris lors de leur observation/.
Les expériences mauvaises ou non prometteuses, même celles considérées comme des échecs, devraient être entièrement enregistrées. Elles représentent un effort qui ne doit pas être gaspillé, car souvent quelque chose peut être récupéré, même si ce n'est qu'une connaissance de ce qu'il ne faut pas faire.
Les données doivent toujours être entrées dans leur forme la plus primaire, et non après un calcul ou une transformation. Si c'est le rapport de deux observations qui est intéressant, mais si les deux nombres sont effectivement observés, les deux nombres doivent être enregistrés. Si le poids précis d'un objet est important, les poids d'équilibrage individuels utilisés et leur identification devraient être inclus, c'est-à-dire le numéro de série de leur boîte. Dans le cas contraire, il devient impossible d'appliquer ultérieurement des corrections d'étalonnage ou de modifier les corrections si de nouvelles valeurs apparaissent. Naturellement, ce détail n'est pas nécessaire si seulement un poids approximatif est impliqué. La forme tabulaire est la meilleure pour les données numériques. Les unités doivent être notées.
Lorsque des brevets sont impliquées, il peut être souhaitable d'authentifier les pages des cahiers à intervalles réguliers. Le témoin devrait être quelqu'un qui comprend le contenu mais qui n'est pas impliqué dans la recherche. Un contenu ajouté ultérieurement à une page devrait l'être dans une encre de couleur différente, et toutes les modifications devraient être paraphées, authentifiées et datées si elles sont susceptibles d'être importantes. Les entreprises industrielles font ainsi généralement respecter leurs propres règles en matière de cahiers de laboratoire.
*Numéros d'identification*. Il est stupide de consacrer du temps et de l'argent à des enregistrements de différents types [...] si ceux-ci sont ensuite perdus ou mélangés. Tout enregistrements qui ne peut être inclut directement dans le cahier de notes devraient porter une identification complète indélébile. Un système simple qui a fait ses preuves consiste à écrire à l'encre sur chaque enregistrement un symbole identifiant le cahier, puis le numéro de page sur lequel les données auxiliaires sont enregistrées. Si plus d'un enregistrement sont mentionnés sur une page du cahier, des lettres ou des chiffres supplémentaires peuvent être ajoutés. Ainsi, EBW II 85c identifie le troisième enregistrement discuté à la page 85 du deuxième cahier EBW. C'est mieux qu'un numéro de série qui ne dit pas, sans clé supplémentaire, où chercher la description le concernant dans le cahier.
Un bon système de classement est indispensable pour tous les films, les photographies, les schémas, les graphiques, les diagrammes de circuit, les dessins, les plans, etc. Il est plus difficile de concevoir des méthodes de dépôt satisfaisantes pour des matériaux très petits ou très grands. Les premiers sont facilement perdus et les dernier très volumineux. [...]
Il est important d'archiver les dessins et les plans à partir desquels les appareils utilisés ont été construits, même si ces dessins sont grossiers. Ils doivent être datés, paraphés et étiquetés ; en fait, tout morceau de papier contenant une information utile devrait être marqué de la sorte. Lorsqu'un équipement électronique ou autre est fabriqué, son diagramme doit être soigneusement préparé et entièrement étiqueté avec toutes les constantes. L'appareil doit porter un numéro de série qui apparaît également sur ce diagramme. Lorsque des modifications sont apportées, celles-ci doivent être indiquées sur le schéma et datées ou un diagramme révisé et daté doit être préparé. L'ancien ne doit pas être obscurci ou jeté, car il peut être nécessaire pour expliquer des données antérieures, considérées ultérieurement comme étranges. [...]
Le but de toute cette pratique de prise de notes est de préserver la valeur [le temps et les moyens humains et matériels investis dans la recherche]. Elle devrait être soigneusement conçus pour s'adapter aux conditions de chaque laboratoire et devraient être adéquate mais pas trop élaborés. *Si l'on exige trop de la nature humaine, le système ne fonctionnera pas*.
* Notes et références sur la séquence 2 : « Un aperçu historique de la prise de notes »
** Références générales
En plus des deux livres déjà cités :
- « LA PAGE. DE L'ANTIQUITÉ À L'ÈRE DU NUMÉRIQUE » d'Anthony Grafton (Hazan, 2012) ;
- « [[https://yalebooks.yale.edu/book/9780300165395/too-much-know][TOO MUCH TO KNOW. Managing Scholarly Information before the Modern Age]] », d'Ann Blair publié chez /Yale University Press/ en 2011 ;
j'ai utilisé :
- « L'histoire du livre » de Frédéric Barbier ;
- le remarquable site de Jacques Poitou, [[http://j.poitou.free.fr/pro/index.html][langages écritures typographies]] ;
- le site [[http://classes.bnf.fr/ecritures/][l'aventure des écritures]] de la BNF ;
- le catalogue de l'exposition de la BNF « Tous les savoirs du monde : Encyclopédies et bibliothèques de Sumer au XXIème siècle » ;
- « [[http://litmedmod.ca/sites/default/files/pdf/vandendorpe-papyrusenligne_lr.pdf][Du papyrus à l'hypertexte]] » de Christian Vandendorpe (La Découverte, 1999).
** Sur les tablettes de cires
Voir le site de Jacques Poitou (d'où les illustrations sont empruntées) et le livre de Frédéric Barbier, « L'histoire du livre ».
** Sur le passage du rouleau (/volumen/) au codex
Voir le livre de Frédéric Barbier, celui d'Anthony Grafton.
Le /volumen/ est un livre à base de feuilles de papyrus collées les unes aux autres et qui s'enroule sur lui-même. Il a été créé en Égypte vers 3000 av. J.-C. Le texte est rédigé en colonnes parallèles assez étroites. C'est le support du texte par excellence durant les trente siècles précédant notre ère, d'abord en Égypte, puis dans tout le monde méditerranéen.
Comme l'explique Frédéric Barbier : « La forme du /volumen/ impose une pratique de lecture complexe : il faut dérouler (/explicare/) et enrouler en même temps, ce qui interdit par exemple, de travailler simultanément sur plusieurs rouleaux (un texte et son commentaire) ou de prendre des notes, impose une lecture suivie et empêche la simple consultation. »
Le /volumen/ n'est clairement pas adapté à une lecture « nomade » ; imagine-t-on Ulysse partant pour son Odyssée avec les 24 /volumen/ de l'Iliade ?
Le /volumen/ est à l'origine du terme « volume » dans un « livre en plusieurs volumes » comme dans la désignation du concept géométrique.
Le passage au codex repose sur deux innovations :
- la collection des tablettes de cires en « groupes reliés » ;
- la généralisation du parchemin (peau, généralement, de mouton spécialement préparée) au détriment du papyrus. Cette généralisation résulte une lutte pour l'hégémonie culturelle entre deux descendants de généraux d'Alexandre le Grand, en effet d'après Pline l'ancien : [[https://fr.wikipedia.org/wiki/Ptol%C3%A9m%C3%A9e_V][Ptolémé Épiphane]] d'Alexandrie cherchait à empêcher [[https://fr.wikipedia.org/wiki/Eum%C3%A8ne_II][Eumène II]] d'établir une bibliothèque à Pergame (au 2e siècle avant J.-C.) et avait interdit l'exportation du papyrus (produit exclusivement en Égypte), ce qui incita Eumène à chercher un substitut qui devint le parchemin.
Le remplacement du rouleau par le codex aura des conséquences majeures sur l'organisation du livre ainsi que sur la façon de lire et il permettra le développement ultérieur de l'imprimerie.
La principale révolution introduite par le codex est la notion de page. Grâce à elle, le lecteur peut accéder de manière directe à un chapitre ou à un passage du texte, alors que le rouleau impose une lecture continue. *Les mots ne sont de plus pas séparés par des espaces*. Comme l'écrit Collette Sirat : « Il faudra vingt siècles pour qu’on se rende compte que l’importance primordiale du codex pour notre civilisation a été de permettre la lecture sélective et non pas continue, contribuant ainsi à l’élaboration de structures mentales où le texte est dissocié de la parole et de son rythme. »
Au fil des siècles, le codex — qu'on désigne le plus souvent comme un manuscrit — va évoluer et se donner peu à peu les attributs du livre moderne : séparation entre les mots (VIIe siècle), début de ponctuation (VIIIe siècle), table des matières, titre courant, marque de paragraphe (XIe siècle), pagination, index (XIIIe siècle), etc.
Un point intéressant : le contenu de la Thora est « fixé » avant l'apparition du codex et, aujourd'hui encore, la Thora est écrite sur des /volumen/ (dans les synagogues au moins). La religion chrétienne se développe en même temps que le codex, adopte ce support et le répand ; elle ne donnera jamais au /volumen/ un statut « supérieur », pas plus que ne le fera la religion musulmane.
** Sur Eusèbe de Césarée
Pour en savoir plus sur [[https://fr.wikipedia.org/wiki/Eus%C3%A8be_de_C%C3%A9sar%C3%A9e][Eusèbe de Césarée]], consultez le passionnant deuxième chapitre du livre d'Anthony Grafton.
** Parallèle chinois
Comme je le dis, mon inculture fait que je ne rends pas justice aux contributions chinoises, musulmanes, précolombienne, etc. J'essaierai de combler cette énorme lacune pour les seconde version du CLOM...
Ce que je dis sur le passage du volumen au codex accompagné d'un développement des « outils de navigation » (index, table des matières, etc) en Chine lors du développement de leishus vient du bouquin d'Ann Blair (p. 31) qui cite un article de Susan Cherniack, « Book Culture and Textual Transmission in Sung China », /Harvard Journal of Asiatic Studies/ Vol. 54, No. 1 (Jun., 1994), pp. 5-125.
** Retour sur l'armoire à notes
Nous revenons sur le « bout de papier » ou la fiche comme support de note. L'inconvénient est que le bout de papier ou la fiche se perdent facilement et ne servent à rien s'ils ne sont pas *classés* en plus d'être rangés. Problème résolu par l'armoire de Placcius. D'une certaine façon, sa conception fait qu'on accède à son contenu par l'index.
L'avantage est que les notes peuvent être réorganisées si elles contiennent des information sur plusieurs sujets. Elle peuvent aussi être directement collées dans un livre lors de la composition d'un florilège ou d'un ouvrage de synthèse.
Ce dernier procédé était très couramment employé par les humanistes et les érudit de la renaissance et du début de la période moderne. [[https://fr.wikipedia.org/wiki/Conrad_Gessner][Conrad Gessner]] (1516-1565) était un champion de cette technique ; il obtenait même parfois ses fiches en découpant les pages des livres. Encore une fois, ne faites pas cela avec les livres de bibliothèques !
** L'index et John Locke
Sur l'origine de l'index, on pourra lire l'article de Jean Berger : [[https://www.theindexer.org/files/25-2-berger.pdf][Indexation, Memoire, pouvoir et representations au seuil du XIIe siecle : La redecouverte des feuillets de tables du Liber De Honoribus, premier cartulaire de la collegiale Saint-Julien de Brioude]], /The Indexer/.
La méthode de John Lock est expliquée dans l'article /Indexing commonplace books: John Locke’s method/ d'Alan Walker, [[https://www.theindexer.org/issues/query.php?vol=22&iss=3][The Indexer]], vol. 22, p. 114-118, 2001.
Sur [[https://fr.wikipedia.org/wiki/John_Locke][John Locke]] (1632-1704) « papa du libéralisme » et actionnaire de la /Royal African Company/ principale compagnie négrière britannique, voir l'article [[https://en.wikipedia.org/wiki/John_Locke#Constitution_of_Carolina][Wikipedia]] (en anglais) et le livre « Contre-histoire du libéralisme » de Domenico Losurdo (La Découverte / Poche, 2014, p. 34-36).
* Notes et références sur la séquence 3 : « Du fichier texte au langage de balisage léger »
** Fichier texte et éditeur de texte
Une définition plus technique (et moins circulaire !) du fichier texte se trouve sur [[https://fr.wikipedia.org/wiki/Fichier_texte][la page wikipédia]] consacrée au sujet. Pour plus de détails sur les éditeurs de texte, voir aussi la [[https://fr.wikipedia.org/wiki/%C3%89diteur_de_texte][page wikipédia correspondante]].
Un logiciel de « [[https://fr.wikipedia.org/wiki/Traitement_de_texte][traitement de texte]] » est plus sophistiqué qu'un simple éditeur de texte ; il permet de faire plus, ce qui sous entend qu'il peut aussi ouvrir et manipuler des fichiers textes.
*Attention* : le format « natif » des traitements de texte est rarement un format texte. Les fichiers =doc= et =docx= de =Word= et =odt= de =LibreOffice= /ne sont pas des fichiers textes/.
** Le cas du fichier =PDF= ouvert avec un éditeur de texte
Dans le cours filmé, j'utilise l'exemple du [[https://en.wikipedia.org/wiki/Portable_Document_Format][PDF]] — je donne l'adresse de la page wikipedia en anglais, bien plus complète que celle en français — ouvert avec un éditeur de texte pour montrer que le fichier ne peut pas être visualisé avec un tel logiciel, il faut un logiciel de rendu dédié comme =Adobe Reader=, =Evince=, =MuPDF=, =Aperçu=,... Vous remarquez néanmoins que le début du fichier contient du texte (la première ligne nous apprend que le fichier utilise la version 1.3 du format =PDF=). Cette partie au format texte du fichier contient les méta-données — qui ne sont pas montrées, en tout cas pas directement, par les logiciels de rendu. Ces méta-données sont (en partie) au format [[https://en.wikipedia.org/wiki/Extensible_Metadata_Platform][XMP]] (/Extensible Metadata Platform/), nous y reviendrons dans la cinquème séquence.
** Sur l'UTF-8
Une table des symboles UTF-8, avec leur code se trouve à l'adresse : [[http://www.utf8-chartable.de/]]. C'est pratique pour insérer un symbole pas très courant comme la lettre « TLO » : Ꮰ de la langue cherokee, ou le symbole mathématique ∀, « pour tout ».
Pour ceux qui doivent souvent utiliser des lettres grecs (par exemple pour écrire des équations), il est possible sous Linux de (re)définir des combinaisons de touches pour générer directement les dites lettres. Ces combinaisons sont définies dans le fichier =.XCompose=, le début de mon fichier contient :
#+BEGIN_EXAMPLE
# On charge la base de donnée de Compose la plus complète en UTF-8
include "/usr/share/X11/locale/en_US.UTF-8/Compose"
# espace insécable fine
<Multi_key> <Multi_key> <Space> : " " U202F
# Lettres greques
<Multi_key> <space> <a> : "α" Greek_alpha
<Multi_key> <space> <A> : "Α" Greek_ALPHA
<Multi_key> <space> <b> : "β" Greek_beta
<Multi_key> <space> <B> : "Β" Greek_BETA
<Multi_key> <space> <g> : "γ" Greek_gamma
<Multi_key> <space> <G> : "Γ" Greek_GAMMA
<Multi_key> <space> <d> : "δ" Greek_delta
<Multi_key> <space> <D> : "Δ" Greek_DELTA
<Multi_key> <space> <e> : "ε" Greek_epsilon
<Multi_key> <space> <E> : "Ε" Greek_EPSILON
<Multi_key> <space> <z> : "ζ" Greek_zeta
<Multi_key> <space> <Z> : "Ζ" Greek_ZETA
<Multi_key> <space> <h> : "η" Greek_eta
#+END_EXAMPLE
J'ai en plus redéfini la « <Multi_key> » pour qu'elle corresponde à la touche « impression d'écran » de mon clavier. Pour apprendre à redéfinir des touches, consultez : [[https://wiki.archlinux.org/index.php/Keyboard_configuration_in_Xorg#Configuring_compose_key]].
* Notes et références sur la séquence 5 : « Les étiquettes et les logiciels d'indexation pour s'y retrouver »
** La structure de la séquence
Nous revenons ici sur le problème de l'indexation, pas tant sur l'indexation d'un document unique que sur l'indexation de documents multiples dans des formats divers :
- comme nous l'avons déjà affirmé, prendre des notes abondantes et détaillées n'est utile que si nous pouvons retrouver les informations qu'elles contiennent quand nous en avons besoin ;
- pour des notes contenues dans un seul fichier texte, la fonction de recherche de notre éditeur favori nous permet généralement d'aller assez loin ;
- pour des notes manuscrites contenues dans un cahier, la méthode de Locke — que nous avons exposée dans notre deuxième séquence — et qui repose sur des mots clé ou étiquettes, donne de bons résultats ;
- les notes manuscrites sur fiches sont généralement stockées dans un meuble dont la structure matérialise un index — comme l'armoire de Placcius et Leibniz — ;
- mais nous voulons ici aller plus loin, dans le cadre restreint des « notes » numérisées, en discutant de l'indexation de fichiers multiples qu'ils soient au format « texte » où dans d'autres format comme les images =jpg= où les fichier =pdf= ;
- cela nous amménera à introduire les « moteurs de recherche de bureau » et à expliquer comment des =étiquettes= ou =mots-clés= peuvent être ajoutés à nos fichiers.
** La citation de Leibniz
J'ai trouvé la citation introductive :
« Il me semble que l'apparat savant contemporain est comparable à un grand magasin qui contient une grande quantité de produits, stockés de façon totalement désordonnée, mélangée ; où les nombres ou lettres d'indexation manquent ; où les inventaires et livres de comptes pouvant aider à ordonner le contenu ont disparus.
Plus grande est la quantité d'objets amassés, plus petite est leur utilité. Ainsi, ne devrions nous pas seulement essayer de rassembler de nouveaux objets de toutes provenances, mais nous devrions aussi essayer d'ordonner ceux que nous avons déjà. »
sur le site [[http://www.backwordsindexing.com/index.html]], c'est donc une traduction de traduction. J'emploie ici le terme volontairement anachronique d'« [apparat savant](https://fr.wikipedia.org/wiki/Apparat_savant) » qui est un terme technique de l'édition désignant : citations, références et sources, notes en bas de pages, introduction, texte en langue originale (en parallèle avec la traduction), commentaire historique ou philologique, index fontium (les sources), index locorum (références avec renvoi à la page où le passage est cité ou mentionné, par ex. : Évangile selon Marc 1, 1 : p. 100), index nominum (les noms propres), index rerum (les thèmes), etc. La référence au « grand magasin » est, elle aussi anachronique !
Leibniz a, pendant une bonne partie de sa vie, « gagné celle-ci » comme [[https://www.reseau-canope.fr/savoirscdi/societe-de-linformation/le-monde-du-livre-et-des-medias/histoire-du-livre-et-de-la-documentation/biographies/leibniz-le-bibliothecaire.html][bibliothécaire]], ce qui explique en partie sont intérêt très poussé pour les questions de classifications, d'indexations, etc.
** Rechercher avec un éditeur de texte
La diapo correspondante rappelle juste au lecteur quelque chose qu'il sait déjà et qui est vue, par les gens qui passent des notes « papier » aux notes « numériques », comme le gros attrait du numérique.
Les gens de monde Unix/Linux connaissent aussi généralement le programme [[https://fr.wikipedia.org/wiki/Grep][grep]] qui permet de faire des recherches de mots et, plus généralement d'[[https://fr.wikipedia.org/wiki/Expression_r%C3%A9guli%C3%A8re][expressions régulières]], sur un ou /plusieurs/ fichiers ; nous y reviendrons.
** Recherche avec index construit « à la main » sur des cahiers de notes
Là encore, il s'agit juste d'un rappel pour les lecteurs assidus de ce cours ; à ce stade se sont des experts dans la méthode d'indexation de Locke.
** Recherche avec index « matérialisés »
Encore un rappel pour les lecteurs.
** Vers les outils « sophistiqués » de l'informatique
- les techniques que nous venons de voir ou revoir ne fonctionnent que pour un seul « document » — recherche avec l'éditeur de texte, index d'un cahier — et/ou pour un seul type de document ;
- les outils informatiques dont nous disposons nous permettent d'aller plus loin dans l'indexation des fichiers numériques ;
- il est possible de rajouter des étiquettes ou mots-clés à des fichiers textes comme à des fichiers images (`jpg`, `png`) ou des fichiers « mixtes » (`pdf`) grâce aux métadonnées qu'ils contiennent ;
- les moteurs de recherche de bureau permettent d'indexer l'ensemble des fichiers textes d'une arborescence donnée mais aussi les métadonnées des autres fichiers.
permettent de rechercher le /contenu/ des fichiers textes, des courriels, des fichiers générés par les =traitements de texte= — c'est-à-dire des fichiers qui contiennent essentiellement du texte, mais qui sont stockés dans un format type =doc=, =docx=, =odt=, etc qui ne sont pas des formats texte —, des fichiers =pdf= — quand ceux-ci ne sont pas des /images/ de textes —, mais aussi des [[https://en.wikipedia.org/wiki/Portable_Document_Format#Metadata][métadonnées]] des fichiers =pdf=, etc.
Les moteurs de recherche de bureau « utilisent des techniques d'[[https://fr.wikipedia.org/wiki/Indexation_automatique_de_documents][indexation]] qui permettent de réduire considérablement les temps de recherche, par rapport aux fonctions de recherche intégrées par défaut aux systèmes d'exploitation. Au contraire de ces derniers, ils prennent aussi souvent en charge les [[https://fr.wikipedia.org/wiki/M%C3%A9tadonn%C3%A9e][métadonnées]], et sont capables de faire une [[https://fr.wikipedia.org/wiki/Analyse_syntaxique][analyse syntaxique]] des fichiers. » (Source : [[https://fr.wikipedia.org/wiki/Moteur_de_recherche_de_bureau][Moteur de recherche de bureau]] sur Wikipédia)
Comme exemple de « fonctions de recherche intégrées par défaut », on trouvera sur les systèmes Unix/Linux le programme [[https://fr.wikipedia.org/wiki/Grep][grep ]]avec lequel nous pouvons chercher les occurrences du mot « Galilée » dans le répertoire « RR_MOOC » de notre cours sur GitHub (après l'avoir cloné) :
#+NAME: grep-Leibniz-RR_MOOC
#+BEGIN_SRC sh :results output :exports both
grep -r Galilée
#+END_SRC
#+RESULTS: grep-Leibniz-RR_MOOC
: PITCHME.md:## Galilée qui observe les lunes de Jupiter
: PITCHME.md:Le 7 janvier 1610, Galilée fait une découverte capitale : il remarque trois « petites étoiles » à côté de Jupiter. Après quelques nuits d'observation, il découvre qu'il y en a une quatrième et qu'**elles accompagnent la planète**, c'est ce qu'il note sur son cahier d'observations. Ce sont les satellites visibles de Jupiter, qu'il nommera plus tard les étoiles Médicées ou astres médicéens – en l'honneur de ses protecteurs, la Famille des Médicis – et qui sont aujourd'hui appelés lunes galiléennes.
: PITCHME.md:Ces observations amèneront Galilée à rejeter l'hypothèse géocentrique (la terre est le centre de l'Univers et tout tourne autour d'elle) en faveur du système copernicien héliocentrique. Cela l'amènera indirectement (je « fais court ») et bien plus tard, le 22 juin 1633, a être condamné par l'inquisition, ce qui lui vaudra de finir ses jours en résidence surveillée.
: PITCHME.md:Remarquez l'avantage des « bouts de papiers classés » de Placcius et Leibniz sur le _codex_ de Galilée : les premiers peuvent être facilement réordonnées.
: Notes_module1.org:- [[https://en.wikipedia.org/wiki/Galileo_Galilei][la page wikipedia sur Galilée]] contient de nombreux liens, certains vers ses cahiers de notes ;
: Notes_module1.org:Comme exemple de « fonctions de recherche intégrées par défaut » on trouvera sur les systèmes Unix/Linux le programme [[https://fr.wikipedia.org/wiki/Grep][grep ]]avec lequel nous pouvons chercher les occurrences du mot « Galilée » dans le répertoire « RR_MOOC » de notre cours sur GitHub (après l'avoir cloné) :
: Notes_module1.org:grep -r Galilée
Une version plus sophistiquée de =grep= est fournie par le programme [[http://uzix.org/cgvg.html][cgvg]].
** Pourquoi des étiquettes
Une requête basée sur un simple mot renvoie souvent un très grand nombre de propositions, même si la plupart des moteurs de recherche de bureau permettent de filtrer ces dernières. Une façon efficace de limiter leur nombre est d'inclure dans nos documents des étiquettes, c'est-à-dire des points d'ancrage labelisés, qui seront aisément indexés par le moteur de recherche de bureau et dont le label ne correspond à aucun mot ou locution du dictionnaire — nous effectuons ainsi une version simplifiée du travail de l'/indexeur/, la personne chargée de construire l'index d'un livre. Pour que l'étiquette garde un sens, il suffit d'encadrer un mot par une paire de signes de ponctuation comme « : », « ; » ou « ? ». Un label comme « :code: » sera facilement mémorisé et fera un parfait équivalent du mot-clé « code » utilisé dans l'exemple du cahier de note de la deuxième séquence de ce module — pour illustrer la méthode de Locke.
Il nous reste encore nous reste encore un détail technique à régler dans le cas de nos notes prises en format texte comme =Markdown=. En effet, nous ne souhaitons pas que nos étiquettes apparaissent dans les sorties =html=, =pdf= ou =docx= de nos notes. Un façon de procéder, pour les langages de balisage légers qui ne disposent pas d'étiquettes — par exemple, =Markdown= n'en dispose pas, alors que =org= en a — et de les inclure dans des commentaires. En =Markdown=, tout ce qui est encadré par =<!--= et =-->= est considéré comme un commentaire et ne figure pas dans les sorties =html= ou =pdf= des notes. Nous pouvons ainsi utiliser :
#+BEGIN_EXAMPLE
<!-- :code: -->
#+END_EXAMPLE
à l'endroit de nos notes où nous souhaitons aller rapidement lorsque que nous cherchons une information relative à de la programmation (production de codes).
** Les métadonnées
*** Fichiers images
Nous savons à présent comment rajouter des étiquettes à un fichier au format texte, mais nous devons souvent aussi travailler avec des fichiers contenant des images ou des photos, comme les fichiers [[https://fr.wikipedia.org/wiki/JPEG][JPEG]] — les appareils photos numériques utilisent tous ce format —, [[https://fr.wikipedia.org/wiki/Graphics_Interchange_Format][GIF]] ou [[https://fr.wikipedia.org/wiki/Portable_Network_Graphics][PNG]]. La question se pose alors, peut-on ajouter des étiquettes à nos fichiers images de sorte que nos moteurs de recherche de bureau les indexent ? La réponse et oui, grâce aux [[https://fr.wikipedia.org/wiki/M%C3%A9tadonn%C3%A9e][métadonnées]] que contiennent ces fichiers. Les métadonnées, dans ce cas, sont des données stockées dans le fichier mais qui ne sont pas montrées par le logiciel de rendu (en tout cas, pas montrées par défaut). Nous savons tous que ces métadonnées « existent » ; ce sont elles qui contiennent la date, la localisation GPS, le temps d'exposition, etc. de nos photos numériques. Dans les fichiers =JPEG=, elles sont stockées suivant l'[[https://fr.wikipedia.org/wiki/Exchangeable_image_file_format][exchangeable image file format]] (=EXIF=). La plupart des logiciels de manipulations d'images et de photos permettent d'accéder au contenu des métadonnées et de les modifier. L'exemple illustré dans le cours utilise une solution très simple en « ligne de commande », [[http://owl.phy.queensu.ca/~phil/exiftool/][ExifTool]] qui permet de visualiser et de modifier les métadonnées. D'autres logiciels comme [[http://www.exiv2.org/index.html][exiv2]] ou [[https://imagemagick.org/script/index.php][ImageMagick]] permettent de le faire (pour ne citer que des logiciels libres disponibles sur Linux, Windows et MacOS). Certains des éléments du format =EXIF= sont des chaînes de caractères, c'est-à-dire du texte, que nous somme libres d'utiliser comme nous le souhaitons ; nous pouvons dès lors les utiliser pour rajouter nos étiquettes. Nous illustrons dans le cours comment le faire avec =ExifTool=, mais nous aurions aussi pu le faire avec le programme [[https://www.imagemagick.org/script/command-line-options.php#comment][mogrify]] d'ImageMagick. Tous les moteurs de recherche de bureau que nous avons mentionné vont « aller regarder » les métadonnées des fichier =JPEG= lors de la phase d'indexation et nous permettront ainsi d'exploiter les étiquettes que nous y aurons insérées.
=EXIF= n'est pas le seul format de métadonnées existant ; un format plus récent est l'[[https://fr.wikipedia.org/wiki/Extensible_Metadata_Platform][Extensible Metadata Platform ]](=XMP=), disponible pour un plus grand nombre de formats de fichiers — il n'est pour l'instant pas lu sur les fichiers =JPEG= par =DocFetcher=, c'est pourquoi nous avons mis en avant le format =EXIF=, mais cela devrait évoluer assez vite ; les autres moteurs comme =Tracker= et =Recoll= le lisent.
*** Fichiers =PDF=
En plus des fichiers images, nous sommes tous très fréquemment amenés à travailler avec les fichiers « composites » — contenant textes, images, et plus — que sont les fichiers [[https://fr.wikipedia.org/wiki/Portable_Document_Format][PDF]]. Ces fichiers contiennent eux aussi des métadonnées ; c'est d'ailleurs pour eux qu'Adobe a initialement introduit le format =XMP= que nous venons de discuter. Ces métadonnées peuvent être lues et modifiées, en particulier l'élément =Keywords= (mot-clé) qui peut contenir des chaînes de caractères de longueur arbitraires et qui est parfait pour accueillir nos étiquettes. Le programme =ExifTool=, permet de modifier les métadonnées des fichiers =PDF=. Les moteurs de recherche de bureau que nous avons mentionnés, vont tous aller lire les métadonnées des fichiers =PDF= lors de la phase d'indexation.
*** Fichiers audios
Les formats audio comme le [[https://fr.wikipedia.org/wiki/MPEG-1/2_Audio_Layer_III][mp3]] ou le [[https://fr.wikipedia.org/wiki/Ogg][ogg]] contiennent eux aussi des métadonnées, où sont stockés les titres, noms des interprètes, etc ; ces métadonnées peuvent être modifiées et sont lues par les moteurs de recherche de bureau lors de la phase d'indexation.
## Les grandes lignes du module : cahier de notes / cahier de laboratoire
1. Nous utilisons tous des cahiers de notes
2. <!-- .element class="fragment" --> Un aperçu historique de la prise de notes
3. <!-- .element class="fragment" --> Du fichier texte au langage de balisage léger
- Démonstration:markdown
4. <!-- .element class="fragment" --> Pérennité et évolutivité des notes avec la gestion de version
- Démonstration:gitlab
5. <!-- .element class="fragment" --> Les étiquettes et les logiciels d'indexation pour s'y retrouver
- Démonstration:DocFetcher
Note:
__Première ligne__
Nous allons discuter ici d'une question qui dépasse la problématique de la recherche reproductible.
En effet, la mise en œuvre concrète de la recherche reproductible nécessite la tenue d'un cahier de notes et la prise de notes concerne tout le monde. Je commencerai donc ce module en vous disant quelque chose que vous savez déjà (!) :nous devons tous prendre des notes.
__Deuxième ligne__
Si nous devons tous prendre des notes, nos prédécesseurs ont du le faire aussi. Cette constatation élémentaire faite, nous éviterons de croire que nous sommes les premiers à avoir à faire face un déluge d'informations. Nous en profiterons pour apprendre comment nos brillants ancêtres s'y sont pris.
En nous inspirant de nos connaissances des « anciennes » techniques, nous verrons ensuite comment mettre à profit les outils fournis par l'informatique.
__Troisième ligne__
Les fichiers texte et les langages de balisage léger font nous permettre de structurer nos notes et de les « recycler » facilement (dans des articles, des pages web, etc.).
__Quatrième ligne__
La gestion de version nous évitera de tout perdre tout en gardant traces de nos corrections et modifications successives.
__Cinquième ligne__
Enfin, reprendre une activité de zéro parce que retrouver la bonne information dans la jungle de nos notes prendrait plus de temps ne sera plus qu'un souvenir avec la construction d'index.
4. Pérennité et évolutivité des notes avec la gestion de version
- Démonstration : gitlab
5. Les étiquettes et les logiciels d'indexation pour s'y retrouver
- Démonstration : DocFetcher
Note:
La recherche reproductible est encore – mais pour peu de temps seulement ! –, une activité dont le nombre d'adeptes est restreint. Elle suppose par contre une prise de notes « rigoureuse » et là, notre propos commence à s'adresser à un groupe beaucoup plus large. C'est ce que nous allons illustrer ici par quelques exemples.
Nous voyons ici un manuscrit du XIVe abondamment annoté par son propriétaire Nicasius de Planca. Cette forme de prise de note est extrêmement fréquente aussi bien à l'époque des manuscrits qu'aujourd'hui. Vous devriez néanmoins éviter de l'employer sur des livres empruntés dans une bibliothèque ou à des amis !
Les deux pages suivantes présentent un exemple d'une importance considérable pour l'histoire des sciences.
Le 7 janvier 1610, Galilée fait une découverte capitale : il remarque trois « petites étoiles » à côté de Jupiter. Après quelques nuits d'observation, il découvre qu'il y en a une quatrième et qu'**elles accompagnent la planète**, c'est ce qu'il note sur son cahier d'observations. Ce sont les satellites visibles de Jupiter, qu'il nommera plus tard les étoiles Médicées ou astres médicéens – en l'honneur de ses protecteurs, la Famille des Médicis – et qui sont aujourd'hui appelés lunes galiléennes.
Ces observations amèneront Galilée à rejeter l'hypothèse géocentrique (la terre est le centre de l'Univers et tout tourne autour d'elle) en faveur du système copernicien héliocentrique. Cela l'amènera indirectement (je « fais court ») et bien plus tard, le 22 juin 1633, a être condamné par l'inquisition, ce qui lui vaudra de finir ses jours en résidence surveillée.
Avec l'apparition de l'imprimerie, la demande de papier croît considérablement et le prix de celui-ci chute. En plus de l'emploi des codex avec support papier que nous venons de voir, de nombreux savants commencent à prendre leurs notes sur des « bouts de papier » qui deviendront plus tard des fiches.
Mais si prendre des notes en abondance sur des « bouts de papier », est très bien ! encore faut-il être capable de s'y retrouver. Vincent Placcius (1642-1699) et Gottfried Leibniz (1646-1716) s'étaient fait construire une armoire spéciale pour résoudre ce problème.
Cette armoire contenait une multitude de colonnes capables de tourner autour de leur axe. Un côté de la colonne permettait d'inscrire un ou des mots clés et le côté opposé comportait un crochet auquel était attaché les notes correspondantes.
Remarquez l'avantage des « bouts de papiers classés » de Placcius et Leibniz sur le _codex_ de Galilée : les premiers peuvent être facilement réordonnées.
+++
## Les dangers de l'abondance de notes : la triste fin de Fulgence Tapir
Un extrait de la fin de la préface de « L'île des pingouins » d'Anatole France, publié en 1908.
Je ne résiste pas, pour vous prévenir contre une accumulation exagérée de notes, à vous lire un extrait du roman d'Anatole France « L'île des pingouins », une histoire parodique de la France. Dans la préface, le narrateur explique qu'il écrit l'histoire des Pingouins et que sa quête d'informations l'amène chez l'immense savant Fulgence Tapir. Cette visite va se solder par une catastrophe que le narrateur rapporte ainsi :
Les murs du cabinet de travail, le plancher, le plafond même portaient des liasses débordantes, des cartons démesurément gonflés, des boîtes où se pressait une multitude innombrable de fiches, et je contemplai avec une admiration mêlée de terreur les cataractes de l'érudition prêtes à se rompre.
—Maître, fis-je d'une voix émue, j'ai recours à votre bonté et à votre savoir, tous deux inépuisables. Ne consentiriez-vous pas à me guider dans mes recherches ardues sur les origines de l'art pingouin?
—Monsieur, me répondit le maître, je possède tout l'art, vous m'entendez, tout l'art sur fiches classées alphabétiquement et par ordre de matières. Je me fais un devoir de mettre à votre disposition ce qui s'y rapporte aux Pingouins. Montez à cette échelle et tirez cette boîte que vous voyez là-haut. Vous y trouverez tout ce dont vous avez besoin.
J'obéis en tremblant. Mais à peine avais-je ouvert la fatale boîte que des fiches bleues s'en échappèrent et, glissant entre mes doigts, commencèrent à pleuvoir. Presque aussitôt, par sympathie, les boîtes voisines s'ouvrirent et il en coula des ruisseaux de fiches roses, vertes et blanches, et de proche en proche, de toutes les boîtes les fiches diversement colorées se répandirent en murmurant comme, en avril, les cascades sur le flanc des montagnes. En une minute elles couvrirent le plancher d'une couche épaisse de papier. Jaillissant de leurs inépuisables réservoirs avec un mugissement sans cesse grossi, elles précipitaient de seconde en seconde leur chute torrentielle. Baigné jusqu'aux genoux, Fulgence Tapir, d'un nez attentif, observait le cataclysme; il en reconnut la cause et pâlit d'épouvante.
—Que d'art! s'écria-t-il.
Je l'appelai, je me penchai pour l'aider à gravir l'échelle qui pliait sous l'averse. Il était trop tard. Maintenant, accablé, désespéré, lamentable, ayant perdu sa calotte de velours et ses lunettes d'or, il opposait en vain ses bras courts au flot qui lui montait jusqu'aux aisselles. Soudain une trombe effroyable de fiches s'éleva, l'enveloppant d'un tourbillon gigantesque. Je vis durant l'espace d'une seconde dans le gouffre le crâne poli du savant et ses petites mains grasses, puis l'abîme se referma, et le déluge se répandit sur le silence et l'immobilité. Menacé moi-même d'être englouti avec mon échelle, je m'enfuis à travers le plus haut carreau de la croisée.
+++
## Le Navigateur et son livre de bord : Éric Tabarly
Sur la page opposé il fait ses calculs de positions (il n'y avait pas de GPS à l'époque).
__Le cas du livre de bord n'est anecdotique qu'en apparence__.
Un projet européen a, en effet, été consacré, il y a une dizaine d'année, à une reconstruction des climats des océans atlantiques et indiens aux 17e et 18e siècles. Cette tentative de reconstruction s'est basée sur des *livre de bord* des navires des compagnies des Indes portugaises, espagnoles, hollandaises, anglaises et françaises.
De même, les livres de bord des « navires négriers » constituent une source d'information capitale pour l'estimation du nombre d'africains déportés vers les colonies de ce que les occidentaux désignaient par « Nouveau Monde » du 15e au 19e siècle (11 à 12 millions).
+++
## <span style="font-size:95%">Quel(s) support(s) matériel(s) pour les notes ?</span>
Doit-on utiliser :
- l'objet d'étude (comme pour le livre annoté)
- un ou des cahiers
- des fiches ou feuilles volantes stockées dans un classeur
- un ou des fichiers d'ordinateur
- des dessins ou photos
- des films
- ... ?
+++
## Comment s'y retrouver ?
Les notes posent un problème d'organisation :
-<spanstyle="font-size:97%">Comment peut-on imposer une structure à nos notes après coup ? Est-ce seulement possible ?</span>
-<spanstyle="font-size:97%">Peut-on les indexer, si oui, comment ?</span>
-<spanstyle="font-size:97%">Comment peut-on les rendre pérennes tout en les faisant évoluer ?</span>
Note:
__En Introduction__
Les notes par nature disparates – par les sujets dont elles traitent et, souvent, par leurs supports matériels – posent un problème d'organisation.
__En conclusion__
__Il est clair que sans organisation, l'utilité des notes n'excède qu'à peine notre capacité à mémoriser des faits ou évènements.__
Dans le reste de ce module nous allons *proposer* des réponses aux questions que nous venons de poser dans ces deux dernières diapos.
4. Pérennité et évolutivité des notes avec la gestion de version
- Démonstration : gitlab
5. Les étiquettes et les logiciels d'indexation pour s'y retrouver
- Démonstration : DocFetcher
Note:
Si nous devons tous prendre des notes, nos prédécesseurs ont dû le faire aussi. Cette constatation élémentaire va nous inciter à regarder comment nos brillants ancêtres s'y sont pris pour effectuer cette tâche.
+++
## De quoi allons-nous discuter ?
- de l'aspect concret de la prise de note – la « matérialité » des historiens –
- de l'organisation des livres et des notes
- du lien entre aspects matériels et organisationnels.
Note:
Notre discussion va porter en partie sur le livre puisque les éléments de navigation de ce dernier : table des matières, index, etc. ; s'applique aussi à l'organisation des notes.
Nous allons nous concentrer sur le « côté occidental » de l'histoire avec une seule page consacrée aux contributions chinoises et aucune aux contributions musulmanes, indiennes ou précolombiennes. Ce biais doit être interprété comme un reflet de mes ignorances et par la plus grande facilité d'obtenir des documents et illustrations concernant l'histoire du livre et de la prise de notes en Occident.
En haut à gauche : une tablette d'argile avec des comptes (précunéiforme, vers -3000)
En haut au milieu : une fresque de Pompéi avec le portrait de Terentius Neo et sa femme. Elle porte une _tablette de cire_ et un _stylet_ (les outils principaux de prise de notes jusqu'au 19e siècle, ou presque), il porte un _volumen_, la support matériel du livre jusqu'au début de notre ère.
En haut à droite : un cahier de notes sur papier datant du milieu du 17e siècle et contenant des « lieux communs » au sens rhétorique du terme de « source générale communément admise d’où un orateur peut tirer ses arguments ».
En bas à gauche : une fiche, exemple d'un support de notes dont l'utilisation va « exploser » avec la bureaucratisation et le développement des bibliothèques. Ce support sera largement adopté dans les sciences humaines, mais il a d'abord été systématiquement employé et peut être même créé par le naturaliste Carl Linné, père de la _taxinomie_.
En bas au milieu : des « Post-it » comme nous sommes nombreux à en utiliser tous les jours.
En bas à droite : un ordinateur moderne utilisable comme une tablette (numérique cette fois).
Les tablettes de cire (en latin tabulæ, planches) sont des supports d'écriture effaçables et réutilisables, connus depuis la haute Antiquité et qui ont été utilisés jusqu'au milieu du XIXe siècle.
La tablette de cire est formée d'une plaquette le plus souvent en bois (mais les nobles auront des tablettes en argent, ivoire, etc.). Elle est évidée sur presque toute sa surface en conservant un rebord de quelques millimètres qui fait cadre. De la cire est coulée dans la partie en dépression puis lissée. L'écriture se fait en gravant les caractères sur la cire à l'aide de l'extrémité pointue d'un instrument appelé style ou stylet. Ils peuvent être effacés en lissant la cire avec l'autre extrémité, plate, du stylet, après l'avoir ramollie.
La plus ancienne tablette connue provient d'un bateau mycénien et date du XIVe siècle av. J.-C. Les Grecs ont adopté la tablette par l'intermédiaire des Phéniciens en même temps que l'alphabet vers le VIIIe siècle av. J.-C..
En français l'expression « faire table rase » vient du latin _tabula rasa_, effacer la tablette.
Les ardoises et des tablettes de sable ont également été utilisées pour prendre des notes.
Le passage du _volumen_ au _codex_ est absolument fondamentale pour l'avenir de la civilisation écrite.
Le _volumen_ est un livre à base de feuilles de papyrus collées les unes aux autres et qui s'enroule sur lui-même. Il a été créé en Égypte vers 3000 av. J.-C. Le texte est rédigé en colonnes parallèles assez étroites. C'est le support du texte par excellence durant les trente siècles précédant notre ère, d'abord en Égypte, puis dans tout le monde méditerranéen.
La mosaïque en bas à gauche représente Virgile (70-19 avant J.-C., assis) tenant un volume de l'Énéide et Clio, muse de l'Histoire, tenant elle aussi un _volumen_.
Comme l'explique Frédéric Barbier : « La forme du _volumen_ impose une pratique de lecture complexe : il faut dérouler (_explicare_) et enrouler en même temps, ce qui interdit par exemple, de travailler simultanément sur plusieurs rouleaux (un texte et son commentaire) ou de prendre des notes, impose une lecture suivie et empêche la simple consultation. »
Le _volumen_ n'est clairement pas adapté à une lecture « nomade » ; imagine-t-on Ulysse partant pour son Odyssée avec les 24 _volumen_ de l'Iliade ?
Le _volumen_ est à l'origine du terme « volume » dans un « livre en plusieurs volumes » comme dans la désignation du concept géométrique.
Le passage au codex repose sur deux innovations :
- la collection des tablettes de cires en « groupes reliés » ;
- la généralisation du parchemin (peau, généralement, de mouton spécialement préparée) au détriment du papyrus. Cette généralisation résulte une lutte pour l'hégémonie culturelle entre deux descendants de généraux d'Alexandre le Grand, en effet d'après Pline l'ancien : Ptolémé Épiphane d'Alexandrie cherchait à empêcher Eumène II d'établir une bibliothèque à Pergame (au 2e siècle avant J.-C.) et avait interdit l'exportation du papyrus (produit exclusivement en Égypte), ce qui incita Eumène à chercher un substitut qui devint le parchemin.
Le remplacement du rouleau par le codex aura des conséquences majeures sur l'organisation du livre ainsi que sur la façon de lire et il permettra le développement ultérieur de l'imprimerie.
La principale révolution introduite par le codex est la notion de page. Grâce à elle, le lecteur peut accéder de manière directe à un chapitre ou à un passage du texte, alors que le rouleau impose une lecture continue. __Les mots ne sont de plus pas séparés par des espaces__. Comme l'écrit Collette Sirat : « Il faudra vingt siècles pour qu’on se rende compte que l’importance primordiale du codex pour notre civilisation a été de permettre la lecture sélective et non pas continue, contribuant ainsi à l’élaboration de structures mentales où le texte est dissocié de la parole et de son rythme. »
Remarquez les lettres en rouge, résultat de la _rubrication_ (mot qui a donné notre « rubrique » moderne) utilisée pour séparer ce qui deviendra des paragraphes avec l'imprimerie. Cette dernière en effet utilisera des espaces blancs plutôt que des couleurs (trop chères) pour marquer des séparations. L'usage de la couleur constitue une technique de mise en page qui pourrait parfaitement être remise à l'ordre du jour avec l'informatique.
Au IVe siècle de notre ère, Eusèbe de Césarée ou Eusèbe (de) Pamphile est l'auteur de nombreuses œuvres historiques, apologétiques, bibliques et exégétiques. Auteur de l’Histoire ecclésiastique, il est reconnu comme un Père de l'Église, et ses écrits historiques ont une importance capitale pour la connaissance des trois premiers siècles de l'histoire chrétienne. Il va apporter plusieurs innovations capitales à l'organisation du livre dont la table de références croisées.
Pour permettre une comparaison plus facile des quatre évangiles, il numérote les différents versets de chacun d'entre eux – sa numérotation n'est celle employée de nos jours qui, elle, date du XVIe siècle. Il indique les versets dont les contenus sont identiques dans les 4 évangiles (à gauche), ceux dont le contenu est identique dans 3 des 4 (à droite), dans 2 des 4, etc. Ce « canon eusébien » constitue le premier exemple connu de références croisées.
+++
## Importance du _codex_
D'après Frédéric Barbier dans l'« Histoire du livre » :
- L'invention du _codex_ est absolument fondamentale pour l'avenir de la civilisation écrite
- Le _codex_ se prête à la _consultation partielle_
- On peut lui superposer un système de références facilitant la consultation
- On peut consulter le _codex_ en prenant des notes
- La combinaison du _codex_ et de la minuscule donne un outil intellectuel très puissant, tel qu'il n'en existait pas antérieurement.
Note:
Au fil des siècles, le codex — qu'on désigne le plus souvent comme un manuscrit — va évoluer et se donner peu à peu les attributs du livre moderne : séparation entre les mots (VIIe siècle), début de ponctuation (VIIIe siècle), table des matières, titre courant, marque de paragraphe (XIe siècle), pagination, index (XIIIe siècle), etc.
Un point intéressant : le contenu de la Thora est « fixé » avant l'apparition du codex et, aujourd'hui encore, la Thora est écrite sur des _volumen_ (dans les synagogues au moins). La religion chrétienne se développe en même temps que le codex et ne donnera jamais au _volumen_ un statut « supérieur », pas plus que ne le fera la religion musulmane.
Le lien entre apparition et généralisation du _codex_, d'une part, et apparition des « outils de navigation », table des matières, index, titre courant etc., d'autre part à un pendant dans la civilisation chinoise.
En Chine, les concours d'entrée dans l'administration se développent au 9e siècle. L'épreuve principale de ceux-ci serait probablement appelée épreuve de culture générale de nos jours et demande aux candidat une connaissance approfondie des classiques, Confucius en tête, et la capacité de les citer.
Pour répondre à cette demande, des ouvrages spécialisés, sorte de florilèges, les leishu, vont se développer. Mais leur utilisation efficace doit permettre de trouver un ensemble de citations appropriées à un contexte donné suppose l'emploi d'index, de table des matières, etc. De façon intéressante, le _codex_ et les outils de navigation vont eux aussi se développer __de concert__ à partir de cette époque.
La majorité de ces leishus __est imprimée__ (dès le 9e siècle !), ce que rappelle la matrice d'impression à droite de la page. L'impression se fait bien sûr sur du papier, support inventé par les Chinois au 8e siècle avant J.-C....
Maintenant que nous avons très brièvement décrit l'apparition des principaux outils de navigations du livre – outils qui peuvent bien entendu s'appliquer aux notes prises dans un cahier – ; nous revenons sur le « bout de papier » ou la fiche comme support de note.
Nous montrons à nouveau l'armoire à notes de Placcius et Leibniz puisqu'elle évoque parfaitement les inconvénients et les avantages des supports ne contenant __qu'une seule note__.
L'inconvénient est que le bout de papier ou la fiche se perdent facilement et ne servent à rien s'ils ne sont pas __classés__ en plus d'être rangés. Problème résolu par l'armoire de la figure. D'une certaine façon, sa conception fait qu'on accède à son contenu par l'index.
L'avantage est que les notes peuvent être réorganisées si elles contiennent des information sur plusieurs sujets. Elle peuvent aussi être directement collées dans un livre lors de la composition d'un florilège ou d'un ouvrage de synthèse.
Ce dernier procédé était très couramment employé par les humanistes et les érudit de la renaissance et du début de la période moderne. [Conrad Gessner](https://fr.wikipedia.org/wiki/Conrad_Gessner)(1516-1565) était un champion de cette technique ; il obtenait même parfois ses fiches en découpant les pages des livres. Encore une fois, ne faites pas cela avec les livres de bibliothèques !
+++
## Organiser avec une bonne « carte » : la méthode de John Locke
Nous allons maintenant apprendre une technique de construction d'index due à [John Locke](https://fr.wikipedia.org/wiki/John_Locke)(1632-1704), grand-père du libéralisme, ce qui ne l'empêchait pas d'être actionnaire de la _Royal African Company_, [principale compagnie négrière anglaise](https://en.wikipedia.org/wiki/John_Locke#Constitution_of_Carolina)...
J'illustre la méthode avec mon cahier de notes. Les deux pages décrivent l'organisation d'un jeu de données dans un fichier au format [HDF5](https://www.hdfgroup.org/) sur la page de gauche et l'organisation correspondante dans un `data frame` du logiciel [R](https://www.r-project.org/) sur la page de droite. Les données concernent la mesure de la concentration des ions calcium dans des neurones et ces notes ont été prises lors du développement d'un code (programme d'ordinateur) pour les analyser.
Pour l'application de la méthode de Locke, ce n'est pas le contenu des pages qui nous importent directement, mais les fait qu'elles sont numérotées (en bas dans les coins externes, ici nous avons affaire aux pages 86 et 87) et qu'elles comportent des mots clé : `code` ; `neuro` ; `calcium` ; inscrits en rouge en bas des pages.
Je signale que la méthode de Locke peut être mise en œuvre après coup. Je l'ai en fait testée lors de la préparation de ce cours, c'est-à-dire après avoir commencé à remplir mon cahier de notes.
Nous voyons maintenant notre index. Il est situé en fin de cahier, même si Locke recommande de le placer au début, parce-que je ne l'avais pas planifié comme je viens de l'expliquer.
L'idée est de référencer les mots clé du cahier en se basant sur leur première lettre et sur la première voyelle suivant la première lettre.
L'index est ainsi décomposé en 26 entrées principales, les lettres capitales de A à R visibles sur les deux pages, et chaque entrée principale est elle-même subdivisée suivant les 5 voyelles les plus courantes (par convention le y sera alors classé avec le i).
Les pages 86 et 87 que nous venons de voir comportaient le mot clé `code` et nous voyons qu'elles figurent sur la ligne `Co`, elle comportaient le mot clé `neurone` et elles figurent également sur la ligne `Ne` ; enfin elle comportaient le mot clé `calcium` et figurent donc sur la ligne `Ca`.
Si besoin, on peut aussi lister les mots clé avant ou après l'index lorsque le cahier est fini.
+++
## Conclusions
- Comme il est rarement possible de se passer complètement d'un support papier, apprendre de nos brillants prédécesseurs devrait nous permettre de ne pas « réinventer la roue »
- Clairement nous avons néanmoins intérêt à utiliser autant que possible un support numérique pour profiter (en nous inspirant de ces mêmes prédécesseurs) :
+ d'une plus grande flexibilité d'organisation, de réorganisation et de structuration
3.**Du fichier texte au langage de balisage léger**
- Démonstration : markdown
4. Pérennité et évolutivité des notes avec la gestion de version
- Démonstration : gitlab
5. Les étiquettes et les logiciels d'indexation pour s'y retrouver
- Démonstration : DocFetcher
Note:
Nous commençons à présent une discussion plus « technique » dirigée principalement vers les outils que l'informatique met à notre disposition pour prendre des notes avec les notions de « fichier texte » et de « langage de balisage léger ».
+++
## Qu'est-ce qu'un fichier texte ?
- De façon pratique, un « [fichier texte](https://fr.wikipedia.org/wiki/Fichier_texte) » _donne quelque chose de lisible_ lorsqu'il est ouvert avec un [éditeur de texte](https://fr.wikipedia.org/wiki/%C3%89diteur_de_texte).
- Un « éditeur de texte » permet de créer et de modifier des fichiers
textes (belle définition circulaire !) :
+[Notepad++](https://notepad-plus-plus.org/) pour `Windows`
+[gedit](https://wiki.gnome.org/Apps/Gedit) pour les systèmes `Unix / Linux` (mais pas seulement)
+[TextEdit](https://en.wikipedia.org/wiki/TextEdit) pour les `MacOS`.
Note:
Nous ne citons ici, délibérément, que des logiciels libres (il est difficile de faire de la recherche vraiment reproductible avec des logiciels non libres).
Un logiciel de « [traitement de texte](https://fr.wikipedia.org/wiki/Traitement_de_texte) » est plus sophistiqué qu'un simple éditeur de texte ; il permet de faire plus, ce qui sous entend qu'il peut aussi ouvrir et manipuler des fichiers textes.
**Attention** : le format « natif » des traitements de texte est rarement un format texte. Les fichiers `doc` et `docx` de `Word` et `odt` de `LibreOffice` _ne sont pas des fichiers textes_.
+++
## Un fichier « non lisible » avec un éditeur de texte
Les caractères contenus dans le fichier texte sont typiquement codés en [UTF-8](https://fr.wikipedia.org/wiki/UTF-8)(_Universal Character Set Transformation Format - 8 bits_).
**Cela implique que** :
- il est _toujours possible_ de les lire avec un éditeur de texte _même des années plus tard_
- les logiciels d'indexation ou de « [recherche de bureau](https://en.wikipedia.org/wiki/Desktop_search) », comme les logiciels de [gestion de versions](https://fr.wikipedia.org/wiki/Gestion_de_versions), les exploitent pleinement.
**Conclusion : choisissez le format texte (UTF-8)**.
+++
## Problème du fichier texte « simple »
- Avec un fichier texte « simple » il n'est pas possible de profiter des outils de navigation comme les hyperliens.
- De même, il n'est pas possible de mettre en évidence un mot ou un groupe de mots avec une police **grasse** ou une police *italique*.
- Si plusieurs personnes travaillent sur un même texte, elles ne peuvent se corriger en ~~barrant~~ des mots.
Ces limitations, combinées aux avantages des fichiers textes, ont amenées les informaticiens à développer des [langages de balisages](https://fr.wikipedia.org/wiki/Langage_de_balisage)(_Markup Language_ en anglais).
Un exemple banale est le [langage HTML](https://fr.wikipedia.org/wiki/Hypertext_Markup_Language).
+++
## Un fichier `HTML` visualisé avec un éditeur de texte
Ces langages définissent une collection de balises qui ne sont pas (typiquement) destinées à être lues par un humain, mais à être interprétées par un logiciel.
Retrouvons le texte du début de la page précédente : « En informatique les langages de balisage... ».
Remarquez la syntaxe qui permet d'introduire un commentaire dans le fichier source. Un commentaire est un élément de texte qui ne sera pas interprété par le logiciel de visualisation.
+++
Le problème se résume ainsi :
- Fichiers texte attractifs pour la prise de notes.
- Langages de balisages ⇒ meilleur confort de lecture des fichiers _avec logiciel « de rendu »_.
- Langages de balisages ⇒ fichiers source au format texte, __mais__ nécessitent éditeurs spécialisés.
Peut-on combiner la légèreté des fichiers textes « simples » avec le confort de lecture offert par les langages de balisage ?
Note:
Le problème se résume ainsi :
- Les fichiers textes sont très attractifs pour la prise de notes.
- Les langages de balisages comme l'`HTML` nous permettent d'améliorer considérablement le confort de lecture de nos fichiers _à condition d'utiliser un logiciel « de rendu » adapté_.
- Les langages de balisages comme l'`HTML` génèrent des fichiers sources au format texte, mais avec lesquels il est difficile (pénible) de travailler et nécessitent des éditeurs spécialisés – ce qui ralentit l'écriture des notes –.
Peut-on combiner la légèreté des fichiers textes « simples » avec le confort de lecture offert par les langages de balisage ?
+++
## Langage de balisage léger : l'idée
Un [langage de balisage léger](https://fr.wikipedia.org/wiki/Langage_de_balisage_l%C3%A9ger) est :
- un type de langage de balisage utilisant une _syntaxe simple_
- conçu pour qu'un fichier en ce langage soit _aisé à saisir_ avec un éditeur de texte simple
- _facile à lire dans sa forme non formatée_, c'est-à-dire sans logiciel dédié comme un navigateur internet.
Markdown nous permet aussi de structurer facilement nos notes avec des sections, sous-sections, etc.
Les hyperliens peuvent être aussi bien avoir des cibles externes, comme illustré ici, qu'interne.
Il est possible d'inclure des commentaires.
+++
## `Markdown` n'est pas le seul langage de balisage léger disponible
- Le plus communément employé est [`Wikitexte`](https://fr.wikipedia.org/wiki/Wikitexte) de Wikipédia
-[AsciiDoc](http://www.methods.co.nz/asciidoc/) a de nombreux adeptes
-[ReStructuredText](http://docutils.sourceforge.net/docs/user/rst/quickstart.html) est très employé par la communauté des programmeurs `Python`
- Il y en a bien d'autres.
+++
## Conclusions
Les langages de balisage léger vont nous permettre de :
- travailler avec des fichiers textes
- écrire rapidement nos notes, avec n'importe quel éditeur, grâce à leur syntaxe simplifiée
- organiser nos notes en les structurant.
Note:
Dans la partie approfondissements, nous montrons :
- comment obtenir n'importe quel format « de sortie » (`HTML`, `PDF`, `docx`, `Wikitexte`) à partir d'un seul « fichier source » au format `Markdown` ;
- que le langage de balisage léger choisi importe peu puisque nous disposons d'un outil pour convertir l'un dans n'importe quel autre.
4.**Pérennité et évolutivité des notes avec la gestion de version**
- Démonstration : gitlab
5. Les étiquettes et les logiciels d'indexation pour s'y retrouver
- Démonstration : DocFetcher
Note:
Nous allons maintenant discuter de la façon dont l'informatique nous permet de conserver nos notes de façon « sûr » tout en nous permettant de les faire évoluer.
Les outils dont nous allons parler concernent encore une fois une communauté beaucoup plus large que celle de la « recherche reproductible ». Toute personne amenée à « travailler » son texte s'y trouve confrontée, cela d'autant plus que la rédaction est de plus en plus effectuée en commun.
La problème de la pérennité des notes et des textes ne constitue en rien une nouveauté.
Pour les humanistes et les savants du début de l'ère moderne qui se spécialisaient dans la compilation de textes, elle était une véritable obsession et la justification de leur travail.
La solution qu'ils préconisaient alors, la copie multiple, est identique à celle que nous employons aujourd'hui, seul le support à changer.
Restons modestes, le support papier des humanistes a démontré sa capacité à résister à l'épreuve du temps.
Par contre, en ce qui concerne l'évolutivité, nous avons quelques raisons de penser que nos outils modernes constituent un véritable progrès.
Une solution qui permet de travailler lorsqu'on utilise que des fichiers texte est le suivi de modifications proposé par la plupart des logiciels de traitement de texte.
Ce n'est pas la solution que nous préconisons, mais c'est certainement le type de « gestion de version » auquel les utilisateurs d'ordinateurs ont le plus de chances d'avoir été exposés.
Nous prenons ici un exemple avec `LibreOffice` où nous éditons un fichier contenant des notes prises pour préparer ce cours.
Remarquez les boutons en bas à gauche que nous faisons apparaître en navigant dans les menu _view_ puis _Toolbars_ avant de sélectionner _track changes_.
- solution « facile » à mettre en œuvre
- pas de format texte
- faire attention à ne garder __que la dernière version__ avant de soumettre un article (pour les scientifiques)
Si je clique sur « Derniers changements », alors je vois apparaître la liste des pages de mon wiki avec les dates des dernières modifications. Si maintenant je clique sur le nom de l'une des pages...
Je présente maintenant la solution la plus sophistiquée à ce jour.
Ici, un logiciel spécifique, _git_ est employé pour gérer les versions successives d'un ensemble de fichiers de nature disparate (des fichiers textes, des images, etc). En fait des arborescence de fichiers peuvent être gérées par ce logiciel.
Les logiciels comme _git_ nécessite la création d'un dépôt, qui peut être la machine de l'utilisateur, mais qui est en général hébergé sur un site internet dédié comme ici _GitHub_.
Le dépôt va permettre à différentes personnes de travailler sur le même « projet ». Elles vont échanger leur modifications via le dépôt. __Elles auront néanmoins toutes une copie complète de ce dernier__ (datant de leur dernière « synchronisation »).
Des nombreux instituts de recherche fournissent maintenant de tels dépôts aux laboratoires qui leurs sont rattachés.
Les utilisateurs peuvent alors souvent employer une interface graphique pour naviguer dans leurs dépôts, revenir sur des version antérieures, faire des comparaisons, des recherches, etc.
Nous voyons ici l'interface fourni par _GitHub_ et nous visualisons un état antérieur du fichier source de cette présentation.
Vous pouvez tous vous connectez à _Github_, aller sur le dépôt que nous avons utilisé pour préparer le cours, et refaire ce qui est montré dans les quelques diapos qui suivent.
Lorsque plusieurs fichiers ont été modifiés, comme ici où un fichier image a été rajouté et un fichier texte a été modifié, l'ensemble des modifications est visible et accessible.
+++
## Avantages et inconvénients
- Solution sophistiquée (donc un peu plus difficile à maîtriser que les précédentes)
- Solution qui a fait ses preuves, en particulier dans un cadre collaboratif sur de grands projets (noyau Linux)
- Permet d'enregistrer des modifications sur plusieurs fichiers à la fois
- Une sauvegarde centralisée dont tous les membres du projet ont une copie intégrale
Note:
Dans la partie approfondissements, nous rentrerons un peu plus dans les aspects concrets de l'utilisation de `git`.
`git` devient de fait le standard de la gestion de version bien au-delà des projets purement logiciels, cela vaut donc la peine de faire un petit effort pour en maîtriser les rudiments.
Quelque soit la stratégie de gestion de version employée, le retour en arrière est possible, mais lors des premières tentatives il vous faudra faire preuve de calme et de patience !
4. Pérennité et évolutivité des notes avec la gestion de version
- Démonstration : gitlab
5.**Les étiquettes et les logiciels d'indexation pour s'y retrouver**
- Démonstration : DocFetcher
Note:
Nous revenons ici sur le problème de l'indexation, pas tant sur l'indexation d'un document unique que sur l'indexation de documents multiples dans des formats divers.
- comme nous l'avons déjà affirmé, prendre des notes abondantes et détaillées n'est utile que si nous pouvons retrouver les informations qu'elles contiennent quand nous en avons besoin
- pour des notes contenues dans un seul fichier texte, la fonction de recherche de notre éditeur favori nous permet généralement d'aller assez loin
- pour des notes manuscrites contenues dans un cahier, la méthode de Locke — que nous avons exposée dans notre deuxième séquence — et qui repose sur des mots clé ou étiquettes, donne de bons résultats
- les notes manuscrites sur fiches sont généralement stockées dans un meuble dont la structure matérialise un index — comme l'armoire de Placcius et Leibniz —
+++
## Ainsi parlait Leibniz
« Il me semble que l'apparat savant contemporain est comparable à un grand magasin qui contient une grande quantité de produits, stockés de façon totalement désordonnée, mélangée ; où les nombres ou lettres d'indexation manquent ; où les inventaires et livres de comptes pouvant aider à ordonner le contenu ont disparu.
Plus grande est la quantité d'objets amassés, plus petite est leur utilité. Ainsi, ne devrions nous pas seulement essayer de rassembler de nouveaux objets de toutes provenances, mais nous devrions aussi essayer d'ordonner ceux que nous avons déjà. »
Note:
J'emploie ici le terme d'« [apparat savant](https://fr.wikipedia.org/wiki/Apparat_savant) » qui est un terme technique de l'édition désignant : citations, références et sources, notes en bas de pages, introduction, texte en langue originale (en parallèle avec la traduction), commentaire historique ou philologique, index fontium (les sources), index locorum (références avec renvoi à la page où le passage est cité ou mentionné, par ex. : Évangile selon Marc 1, 1 : p. 100), index nominum (les noms propres), index rerum (les thèmes), etc.
"It seems to me that the apparatus of contemporary scholarship is comparable to a very large store which, though it keeps a great variety of goods, yet is totally confused and in disorder, because all items are mixed up, because no numbers or letters of an index are displayed, and because inventories or account ledgers which could throw some light on the matter are missing.
"The larger the mass of collected things, the less will be their usefulness. Therefore, one should not only strive to assemble new goods from everywhere, but one must endeavor to put in the right order those that one already possesses."
- Moteur de recherche pour indexation et recherche globale
Note:
- les techniques que nous venons de voir ou revoir ne fonctionnent que pour un seul « document » — recherche avec l'éditeur de texte, index d'un cahier — et/ou pour un seul type de document
- les outils informatiques dont nous disposons nous permettent d'aller plus loin dans l'indexation des fichiers numériques
- il est possible de rajouter des étiquettes ou mots-clés à des fichiers textes comme à des fichiers images (`jpg`, `png`) ou des fichiers « mixtes » (`pdf`) grâce aux métadonnées qu'ils contiennent
- les moteurs de recherche de bureau permettent d'indexer l'ensemble des fichiers textes d'une arborescence donnée mais aussi les métadonnées des autres fichiers
+++
## Trouver un mot quelconque avec un moteur de recherche de bureau (`DocFetcher`)
## Le problème de l'« abondance »
3. From Text Files to Lightweight Markup Languages
- Demo: markdown
4. Note Archiving and Evolution with Version Control
- Demo: gitlab
5. Labels and Search Engines
- Demo: DocFetcher
* M1-S1: Note-taking concerns everyone
** Notes
:PROPERTIES:
:BEAMER_ENV: note
:END:
This section discusses a much wider issue than /reproducible research/ (RR). Implementing RR requires thorough note-taking and note-taking concerns everyone. The purpose of this section is therefore to remind the reader / auditor that he/she already knows: *note-taking concerns everyone*. Few examples are used to that end.
** The scholar annotating his book / manuscript
[[../assets/img/ManuscritAnnoteEtCoupe.png]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
A XIVth century manuscript with the works of Aristotle owned by Nicasius de Planca (gallica.bnf.fr / Bibliothèque nationale de France).
*** Notes
:PROPERTIES:
:BEAMER_ENV: note
:END:
We see a manuscript from the XIVth century heavily annotated by its owner Nicasius de Planca. This kind of note-taking was and remains extremely common. You should nevertheless avoid it when reading books from a library or from your friends!
The next two slides show a case of paramount importance for the History of Science.
** Galileo observing Jupiter's moons
[[../assets/img/GalileoManuscriptCoupe.png]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
Galileo Galilei's notes while observing Jupiter in January 1610 with his telescope (Wikimedia Commons).
*** Notes
:PROPERTIES:
:BEAMER_ENV: note
:END:
The first observation was done on January 7 1610. Galileo Galilei first thought that he found new stars close to Jupiter (see the [[https://en.wikipedia.org/wiki/Galileo_Galilei#Jupiter's_moons][Wikipedia page]]). But after several nights of observation, he realized that these "stars" were in fact circling around the planet, *they are satellites*! He named the group of four the Medicean stars, in honour of his future patron, Cosimo II de' Medici, Grand Duke of Tuscany, and Cosimo's three brothers (Wikipedia).
**
[[../assets/img/GalileoManuscriptZoom.png]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
The small "stars" are in fact orbiting around Jupiter, *they are doing what the Moon does around the Earth* (Wikimedia Commons).
*** Notes
:PROPERTIES:
:BEAMER_ENV: note
:END:
These observations lead Galileo to reject the geocentric hypothesis in favor of the heliocentric one. This brought him much later, and after a somewhat tortuous path that I don't have the space to describe now, in front of the Inquisition that sentences him on June 22 1633 to house arrest, which he remained under for the rest of his life.
** Placcius' and Leibniz' closet
[[../assets/img/Placcius_cabinet_TabIV.png]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
Organizing notes Placcius' way (Placcius, Vincent, 1642-1699. /De arte excerpendi vom gelahrten Buchhalten/, 1689. Houghton Library, Harvard University.)
*** Notes
:PROPERTIES:
:BEAMER_ENV: note
:END:
With printing appearance, demand for paper increased and paper's price ended up decreasing (after a large production increase). In addition to the use of the /codex/ with pages made of paper, many scholars started using paper slips.
But taking abundant notes on paper slips is good only if one can find efficiently retrieve this stored information when needed. Vincent Placcius (1642-1699) and Gottfried Leibniz (1646-1716) had a custom made closet to solve this retrieval problem. This example is discussed in Ann Blair's book /TOO MUCH TO KNOW/, Yale Univ. Press, 2010 (pp. 93-95).
**
***
:PROPERTIES:
:BEAMER_COL: 0.48
:BEAMER_ENV: block
:END:
#+ATTR_LATEX: :width 0.6\textwidth
[[../assets/img/Placcius_cabinet_TabIVzoom.png]]
***
:PROPERTIES:
:BEAMER_COL: 0.48
:BEAMER_ENV: block
:END:
Zoom on the columns of Placcius' cabinet. You can see the "front" (left column), the "side" (second from left) and the "back" (fourth from left).
*** Notes
:PROPERTIES:
:BEAMER_ENV: note
:END:
This cabinet had many columns that could rotate about their (vertical) axis. The column's front was used to write what we would now call keywords relating to the content of the notes that were hooked on the column's back side.
Notice the advantage of these paper slips over Galileo's codex: with the former, notes can be reorganized.
** Beware of overabundance: Fulgence Tapir's disappearance
***
:PROPERTIES:
:BEAMER_COL: 0.48
:BEAMER_ENV: block
:END:
#+BEGIN_SRC shell :exports none :results hide
cd imgs && wget https://upload.wikimedia.org/wikipedia/commons/c/c1/Anatole_France_young_years.jpg
#+END_SRC
#+RESULTS:
#+ATTR_LATEX: :width 0.9\textwidth
[[../assets/img/Anatole_France_young_years.jpg]]
***
:PROPERTIES:
:BEAMER_COL: 0.48
:BEAMER_ENV: block
:END:
In 1908, [[https://en.wikipedia.org/wiki/Anatole_France][Anatole France]] (1844-1924) published "[[https://archive.org/stream/in.ernet.dli.2015.220207/2015.220207.Penguin-Island_djvu.txt][Penguin Island]]" a parody of French history.
By Photographer : Wilhelm Benque. Tucker Collection - New York Public Library Archives, Public Domain, https://commons.wikimedia.org/w/index.php?curid=16240632.
*** Notes
:PROPERTIES:
:BEAMER_ENV: note
:END:
\scriptsize The text can be found /legally/ at several places, the
[[https://en.wikipedia.org/wiki/Project_Gutenberg][Project Gutenberg]] one is missing the "Preface", so don't use it, go to
one of the versions available on [[https://archive.org/search.php?query=title%3Apenguin%20island%20AND%20-contributor%3Agutenberg%20AND%20mediatype%3Atexts][Internet Archive]]:
https://tinyurl.com/MOOC-RR-penguin-island. The importance of the
preface in illustrated by the following two quotations:
#+BEGIN_QUOTE
\tiny One word more if you want your book to be well
received, lose no opportunity for exalting the virtues on
which society is based — attachment to wealth, pious sentiments, and especially resignation on the part of the poor,
which latter is the very foundation of order. Proclaim, sir,
that the origins of property — nobility and police — are treated in your history with the respect which these institutions
deserve. Make it known that you admit the supernatural
when it presents itself. On these conditions you will succeed
in good society.
#+END_QUOTE
\vspace{-1em}And more importantly for our subject:\vspace{-1em}
#+BEGIN_QUOTE
\tiny The idea occurred to me, in the month of June last year, to
go and consult on the origins and progress of Penguin art,
the lamented M. Fulgence Tapir, the learned author of the
‘Universal Annals of Painting, Sculpture and Architecture’
Having been shown into his study, I found seated before a
roll-top desk, beneath a frightful mass of papers, an amazingly short-sighted little man whose eyelids blinked behind
his gold-mounted spectacles.
To make up for the defect of his eyes his long and mobile
nose, endowed with an exquisite sense of touch, explored the
sensible world. By means of this organ Fulgence Tapir put
himself in contact with art and beauty. It is observed that in
France, as a general rule, musical critics are deaf and art
critics are blind. This allows them the collectedness necessary for æsthetic ideas. Do you imagine that with eyes capable
of perceiving the forms and colours with which mysterious
nature envelops herself, Fulgence Tapir would have raised
himself, on a mountain of printed and manuscript documents, to the summit of doctrinal spiritualism, or that he
would have conceived that mighty theory which makes the
arts of all tunes and countries converge towards the Institute
of France, their supreme end?
The walls of the study, the floor, and even the ceiling were
loaded with overflowing bundles, pasteboard boxes swollen
beyond measure, boxes in which were compressed an in-
numerable multitude of small cards covered with writing. I
beheld in admiration minted with terror the cataracts of
erudition that threatened to burst forth.
‘Master,’ said I in feeling tones, ‘I throw myself upon
your kindness and your knowledge, both of which are
inexhaustible. Would you consent to guide me in my
arduous researches into the origins of Penguin art?’
‘Sir,’ answered the Master, ‘I possess all art, you under-
stand me, all art, on cards classed alphabetically and in
order of subjects. I consider it my duty to place at your disposal all that relates to the Penguins. Get on that ladder and
take out that box you see above. You will find in it everything you require.’
I tremblingly obeyed. But scarcely had I opened the fatal
box than some blue cards escaped from it, and slipping
through my fingers, began to rain down. Almost immediately, acting in sympathy, the neighbouring boxes opened, and
there flowed streams of pink, green, and white cards, and by
degrees, from all the boxes, differently coloured cards were
poured out murmuring like a waterfall on a mountain side
in April. In a minute they covered the floor with a thick
layer of paper. Issuing from their inexhaustible reservoirs
with a roar that continually grew in force, each second increased the vehemence of their torrential fall. Swamped up
to the knees in cards, Fulgence Tapir observed the cataclysm
with attentive nose. He recognised its cause and grew pale
with fright
‘What a mass of art !’ he exclaimed.
I called to him and leaned forward to help him mount the
ladder which bent under the shower. It was too late. Overwhelmed, desperate, pitiable, his velvet smoking-cap and his
gold-mounted spectacles having fallen from him, he vainly
opposed his short arms to the flood which had now mounted
to his arm-pits. Suddenly a terrible spurt of cards arose and
enveloped him in a gigantic whirlpool. During the space of a
second I could see in the gulf the shining skull and little fat
hands of the scholar, then it closed up and the deluge kept
on pouring over what was silence and immobility. In dread
lest I in my turn should be swallowed up ladder and all I
made my escape through the topmost pane of the window.
#+END_QUOTE
** A sailor's logbook
[[../assets/img/LivredebordpenduickV.JPG]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
The logbook of Eric Tabarly during the San-Francisco / Tokyo transpacific ocean race in 1969.
*** Notes
:PROPERTIES:
:BEAMER_ENV: note
:END:
This example is only superficially anecdotal. Information about the source can be found at: [[https://commons.wikimedia.org/wiki/File:LivredebordpenduickV.JPG]].
**
#+ATTR_LATEX: :width 0.9\textwidth
[[../assets/img/LivredebordpenduickVzoom1.png]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
On the left side, Tabarly reports salient events like a ripped jib on March 21 at 11 pm.
**
#+ATTR_LATEX: :width 0.8\textwidth
[[../assets/img/LivredebordpenduickVzoom2.png]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
On the right side, he computes his position (that was before GPS time!).
*** Notes
:PROPERTIES:
:BEAMER_ENV: note
:END:
This example is only superficially anecdotal. Ten years ago, a European project was aiming at estimating the Atlantic and Indian Oceans climates during the 18th century using logbooks from ships of the West- and East-India companies from the Kingdoms of Portugal, Spain, Holland, Britain and France. See the [[http://webs.ucm.es/info/cliwoc/][Climatological Database for the World's Oceans 1750-1850]].
In the same vein, logbooks from slave ships give a lot of quantitative information about the slave trade between Africa and the "New World".
** So, what should we use to take notes?
- The object of study (like the annotated book)?
- One or several notebooks?
- Paper slips or cards?
- Computer files?
- Drawings, Pictures?
- Films?
- ...?
** Avoid getting lost
Notes generate an organizational problem:
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
- How can we structure our notes?
- Can we index them, if yes, how?
- How can we archive them while keeping the capability to make them evolve?
*** Notes
:PROPERTIES:
:BEAMER_ENV: note
:END:
Notes are necessarily heterogeneous---because of their subject matter as well as, often, their material support---and that creates a *serious* organizational problem.
*Without organization, notes usability barely exceeds our capability of memorizing facts and events*.
In the sequel we are going to give /tentative/ answers to the questions raised in the last two slides.
* M1-S2: Note-taking: a quick history
** Since note-taking concerns everyone...
- Since we are all "note-takers", our predecessors were also note-takers.
- This elementary observation will lead us to "study" how our brilliant ancestors took notes.
- Hopefully, we can learn some useful techniques on the way and put them to daily use.
- Hopefully, we can avoid thinking that we are the first to face the kind of problem we are now facing: "information overload".
** What are we going to talk about?
- The practical aspect of note-taking---what historians dub "materiality"---.
- The organization of books and notes.
- The link between the concrete and organizational aspects.
#+BEGIN_EXPORT latex
\vspace{0.2cm}
#+END_EXPORT
We are going to discuss the organization of books a lot since the "navigation devices" designed for the latter:
- table of content,
- index,
- etc,
also apply to notes.
*** Clarification
:PROPERTIES:
:BEAMER_ENV: note
:END:
We will mostly refer to the "Western" part of this History, with a single slide on Chinese contributions and nothing on Muslim, Indian or pre-Colombian contributions. This bias must be clearly understood as a *reflection of my ignorance* (I'm actively learning on the subject) and because it's easier, as always, to find illustrative material for "Western" contributions...
** The concrete aspects summarized on a single slide
#+ATTR_LATEX: :width 1.0\textwidth
[[../assets/img/Figure_W1_S2_1.jpg]]
*** Details
:PROPERTIES:
:BEAMER_ENV: note
:END:
\scriptsize All illustrations are taken from Wikimedia Commons
- Top left: A clay tablet (pre-cuneiform period, -3000).
- Top center: A fresco from Pompeii with the portrait of [[https://en.wikipedia.org/wiki/Portrait_of_Paquius_Proculo][Terentius Neo and his wife]]. She carries a [[https://en.wikipedia.org/wiki/Wax_tablet][wax tablet]] and a /stylus/ (the main medium of note-takers up to the 19th century); he carries a /volumen/ or [[https://en.wikipedia.org/wiki/History_of_scrolls][scroll]], the stuff of books until the beginning of the Common Era.
- Top right: a notebook made of paper from the 17th century with [[https://en.wikipedia.org/wiki/Commonplace_book][commonplaces]]. "Commonplace" is a translation of the Latin term locus communis (from Greek tópos koinós, see literary topos) which means "a theme or argument of general application", such as a statement of proverbial wisdom (Wikipedia).
- Bottom left: An [[https://en.wikipedia.org/wiki/Index_card][index card]], a notes medium whose use exploded with bureaucratization and the development of libraries. Still heavily used in the humanities. Apparently first used (if not created) by the father of taxonomy, [[https://en.wikipedia.org/wiki/Carl_Linnaeus][Carl Linneaus]]. You can find his cards at: [[http://linnean-online.org/61332/#/0]].
- Bottom center: A [[https://en.wikipedia.org/wiki/Post-it_note][Post-it note]] as most of us use every day.
\scriptsize From the [[https://en.wikipedia.org/wiki/Wax_tablet][Wikipedia page]]:
A wax tablet is a tablet made of wood and covered with a layer of wax, often linked loosely to a cover tablet, as a "double-leaved" diptych. It was used as a reusable and portable writing surface in Antiquity and throughout the Middle Ages.
Writing on the wax surface was performed with a pointed instrument, a stylus. Writing by engraving in wax required the application of much more pressure and traction than would be necessary with ink on parchment or papyrus,[1] and the scribe had to lift the stylus in order to change the direction of the stroke. Therefore, the stylus could not be applied with the same degree of dexterity as a pen. A straight-edged, spatula-like implement (often placed on the opposite end of the stylus tip) would be used in a razor-like fashion to serve as an eraser. The entire tablet could be erased for reuse by warming it to about 50 °C and smoothing the softened wax surface. The modern expression of "a clean slate" equates to the Latin expression "tabula rasa".
** From the /scroll/ to the /codex/
#+ATTR_LATEX: :width 1.0\textwidth
[[../assets/img/Figure_W1_S2_3.jpg]]
*** Details
:PROPERTIES:
:BEAMER_ENV: note
:END:
\scriptsize
The shift from the /scroll/ to the /codex/ is fundamental for development of written civilization.
A scroll (from the Old French escroe or escroue), is a roll of papyrus, [[https://en.wikipedia.org/wiki/Parchment][parchment]], or paper containing writing.
From [[https://en.wikipedia.org/wiki/History_of_scrolls#Replacement_by_the_Codex][Wikipedia]]:
The codex was a new format for reading the written word, consisting of individual pages loosely attached to each other at one side and bound with boards or cloth. It came to replace the scroll thanks to several problems that limited the scroll's function and readability. For one, scrolls were very long, sometimes as long as ten meters. This made them hard to hold open and read, a difficulty not helped by the fact that most scrolls in that era were read horizontally, instead of vertically as scrolling virtual documents are read now. The text on a scroll was continuous, without page breaks, which made indexing and bookmarking impossible. Conversely, the codex was easier to hold open, separate pages made it possible to index sections and mark a page, and the protective covers kept the fragile pages intact better than scrolls generally stayed. This last made it particularly attractive for important religious texts.
The bottom left mosaic shows Virgil seating (70-19 BCE) holding a scroll of the /Aeneid/, with Clio, muse of history, also holding a scroll.
As explained by Frédéric Barbier (/Histoire du Livre/): "The scroll / volumen imposes a complex reading practice: one must unroll (/explicare/) and roll at the same time; that forbids working on several scrolls (the original text and its commentary) at the same time or to take notes. It imposes a continuous reading and making consultation impossible."
Scrolls are clearly unsuited to "nomadic reading"; can you imagine Ulysses embarking for his Odyssey carrying the 24 scrolls/volumen of the Iliad?
The term /volumen/ is the origin of our modern /volumes/ (a book in several volumes) as of the word for the geometrical concept.
Switching from scroll to codices required two innovations:
- The collection of wax tablets bound together with leather strands.
- The generalization of [[https://en.wikipedia.org/wiki/Parchment][parchment]] (usually sheep skin specially processed) as a replacement for [[https://en.wikipedia.org/wiki/Papyrus][papyrus]]. This generalization could be due (according to Pliny the Elder) to a rivalry between the cities of Pergamon and Alexandria for cultural hegemony: [[https://en.wikipedia.org/wiki/Ptolemy_V_Epiphanes][Ptolemy V Epiphanes]] King of Egypt wanted to block [[https://en.wikipedia.org/wiki/Eumenes_II][Eumenes II]] from developing in Pergamon a library that could compete with the one of Alexandria; he therefore imposed an embargo on papyrus export (Egypt was the sole papyrus producer). Eumenes looked for an alternative and fostered parchment development. The link between Pergamon and parchment is much clearer in German where Pergamon is written in the way as in English but where parchment is written /Pergament/.
Switching from scrolls to codices will have major consequences on books organization as well as on the reading practices, it will later on allow printing development.
The main revolution brought by the codex is the /page/. Thanks to this structural element, the reader can access directly to a specific chapter or a specific part of the text, while scrolls imposed continuous reading *at a time when there were no blanks between words*. According to Collette Sirat: "Twenty centuries will be necessary to realize the paramount importance of the codex for our civilization through the *selective reading* it made possible as opposed to the continuous reading. It opened room for the elaboration of mental structures where the text is dissociated from the speech and its rythm."
Notice the red letters used on the codex (bottom right), an example of [[https://en.wikipedia.org/wiki/Rubrication][rubrication]] used by scribes to mark paragraphs. With printing and the high cost of colors it entailed, an empty space started to be used to that end. Thinking about it, colors don't cost anything on a numerical support and could perfectly be used again in the same way.
** Eusebius and the invention of cross-references
#+ATTR_LATEX: :width 1.0\textwidth
[[../assets/img/Eusebius_final.jpg]]
*** Details
:PROPERTIES:
:BEAMER_ENV: note
:END:
\scriptsize Illustrations from Wikimedia Commons.
From the Wikipedia page on [[https://en.wikipedia.org/wiki/Eusebius][Eusebius]]:
#+BEGIN_QUOTE
Eusebius of Caesarea (ad 260/265 – 339/340), also known as Eusebius Pamphili, was a historian of Christianity, exegete, and Christian polemicist. He became the bishop of Caesarea Maritima about 314 AD. Together with Pamphilus, he was a scholar of the Biblical canon and is regarded as an extremely learned Christian of his time. He wrote Demonstrations of the Gospel, Preparations for the Gospel, and On Discrepancies between the Gospels, studies of the Biblical text.
#+END_QUOTE
According to Anthony Grafton and Megan Williams (2006) /Christianity and the Transformation of the Book/, The Belknap Press of Harvard University Press, his writings are crucial for our knowledge of the first three centuries of Christian history. /He brought several essential innovations to the book's organization like the cross-references/.
Fol. 10v and 11r of the Egmond Gospels. Canon tables (900 CE).
*** Details
:PROPERTIES:
:BEAMER_ENV: note
:END:
\scriptsize Source: https://commons.wikimedia.org/wiki/File:Fol._10v-11r_Egmond_Gospels.jpg. Public Domain.
Quote from [[https://en.wikipedia.org/wiki/Eusebius#Biblical_text_criticism][Wikipedia]]:
#+BEGIN_QUOTE
For an easier survey of the material of the four Evangelists, Eusebius divided his edition of the New Testament into paragraphs and provided it with a synoptical table so that it might be easier to find the pericopes that belong together. These canon tables or "Eusebian canons" remained in use throughout the Middle Ages, and illuminated manuscript versions are important for the study of early medieval art, as they are the most elaborately decorated pages of many Gospel books.
Following Frédéric Barbier (/HISTOIRE DU LIVRE/, Armand Colin, 2009):
- The invention of the /codex/ is crucial for the development of written civilization.
- The /codex/ lends itself to *consultation reading*.
- We can add to the /codex/ a "navigation system" making consultation easier.
- We can take notes while consulting a /codex/.
- The combination of the /codex/ with the /Carolingian minuscule/ constitutes an extremely powerful intellectual tools, never seen before.
*** Details
:PROPERTIES:
:BEAMER_ENV: note
:END:
\scriptsize
Example of /Carolingian minuscule/ can be found on the corresponding [[https://en.wikipedia.org/wiki/Carolingian_minuscule][Wikipedia page]].
Over centuries, /codices/---that we often call /manuscripts/---will slowly evolve and gain modern days book attributes:
- separation between words (VIIth century),
- start of punctuation (VIIIth century),
- table of content,
- running title,
- paragraph marks (rubrication, XIth century),
- pagination,
- index (XIIIth century).
An interesting point: Torah's content got "fixed" before the /codex/ generalization and today Torah scrolls are still used.
** Let us not forget China
#+ATTR_LATEX: :width 1.0\textwidth
[[../assets/img/Figure_W1_S2_6.jpg]]
*** Details
:PROPERTIES:
:BEAMER_ENV: note
:END:
\scriptsize
The link between the /codex/ generalization, on the one hand, and the apparition of "navigation guides" like the table of content, the index, the running title, on the other hand as a counterpart in the Chinese civilization.
In China, competitive examinations to become a high ranking state employee developed in the IXth century (CE). The main part of these exam was a paper on what we would now call general knowledge of the Classics where the students were asked to demonstrate their knowledge through appropriate quotations.
To fulfill the need of "textbook" appropriate for this kind of examination what is called [[https://en.wikipedia.org/wiki/Leishu][leishus]] were produced. They are described as follows on Wikipedia:
#+BEGIN_QUOTE
The leishu are composed of sometimes lengthy citations from other works and often contain copies of entire works, not just excerpts. The works are classified by a systematic set of categories, which are further divided into subcategories. Leishu may be considered anthologies, but are encyclopedic in the sense that they may comprise the entire realm of knowledge at the time of compilation.
#+END_QUOTE
The efficient use of the leishu requires an indexing system, a table of content, etc. Very interestingly, the scroll will be abandoned and the codex will generalize in China around that time, as observed by Ann Blair in her book /TOO MUCH TO KNOW/, Yale Univ. Press, 2010 (pp. 28-31).
Most of the leishus *were printed* (from the IXth century on!). The picture on the right side (a banknote printing plate) is there to remind us of who was (by far) the most advanced at that time. The Chinese were of course printing their leishus on paper that they discovered in the VIIIth century BCE.
Placcius' closet again (Placcius, Vincent, 1642-1699. /De arte excerpendi vom gelahrten Buchhalten/, 1689. Houghton Library, Harvard University.)
*** Details
:PROPERTIES:
:BEAMER_ENV: note
:END:
\scriptsize
Now that we briefly reviewed the timeline of the main navigation elements of the books---navigation elements that can of course be applied to our lab/note-books---we come back to the paper slips and cards as notes media.
We see (again) Placcius' and Leibniz's closet since it displays both the benefits and the shortcomings of media that hold *a single note*.
Obvious shortcomings are:
- Paper slips and cards get easily lost.
- They are essentially useless if they are not *classified* in addition to being filed.
These problems are solved by Placcius' cabinet, the content of which is fundamentally accessed through the index.
Clear benefits are:
- Paper slips can be easily reorganized when they contain information on several subjects.
- Paper slips can be directly pasted in a book when composing an anthology or a compendium.
This last technique (pasting when making an anthology) was systematically used by the Renaissance polymath [[https://en.wikipedia.org/wiki/Conrad_Gessner][Conrad Gessner]] (1516-1565) who even got his paper slips by cutting parts of pages from books (don't do that with library books)!
** Constructing a notebook index the John Locke way
#+ATTR_LATEX: :width 1.0\textwidth
[[../assets/img/MethodeLocke1.jpg]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
My own notebook is used here for illustration.
*** Details
:PROPERTIES:
:BEAMER_ENV: note
:END:
\scriptsize
We will now learn about an index construction technique due to [[https://en.wikipedia.org/wiki/John_Locke][John Locke]] (1632-1704), the grand-father of liberalism and a major investor in the /Royal African Company/, the largest company in the [[https://en.wikipedia.org/wiki/John_Locke#Constitution_of_Carolina][slave-trade]] business at that time...
The indexing method is here illustrated using my own notebook. The two pages that are displayed describe the structure of a dataset in the [[https://www.hdfgroup.org/][HDF5]] format on the left side and the corresponding structure (designed to map the former one) of a =data frame= object of the [[https://www.r-project.org/][R]] language. This dataset contain *calcium* concentration measurements made in *neurons*. This notes were taken while writing some computer *code* to analyze the data.
The precise content of the pages does not matter here in order to understand how Locke's method works. The important points are:
- The pages are numbered (we are seeing here pages 86 and 87).
- Keywords are written at the bottom of the page: *code*; *neuro*; *calcium*.
This method can be applied after note-taking, you just need to have few pages left at the end of your notebook. That's in fact what I did since I had started filling my notebook before learning about the method (I learned about while preparing the French version of this lecture last September).
** Locke's method continued
#+ATTR_LATEX: :width 0.8\textwidth
[[../assets/img/MethodeLocke2.jpg]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
The last pages of my notebook with the index.
*** Details
:PROPERTIES:
:BEAMER_ENV: note
:END:
\scriptsize
We know the index. It is located at the end of the notebook although Locke recommends placing it at the beginning. Since I did not know about the method when I started the notebook, I had to place it at the end...
The idea is to enter the keywords used in the notebook based on their *first letter* and the *first vowel following the first letter*.
The index is therefore made of the 26 letters (you see letters "A" to "R" here, the remaining ones are on the next page) subdivided the five most common vowels ("y" goes together with "i" in that case).
Pages 86 and 87 contained the keyword *code* that goes into the entry "Co" of the index (you see "86-89" because the following pages also concern code for the same project). The keyword *Neuro* giving an entry on line "Ne", while the keyword *Calcium* gives an entry on line "Ca".
The keyword *Criquet* (not shown above) gives an entry on line "Ci".
It is also a good idea to list the set of keywords used in the notebook on the page preceding or following the index.
** Conclusions of the historical overview
Since it is hard (for me at least) to use paper as a medium for note-taking, learning from "Newton's giants" should save us from reinventing the wheel (and getting it square).
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
We should nevertheless use digital media as much as possible (while keeping in mind what we just learned) since they provide:
- more organizational and structural flexibility,
- reliable archiving tools,
- powerful indexing tools.
* M1-S3: From text files to lightweight markup languages
** Section introduction
:PROPERTIES:
:BEAMER_ENV: note
:END:
We now start the "technical" part of this lecture with the tools that computers provide for note-taking like [[https://en.wikipedia.org/wiki/Text_file][text files]] and [[https://en.wikipedia.org/wiki/Lightweight_markup_language][lightweight markup languages]].
** What is a /text file/ or /text format/?
- From a practical point of view, a [[https://en.wikipedia.org/wiki/Text_file][text files]] /gives something readable/ when opened with a [[https://en.wikipedia.org/wiki/Text_editor][text editor]].
- A [[https://en.wikipedia.org/wiki/Text_editor][text editor]] enables us to create and modify text files (nice circular definition!). It's a software like:
+ [[https://notepad-plus-plus.org/][Notepad++]] for =Windows=,
+ [[https://wiki.gnome.org/Apps/Gedit][gedit]] for =Unix/Linux= systems (but it also runs on the other two),
+ [[https://en.wikipedia.org/wiki/TextEdit][TextEdit]] for =MacOS=.
#+BEGIN_EXPORT latex
\vspace{0.2cm}
#+END_EXPORT
- I'm mentioning only open source software since it is hard to do genuinely reproducible research with anything else.
- A [[https://en.wikipedia.org/wiki/Word_processor][word precessor]] is more sophisticated than a /text editor/.
- *Warning* the native format used by word processors is rarely a /text format/. =Word='s =doc= and =docx= files and =Libreoffice= =odt= files /are not text files/.
** Example of a file that cannot be read with a text editor
#+ATTR_LATEX: :width 0.9\textwidth
[[../assets/img/pdf_opened_with_gedit.png]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
A =pdf= file (the file shown right now with a pdf reader) opened with =gedit=.
A =markdown= file (a source file for this lecture) opened with =gedit=.
** Why should we use text files?
Characters contained in text files are now typically encoded in [[https://en.wikipedia.org/wiki/UTF-8][UTF-8]].
#+BEGIN_EXPORT latex
\vspace{0.2cm}
#+END_EXPORT
*This implies that*:
#+BEGIN_EXPORT latex
\vspace{0.2cm}
#+END_EXPORT
- It is "always" possible to read these files with a text editor /even years after their creation/.
- [[https://en.wikipedia.org/wiki/Desktop_search][Desktop search]] and [[https://en.wikipedia.org/wiki/Version_control][version control]] software work /very efficiently/ with them.
#+BEGIN_EXPORT latex
\vspace{0.2cm}
#+END_EXPORT
*Unless you run into serious memory problems, use text files, always.*
** Problems with simple text files
- The "simple" text file precludes the use of nice navigation tools like [[https://en.wikipedia.org/wiki/Hyperlink][hyperlinks]].
- It is not possible to emphasize a word with a *bold* or an /italic/ font.
- If several persons work on the same text, they can't correct each other by \sout{striking through} text.
#+BEGIN_EXPORT latex
\vspace{0.2cm}
#+END_EXPORT
These limitations, combined with the benefits of text files, led computer scientists to develop [[https://en.wikipedia.org/wiki/Markup_language][markup languages]].
Wikipedia [[https://en.wikipedia.org/wiki/HTML][HTML]] page viewed with [[http://www.qutebrowser.org/][qutebrowser]] [[https://en.wikipedia.org/wiki/Web_browser][web browser]].
** An HTML file opened with a text editor
#+ATTR_LATEX: :width 0.9\textwidth
[[../assets/img/HTML_opened_with_gedit.png]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
The Wikipedia HTML page opened with =gedit=. Markup languages were not designed to be read by humans.
*** Note
:PROPERTIES:
:BEAMER_ENV: note
:END:
The content of files written with a markup language are typically processed by a dedicated software like a web browser or converted into a format for which readers are available like \LaTeX{} files that get "compiled" into PDF files.
If you look carfuly the last figure, you can find the text of the first main paragraph of the previous figure.
**
We can summarize our problem as follows:
#+BEGIN_EXPORT latex
\vspace{0.2cm}
#+END_EXPORT
- Text files are attractive for note-taking.
- Markup languages provide a much better "reading experience" when viewed with the proper "browser".
- Markup language files are text files, *but* usually require dedicated editing software if we want to modify them.
#+BEGIN_EXPORT latex
\vspace{0.2cm}
#+END_EXPORT
Is it possible to combine the benefits of "simple" text files with the reading comfort of markup languages?
** Lightweight markup languages: the idea
A [[https://en.wikipedia.org/wiki/Lightweight_markup_language][lightweight markup language]] is:
#+BEGIN_EXPORT latex
\vspace{0.2cm}
#+END_EXPORT
- A /markup language/ with a *simple syntax*.
- A language designed to be *easily edited* with a /text editor/.
- A language *easily read* without a browser.
** =Markdown= as an example
#+ATTR_LATEX: :width 1.0\textwidth
[[../assets/img/Markdown_syntax.png]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
The syntax basics from [[https://en.wikipedia.org/wiki/Markdown][Wikipedia]], see also "Mastering Markdown" (a 3 min read) from [[https://guides.github.com/features/mastering-markdown/][GitHub]].
** =Markdown= is not the only lightweight markup language
Among the "most popular":
#+BEGIN_EXPORT latex
\vspace{0.2cm}
#+END_EXPORT
- [[https://en.wikipedia.org/wiki/MediaWiki#Markup][MediaWiki]] used by Wikipedia (but files are not stored in text format!).
- [[https://www.dokuwiki.org/dokuwiki#][DokuWiki]] like =MediaWiki= but stored in text format.
- [[http://docutils.sourceforge.net/rst.html][reStructuredText]] used for the [[https://www.python.org/][python]] documentation.
- [[https://orgmode.org/][Org mode]], my favorite, but it requires learning [[https://www.gnu.org/software/emacs/][emacs]] (a good thing to do, if you have time for it).
#+BEGIN_EXPORT latex
\vspace{0.2cm}
#+END_EXPORT
The good news is that you don't need to be too nervous about choosing the "right" language, thanks to [[https://pandoc.org/][pandoc]] you can convert one into any other!
** Summary of this section
Thanks to lightweight markup languages we will be able to:
#+BEGIN_EXPORT latex
\vspace{0.2cm}
#+END_EXPORT
- Work mostly with text files.
- Write our notes quickly with any editor.
- Organize our notes.
* M1-S4: Notes (and codes) that are archived but can evolve with version control systems
** Introduction of this section
- The tools we are going to discuss should appeal to a much wider audience than the reproducible research community.
- Anyone working with text is concerned, even more so when this work is done in collaboration.
- *The longevity issue of notes and texts is in no way new*.
- The humanists and scholars of the early modern period who specialized in text compilations were literally obsessed by this problem and used it to justify their work.
- Their solution was to use multiple copies, as we now do with a different medium.
- We should nevertheless remain humble, the paper (and parchment) medium used by humanists has demonstrated its capability to last.
- When it comes to making notes evolve, I think we can say that some real progress was recently made.
An early version of this lecture (in French) edited with =LibreOffice=.
*** Details
:PROPERTIES:
:BEAMER_ENV: note
:END:
We see a way of working in collaboration on a text: most word processing software have a way to follow changes brought to the text.
This is not the solution I recommend but this is probably the most widely known concurrent version facility.
Notice the buttons at the bottom left. They appear when you navigate in /view/ -> /Toolbars/ -> /track changes/.
This "solution":
- is easy to implement,
- /does not generate text files/
- does not take care of archiving the files.
** Making change with a "wiki engine"
#+ATTR_LATEX: :width 1.0\textwidth
[[../assets/img/Dokuwiki_notes_pour_CLOM.png]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
The personal wiki (using the [[https://www.dokuwiki.org/dokuwiki#][dokuwiki]] engine) I experienced while preparing the French version of this lecture.
*** Details
:PROPERTIES:
:BEAMER_ENV: note
:END:
I started using [[https://www.dokuwiki.org/dokuwiki#][dokuwiki]] for this lecture, it is therefore simple enough to learn.
I see the differences between the two versions. You obtain the same thing on Wikipedia by clicking on /View History/.
** Pros and cons
- A solution with a strong record for collaborative projects (Wikipedia).
- A text format is used when working with =Dokuwiki=.
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
- A single page can be modified at a time.
** Version Control Systems
I now come to the most "sophisticated" solution:
- A dedicated software, [[https://git-scm.com/][git]], is used to manage the successive versions of a *set* of files in *different formats* (text, images, etc.). In fact, file arborizations can be managed.
- =git=-like software requires a repository, that can be built on the user's computer, but is usually on a dedicated server like [[https://github.com/][GitHub]] or [[https://gitlab.com/][GitLab]].
- The repository allows several people to work on the same project and to exchange their modifications. Each project member has a *full copy* of the repository (dating back to his/her last /synchronization/).
**
#+ATTR_LATEX: :width 1.0\textwidth
[[../assets/img/GitLab_Commits.png]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
The [[https://gitlab.com/][GitLab]] interface containing the files of this presentation.
**
#+ATTR_LATEX: :width 1.0\textwidth
[[../assets/img/GitLab_Diff.png]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
Modifications are easily visualized...
**
#+ATTR_LATEX: :width 1.0\textwidth
[[../assets/img/GitLab_Formating.png]]
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
Text files entered with a lightweight markup language get automatically formatted (an example with =org=).
** Pros and cons
- A "sophisticated" approach that takes a bit more time to learn and master than the other two.
#+BEGIN_EXPORT latex
\vspace{0.25cm}
#+END_EXPORT
- A strong record for collaborative projects (Linux kernel,...).
- Can manage modifications on several files at once.
- A centralized version *copied* by each member of the project.
* M1-S5: Finding one's way with tags and desktop search application
** Leibniz again
"It seems to me that the apparatus of contemporary scholarship is comparable to a very large store which, though it keeps a great variety of goods, yet is totally confused and in disorder, because all items are mixed up, because no numbers or letters of an index are displayed, and because inventories or account ledgers which could throw some light on the matter are missing."
"The larger the mass of collected things, the less will be their usefulness. Therefore, one should not only strive to assemble new goods from everywhere, but one must endeavor to put in the right order those that one already possesses."
** Finding one's way in a text file
#+ATTR_LATEX: :width 1.0\textwidth
[[../assets/img/recherche-avec-editeur.png]]
** Finding one's way in a notebook
#+ATTR_LATEX: :width 1.0\textwidth
[[../assets/img/IndexCahierLocke.jpg]]
** Finding one's way in a cards collection
#+ATTR_LATEX: :width 1.0\textwidth
[[../assets/img/Placcius_cabinet_TabIV.png]]
** Problems, limitations, solutions?
- A single document at a time
- Numerical files indexation
- Tagging numerical files in general (not only text format files)
- Using a desktop search application for indexation and general search
** Finding an arbitrary word with a desktop search application (=DocFetcher=)
# - file:assets/img/in_science_we_trust.jpg :: crop from [[http://drrichswier.com/2014/04/23/atheism-evolution-and-secular-humanism-masquerading-as-science-against-the-bible-and-creation/][the blog of a
# conservative]].
# - file:assets/img/les_decodeurs.png :: Montage à partir du site
# http://www.lemonde.fr/les-decodeurs/ le 30 juillet.
Origin of every image used in this series of slides:
- [[file:../assets/img/RStudio-Logo-Blue-Gradient.png and file:../assets/img//knitr.png][RStudio-Logo-Blue-Gradient.png and file:../assets/img//knitr.png]]: https://www.rstudio.com/about/logos/
# and *unconventional* weighting of summary *statistics*./
#+BEGIN_QUOTE
En utilisant leurs feuilles Excel,
nous avons identifié des *erreurs de programmation*, des *exclusions*
de certaines données, et des pondérations *statistiques non
conventionnelles*.
\flushright -- Herndon, Ash et Pollin
#+END_QUOTE
# #+BEGIN_EXPORT html
# <br/>
# #+END_EXPORT
# - Wray: /combining data across centuries, exchange rate regimes,
# public and private/ /debt, and debt denominated in foreign currency
# as well as domestic currency/
#+BEGIN_QUOTE
R&R combinent des données de siècles
différents, des régimes de changes différents, des dettes privées et
publiques, et des dettes exprimées en monnaies étrangères et
nationales.
\flushright -- Wray
#+END_QUOTE
# Note:
# Ces seuils de 90% ainsi que l'ampleur des conséquences sont très
# discutés, d'autant plus que certains chercheurs échouent à obtenir des
# résultats similaires en utilisant les données disponibles
# publiquement. Ils demandent donc à Reinhart et Rogoff l'ensemble des
# données et des feuilles de calculs utilisées dans l'étude et ces
# derniers finissent par leur fournir.
# Dans ces feuilles, des erreurs de calcul évidentes apparaissent
# rapidement ainsi que des traitement de données assez douteux
# (exclusion de données, pondérations suspectes, etc.).
# Reinhart et Rogoff répondent point par point en expliquant que ces
# quelques erreurs ne changent rien au résultat final, que leur façon de
# calculer les statistiques sont tout à fait standard.
# En fait, une fois les détails révélés, pour beaucoup de chercheurs ces
# calculs n'ont pas beaucoup de sens, les valeurs utilisées sont très
# discutables, et il est malhonnête d'utiliser ces travaux pour
# justifier une politique d'austérité budgétaire.
# Mais le mal est fait. Pendant plus de trois ans, l'austérité n'est pas
# présentée comme un choix mais comme une nécessité. Et quand bien même
# l'article original est considéré comme non pertinent par les
# économistes, ces idées ont fait leur chemin et sont difficiles à
# détrôner.
# Au delà du caractère idéologique de ce genre de travaux, une des
# raisons pour lesquelles ce débat a mis autant de temps à avoir lieu
# est lié à la non publication de l'ensemble des procédures de calcul et
# des données utilisées, pratique courante en économie. Sous les feux
# de la rampe, les auteurs ont bien été forcés de mettre à disposition
# ce qui sous-tendait leur travaux mais sans pression médiatique
# particulière, en général, rien ne se passe...
** IRM fonctionnelle
# file:assets/img/Irmf.jpg&size=cover
- 2010 : [[https://www.researchgate.net/publication/255651552_Neural_correlates_of_interspecies_perspective_taking_in_the_post-mortem_Atlantic_Salmon_an_argument_for_multiple_comparisons_correction][Bennett et al. et le saumon mort]] $\smiley$
- 2016 : [[http://www.pnas.org/content/113/28/7900.abstract][Eklund, Nichols, and
bug in fmri software could invalidate 15 years of brain research]]
(/40 000 articles/)
- 2016 : Mais [[https://www.cogneurosociety.org/debunking-the-myth-that-fmri-studies-are-invalid/][c'est plus subtil que \c{c}a]]. [[http://blogs.warwick.ac.uk/nichols/entry/bibliometrics_of_cluster/][Nichols]]. /\approx 3 600
études concernées/
Des méthodes statistiques à améliorer mais pas de
remise en cause fondamentale.
file:../assets/img/Researcher-test.jpg
# Note:
# Continuons avec un autre exemple: l'imagerie cérébrale, qui permet
# d'observer l'activité du cerveau d'un individu lorsqu'il effectue une
# tâche cognitive et ainsi de mieux comprendre la structure et le
# fonctionnement du cerveau. L'IRM fonctionnelle est l'une de ces
# techniques et mesure de très faibles variations locales du taux
# d'oxygénation du sang dans le cerveau.
# En 2010, Craig Bennett et ses encadrants ont une idée saugrenue. Ils
# placent un saumon mort dans un appareil d'IRM et lui présentent des
# images. Étonnamment, ils observent des signes d'activité cérébrale, ce qui est
# pour le moins surprenant puisque le saumon est bel et bien mort. Aussi
# drôle que cela puisse paraître, Bennett et ses encadrants savent très
# bien ce qu'ils font. Les données brutes obtenues lors d'une IRM sont
# très bruitées et toute une série de calculs et de tests statistiques
# sont appliqués pour transformer ces données en images
# intelligibles. Mais il arrive que le bruit soit trop important, que la
# machine soit mal calibrée, que la procédure de calcul soit inadaptée
# et que des signaux apparaissent fortuitement.
# Leur article rédigé avec un ton très humoristique fait sensation car
# il met le doigt sur des faiblesses méthodologiques.
# L'an dernier, des collègues me sachant intéressé par ces problèmes de
# réplication me font suivre un article récent assez alarmant. Cet article présente un
# problème dans les procédures statistiques utilisées dans les logiciels
# d'analyse d'IRMf les plus courants, ce qui remet potentiellement en
# cause les résultats obtenus ces quinze dernières années. Étant donnée
# l'ampleur de l'erreur, les auteurs concluent que 40,000 articles
# pourraient être concernés. De plus, les données étant très
# volumineuses dans ce domaine, elles ne sont pas archivées et il ne
# sera pas possible de simplement les réanalyser. L'ensemble des
# expériences seraient à refaire...
# En fait, suite aux retours qui leurs sont faits, les auteurs revoient
# rapidement à la baisse leurs estimations assez alarmistes.
# Au final, le problème méthodologique et la capacité à vérifier les
# études suite à des erreurs de calcul reste entier même s'il ne remet
# pas pour autant en cause l'ensemble des résultats obtenus ces
# dernières années.
** Les fausses structures de protéines
#+LaTeX: \begin{columns}\begin{column}{6.3cm}
*Geoffrey Chang* : étude de la structure de protéines présentes dans
des bactéries résistant aux antibiotiques.
\small MsbA de Escherichia Coli (Science, 2001), Vibrio cholera
*2006* : Incohérences, alertes, puis 5 rétractations
#+BEGIN_QUOTE
a homemade data-analysis program had flipped
two columns of data, inverting the electron-density map from which his
team had derived the protein structure.
\flushright -- [[https://people.ligo-wa.caltech.edu/~michael.landry/calibration/S5/getsignright.pdf][une "erreur de programmation"]]
#+END_QUOTE
# Note:
# Un dernier exemple, cette fois-ci en cristallographie.
# Geoffray Chang est un chercheur à la trajectoire fulgurante,
# récompensé par de nombreux prix. Son équipe, basée au Scripps
# Institute à l'Université de Californie San Diego, a publié une série
# d'articles dans des revues prestigieuses et détaillant la structure de
# certaines protéines présentes dans les membranes de cellules. Ces
# protéines jouent un rôle essentiel dans la résistance de ces bactéries
# à certains médicaments et connaître leur structure est une étape
# importante dans la compréhension de leur fonctionnement.
# Hélas, peu de temps après, d'autres équipes de chercheurs qui étudient
# des protéines très similaires rapportent des structures anormalement
# différentes de celles publiées par Chang et son équipe. En lisant ces
# travaux Chang, horrifié, remonte vite à la source du problème.
# Un des codes d'analyse aurait inversé deux
# colonnes de données et ainsi inversé la répartition de la densité
# d'électrons à partir de laquelle la structure finale de la protéine
# est calculée. D'après Chang, ce code aurait été hérité d'un autre
# laboratoire et s'était également répandu depuis dans d'autres équipes.
# Même si toute l'acquisition des données avait été faite soigneusement,
# ce n'était pas le cas de l'analyse et ce petit grain de sable a
# conduit à la rétractation immédiate de 5 articles par Chang et son
# équipe. Ces publications ont eu un impact énorme sur la communauté, à
# tel point que plusieurs années après la rétractation, les résultats
# contradictoires avec ceux de Chang paraissaient suspects avaient du
# mal à être publiés.
** Crise de foi ?
#+LaTeX: \begin{columns}\begin{column}{6.3cm}
- [[http://www.nature.com/nrd/journal/v10/n9/full/nrd3439-c1.html?foxtrotcallback=true][Oncologie]] : "/plus de la moitié des études publiées, même dans des
journaux prestigieux, ne/ /peuvent être reproduites en laboratoire
industriel/"
- [[http://theconversation.com/we-found-only-one-third-of-published-psychology-research-is-reliable-now-what-46596][Psychologie]] : "réplication d'une centaine d'articles /seulement un
- *Les tableurs* : [[https://qz.com/768334/years-of-genomics-research-is-riddled-with-errors-thanks-to-a-bunch-of-botched-excel-spreadsheets/][erreurs de programmation]] et de manipulation de données
-
~Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein
# - file:assets/img/in_science_we_trust.jpg :: crop from [[http://drrichswier.com/2014/04/23/atheism-evolution-and-secular-humanism-masquerading-as-science-against-the-bible-and-creation/][the blog of a
# conservative]].
# - file:assets/img/les_decodeurs.png :: Montage à partir du site
# http://www.lemonde.fr/les-decodeurs/ le 30 juillet.
Origin of every image used in this series of slides:
- [[file:../assets/img/RStudio-Logo-Blue-Gradient.png and file:../assets/img//knitr.png][RStudio-Logo-Blue-Gradient.png and file:../assets/img//knitr.png]]: https://www.rstudio.com/about/logos/
Ces seuils de 90% ainsi que l'ampleur des conséquences sont très
discutés, d'autant plus que certains chercheurs échouent à obtenir des
résultats similaires en utilisant les données disponibles
publiquement. Ils demandent donc à Reinhart et Rogoff l'ensemble des
données et des feuilles de calculs utilisées dans l'étude et ces
derniers finissent par leur fournir.
Dans ces feuilles, des erreurs de calcul évidentes apparaissent
rapidement ainsi que des traitement de données assez douteux
(exclusion de données, pondérations suspectes, etc.).
Reinhart et Rogoff répondent point par point en expliquant que ces
quelques erreurs ne changent rien au résultat final, que leur façon de
calculer les statistiques sont tout à fait standard.
En fait, une fois les détails révélés, pour beaucoup de chercheurs ces
calculs n'ont pas beaucoup de sens, les valeurs utilisées sont très
discutables, et il est malhonnête d'utiliser ces travaux pour
justifier une politique d'austérité budgétaire.
Mais le mal est fait. Pendant plus de trois ans, l'austérité n'est pas
présentée comme un choix mais comme une nécessité. Et quand bien même
l'article original est considéré comme non pertinent par les
économistes, ces idées ont fait leur chemin et sont difficiles à
détrôner.
Au delà du caractère idéologique de ce genre de travaux, une des
raisons pour lesquelles ce débat a mis autant de temps à avoir lieu
est lié à la non publication de l'ensemble des procédures de calcul et
des données utilisées, pratique courante en économie. Sous les feux
de la rampe, les auteurs ont bien été forcés de mettre à disposition
ce qui sous-tendait leur travaux mais sans pression médiatique
particulière, en général, rien ne se passe...
** IRM fonctionnelle
# file:assets/img/Irmf.jpg&size=cover
- <!-- .element class="fragment" --> 2010 : [[https://www.researchgate.net/publication/255651552_Neural_correlates_of_interspecies_perspective_taking_in_the_post-mortem_Atlantic_Salmon_an_argument_for_multiple_comparisons_correction][Bennett et al. et le saumon mort]] \smiley
- <!-- .element class="fragment" --> 2016 : [[http://www.pnas.org/content/113/28/7900.abstract][Eklund, Nichols, and Knutsson]]. [[http://www.sciencealert.com/a-bug-in-fmri-software-could-invalidate-decades-of-brain-research-scientists-discover][A bug in fmri software could
invalidate 15 years of brain research]] (/40 000 articles/)
- <!-- .element class="fragment" --> 2016 : Mais [[https://www.cogneurosociety.org/debunking-the-myth-that-fmri-studies-are-invalid/][c'est plus subtil
que ça]]. [[http://blogs.warwick.ac.uk/nichols/entry/bibliometrics_of_cluster/][Nichols]]. /\approx 3 600 études concernées/
<p class="fragment"> Des méthodes statistiques à améliorer mais pas de
remise en cause fondamentale. </p>
#+BEGIN_EXPORT html

#+END_EXPORT
Note:
Continuons avec un autre exemple: l'imagerie cérébrale, qui permet
d'observer l'activité du cerveau d'un individu lorsqu'il effectue une
tâche cognitive et ainsi de mieux comprendre la structure et le
fonctionnement du cerveau. L'IRM fonctionnelle est l'une de ces
techniques et mesure de très faibles variations locales du taux
d'oxygénation du sang dans le cerveau.
En 2010, Craig Bennett et ses encadrants ont une idée saugrenue. Ils
placent un saumon mort dans un appareil d'IRM et lui présentent des
images. Étonnamment, ils observent des signes d'activité cérébrale, ce qui est
pour le moins surprenant puisque le saumon est bel et bien mort. Aussi
drôle que cela puisse paraître, Bennett et ses encadrants savent très
bien ce qu'ils font. Les données brutes obtenues lors d'une IRM sont
très bruitées et toute une série de calculs et de tests statistiques
sont appliqués pour transformer ces données en images
intelligibles. Mais il arrive que le bruit soit trop important, que la
machine soit mal calibrée, que la procédure de calcul soit inadaptée
et que des signaux apparaissent fortuitement.
Leur article rédigé avec un ton très humoristique fait sensation car
il met le doigt sur des faiblesses méthodologiques.
L'an dernier, des collègues me sachant intéressé par ces problèmes de
réplication me font suivre un article récent assez alarmant. Cet article présente un
problème dans les procédures statistiques utilisées dans les logiciels
d'analyse d'IRMf les plus courants, ce qui remet potentiellement en
cause les résultats obtenus ces quinze dernières années. Étant donnée
l'ampleur de l'erreur, les auteurs concluent que 40,000 articles
pourraient être concernés. De plus, les données étant très
volumineuses dans ce domaine, elles ne sont pas archivées et il ne
sera pas possible de simplement les réanalyser. L'ensemble des
expériences seraient à refaire...
En fait, suite aux retours qui leurs sont faits, les auteurs revoient
rapidement à la baisse leurs estimations assez alarmistes.
Au final, le problème méthodologique et la capacité à vérifier les
études suite à des erreurs de calcul reste entier même s'il ne remet
pas pour autant en cause l'ensemble des résultats obtenus ces
- [[http://www.nature.com/nrd/journal/v10/n9/full/nrd3439-c1.html?foxtrotcallback=true][Oncologie]] : "/plus de la moitié des études publiées, même dans des
journaux prestigieux, ne/ /peuvent être reproduites en laboratoire
industriels/"
- [[http://theconversation.com/we-found-only-one-third-of-published-psychology-research-is-reliable-now-what-46596][Psychologie]] : "réplication d'une centaine d'articles /seulement un
tiers de résultats cohérents/"
<span class="fragment" data-fragment-index="2"> *Lanceurs d'alerte* ou
*institutions malades* ? </span>
*** <span class="fragment" data-fragment-index="2"> La remise en cause fait partie du processus scientifique</span>
*** <span class="fragment" data-fragment-index="2"> Tout comme la rigueur et la transparence...</span>
Note:
Il n'y a à ce jour pas un domaine des science qui ne soit épargné par
ces difficultés à reproduire les travaux publiés. En oncologie, un
article récemment publié rapporte que plus de la moitié des études
publiées ne peuvent être reproduites en laboratoire industriel, et ce
même si les études sont publiées dans des journaux prestigieux.
En psychologie, les capacités à reproduire les résultats publiés sont
également très basses.
Le problème est méthodologique mais également certainement
sociologique, lié à une pression productiviste trop importante. Mais
attention aussi à ne pas donner non plus trop d'importance aux signaux
d'alertes que nous venons de voir...
Le problème est compliqué mais il faut garder à l'esprit que la remise
en cause fait partie du processus scientifique. Il n'est donc pas
surprenant que de telles difficultés de reproduction de travaux
scientifiques soit présentes.
Cependant, deux autres caractéristiques essentielles du processus
scientifique sont la rigueur et la transparence et il est clair que
dans l'ensemble des cas que nous venons de voir il manquait souvent
- <!-- .element class="fragment" data-fragment-index="2" --> *Les tableurs* : [[https://qz.com/768334/years-of-genomics-research-is-riddled-with-errors-thanks-to-a-bunch-of-botched-excel-spreadsheets/][erreurs de programmation]] et de manipulation de données
# and *unconventional* weighting of summary *statistics*./
#+BEGIN_QUOTE
While using RR's working spreadsheet, we identified *coding errors*,
*selective exclusion* of available data,
and *unconventional* weighting of summary *statistics*.
\flushright -- Herndon, Ash et Pollin
#+END_QUOTE
# #+BEGIN_EXPORT html
# <br/>
# #+END_EXPORT
# - Wray: /combining data across centuries, exchange rate regimes,
# public and private/ /debt, and debt denominated in foreign currency
# as well as domestic currency/
#+BEGIN_QUOTE
combining data across centuries, exchange rate regimes, public and
private debt, and debt denominated in foreign currency as well as
domestic currency.
\flushright -- Wray
#+END_QUOTE
# Note:
# Ces seuils de 90% ainsi que l'ampleur des conséquences sont très
# discutés, d'autant plus que certains chercheurs échouent à obtenir des
# résultats similaires en utilisant les données disponibles
# publiquement. Ils demandent donc à Reinhart et Rogoff l'ensemble des
# données et des feuilles de calculs utilisées dans l'étude et ces
# derniers finissent par leur fournir.
# Dans ces feuilles, des erreurs de calcul évidentes apparaissent
# rapidement ainsi que des traitement de données assez douteux
# (exclusion de données, pondérations suspectes, etc.).
# Reinhart et Rogoff répondent point par point en expliquant que ces
# quelques erreurs ne changent rien au résultat final, que leur façon de
# calculer les statistiques sont tout à fait standard.
# En fait, une fois les détails révélés, pour beaucoup de chercheurs ces
# calculs n'ont pas beaucoup de sens, les valeurs utilisées sont très
# discutables, et il est malhonnête d'utiliser ces travaux pour
# justifier une politique d'austérité budgétaire.
# Mais le mal est fait. Pendant plus de trois ans, l'austérité n'est pas
# présentée comme un choix mais comme une nécessité. Et quand bien même
# l'article original est considéré comme non pertinent par les
# économistes, ces idées ont fait leur chemin et sont difficiles à
# détrôner.
# Au delà du caractère idéologique de ce genre de travaux, une des
# raisons pour lesquelles ce débat a mis autant de temps à avoir lieu
# est lié à la non publication de l'ensemble des procédures de calcul et
# des données utilisées, pratique courante en économie. Sous les feux
# de la rampe, les auteurs ont bien été forcés de mettre à disposition
# ce qui sous-tendait leur travaux mais sans pression médiatique
# particulière, en général, rien ne se passe...
** Functional MRI
# file:assets/img/Irmf.jpg&size=cover
- 2010: [[https://www.researchgate.net/publication/255651552_Neural_correlates_of_interspecies_perspective_taking_in_the_post-mortem_Atlantic_Salmon_an_argument_for_multiple_comparisons_correction][Bennett et al. and the dead salmon]] $\smiley$
- 2016: [[http://www.pnas.org/content/113/28/7900.abstract][Eklund, Nichols, and Knutsson]]. [[http://www.sciencealert.com/a-bug-in-fmri-software-could-invalidate-decades-of-brain-research-scientists-discover][A bug in fmri software could
invalidate 15 years of brain research]] \newline (/40 000 articles/)
- 2016: But it's [[https://www.cogneurosociety.org/debunking-the-myth-that-fmri-studies-are-invalid/][more subtle than it looks like]]. [[http://blogs.warwick.ac.uk/nichols/entry/bibliometrics_of_cluster/][Nichols]].\newline /\approx 3 600
impacted studies/
Statistical methods and methodology should be improved but no
fundamental invalidation
file:../assets/img/Researcher-test.jpg
# Note:
# Continuons avec un autre exemple: l'imagerie cérébrale, qui permet
# d'observer l'activité du cerveau d'un individu lorsqu'il effectue une
# tâche cognitive et ainsi de mieux comprendre la structure et le
# fonctionnement du cerveau. L'IRM fonctionnelle est l'une de ces
# techniques et mesure de très faibles variations locales du taux
# d'oxygénation du sang dans le cerveau.
# En 2010, Craig Bennett et ses encadrants ont une idée saugrenue. Ils
# placent un saumon mort dans un appareil d'IRM et lui présentent des
# images. Étonnamment, ils observent des signes d'activité cérébrale, ce qui est
# pour le moins surprenant puisque le saumon est bel et bien mort. Aussi
# drôle que cela puisse paraître, Bennett et ses encadrants savent très
# bien ce qu'ils font. Les données brutes obtenues lors d'une IRM sont
# très bruitées et toute une série de calculs et de tests statistiques
# sont appliqués pour transformer ces données en images
# intelligibles. Mais il arrive que le bruit soit trop important, que la
# machine soit mal calibrée, que la procédure de calcul soit inadaptée
# et que des signaux apparaissent fortuitement.
# Leur article rédigé avec un ton très humoristique fait sensation car
# il met le doigt sur des faiblesses méthodologiques.
# L'an dernier, des collègues me sachant intéressé par ces problèmes de
# réplication me font suivre un article récent assez alarmant. Cet article présente un
# problème dans les procédures statistiques utilisées dans les logiciels
# d'analyse d'IRMf les plus courants, ce qui remet potentiellement en
# cause les résultats obtenus ces quinze dernières années. Étant donnée
# l'ampleur de l'erreur, les auteurs concluent que 40,000 articles
# pourraient être concernés. De plus, les données étant très
# volumineuses dans ce domaine, elles ne sont pas archivées et il ne
# sera pas possible de simplement les réanalyser. L'ensemble des
# expériences seraient à refaire...
# En fait, suite aux retours qui leurs sont faits, les auteurs revoient
# rapidement à la baisse leurs estimations assez alarmistes.
# Au final, le problème méthodologique et la capacité à vérifier les
# études suite à des erreurs de calcul reste entier même s'il ne remet
# pas pour autant en cause l'ensemble des résultats obtenus ces
# dernières années.
** Incorrect Protein Structures
#+LaTeX: \begin{columns}\begin{column}{6.3cm}
*Geoffrey Chang*: study the tertiary structures of membrane proteins of
multidrug resistant bacteria
\small MsbA de Escherichia Coli (Science, 2001), Vibrio cholera
# Un dernier exemple, cette fois-ci en cristallographie.
# Geoffray Chang est un chercheur à la trajectoire fulgurante,
# récompensé par de nombreux prix. Son équipe, basée au Scripps
# Institute à l'Université de Californie San Diego, a publié une série
# d'articles dans des revues prestigieuses et détaillant la structure de
# certaines protéines présentes dans les membranes de cellules. Ces
# protéines jouent un rôle essentiel dans la résistance de ces bactéries
# à certains médicaments et connaître leur structure est une étape
# importante dans la compréhension de leur fonctionnement.
# Hélas, peu de temps après, d'autres équipes de chercheurs qui étudient
# des protéines très similaires rapportent des structures anormalement
# différentes de celles publiées par Chang et son équipe. En lisant ces
# travaux Chang, horrifié, remonte vite à la source du problème.
# Un des codes d'analyse aurait inversé deux
# colonnes de données et ainsi inversé la répartition de la densité
# d'électrons à partir de laquelle la structure finale de la protéine
# est calculée. D'après Chang, ce code aurait été hérité d'un autre
# laboratoire et s'était également répandu depuis dans d'autres équipes.
# Même si toute l'acquisition des données avait été faite soigneusement,
# ce n'était pas le cas de l'analyse et ce petit grain de sable a
# conduit à la rétractation immédiate de 5 articles par Chang et son
# équipe. Ces publications ont eu un impact énorme sur la communauté, à
# tel point que plusieurs années après la rétractation, les résultats
# contradictoires avec ceux de Chang paraissaient suspects avaient du
# mal à être publiés.
** Loosing Faith?
#+LaTeX: \begin{columns}\begin{column}{6.8cm}
- [[http://www.nature.com/nrd/journal/v10/n9/full/nrd3439-c1.html?foxtrotcallback=true][Oncology]]: "/half of published studies, even in prestigious journals,
can't be reproduced in industrial labs/"
- [[http://theconversation.com/we-found-only-one-third-of-published-psychology-research-is-reliable-now-what-46596][Psychology]]: "/attempting to reproduce 100 previously published
findings/, /only one-third of published psychology research was found
- *Spreadsheets*: [[https://qz.com/768334/years-of-genomics-research-is-riddled-with-errors-thanks-to-a-bunch-of-botched-excel-spreadsheets/][programming and data manipulation mistakes]]
-
~Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein
#+TITLE: Notes pour la séquence 1 du module 4 : « L'enfer des données »
#+AUTHOR: Christophe Pouzat
#+EMAIL: christophe.pouzat@parisdescartes.fr
#+LANGUAGE: fr
#+SELECT_TAGS: export
#+EXCLUDE_TAGS: noexport
#+CREATOR: Emacs 25.3.1 (Org mode 9.0.9)
#+STARTUP: indent
* Introduction
** Deux problèmes
Lorsque nous commençons à travailler sur de « vraies » données, comme lorsque nous nous lançons dans une étude numérique « sérieuse » nécessitant de longs calculs intermédiaires, nous nous trouvons généralement confrontés à deux problèmes :
- les données / résultats intermédiaires sont de nature « diverse » ;
- les données / résultats intermédiaires occupent un grand espace mémoire.
** Les données « non homogènes »
Jusqu'ici nous n'avons présenté qu'un cas concret de données, dans le module 3, avec les données grippales du [[http://www.sentiweb.fr][réseau sentinelles]]. Ces données étaient suffisamment « petites » pour être stockées en format texte et, mêmes si toutes les variables qu'elles contiennent ne sont pas de même nature — par exemple une date, une incidence, une localisation —, elles sont toutes disponibles en même temps ce qui veut dire qu'il y a autant de dates, que de mesures d'incidence et que de localisations. Les données /se prêtent donc bien à une représentation sous forme de table/.
Il y a néanmoins en pratique de très nombreux cas similaires au précédent dans la mesure où les données se présentent sous forme de suites chronologiques (/time series/) — une quantité donnée est mesurée ou estimée à intervalles réguliers au cours d'une « longue » période —, mais où les fréquences de mesures / estimations des différentes suites ne sont pas identiques — elles peuvent même varier au cours du temps. Pour fixer les idées avec un exemple qui devrait parler à tous le monde, nous pouvons considérer les données employées en [[https://fr.wikipedia.org/wiki/Pal%C3%A9oclimatologie][paléoclimatologie]] (la reconstruction du climat du passé). Là, des données annuelles fournies par l'étude des cernes des arbres ([[https://fr.wikipedia.org/wiki/Dendrochronologie][dendrochronologie]]) sont combinées avec des températures reconstruites à partir d'un forage dans la roche ([[https://en.wikipedia.org/wiki/Proxy_(climate)#Boreholes][boreholes]] en anglais) dont la résolution temporelle se dégrade à mesure que l'on remonte dans le temps (quelques dizaines d'années pour le 20e siècle à quelques siècles vers 1500 avant notre ère). Ces données ne se prête pas bien à un stockage sous forme de tableau et les sites qui les fournissent, comme le [[https://www.ncdc.noaa.gov/data-access/paleoclimatology-data/datasets][National Oceanic and Atmospheric Administration]] aux États-Unis, le font sous forme de fichiers séparés. /Il y a néanmoins un intérêt clair, pour le praticien de la recherche reproductible, à « centraliser » les données sur lesquels il travaille ; cela évite, par exemple, les pertes lors des « déplacements » des données/.
** Les données « trop grosses »
Une activité symptomatique de l'état de dégénérescence du capitalisme contemporain est la pratique de [[https://fr.wikipedia.org/wiki/Transactions_%C3%A0_haute_fr%C3%A9quence][transactions à haute fréquence]] : une activité entièrement gérée par ordinateur puisque des « décisions » de vente ou d'achat doivent être « prises » toutes les 100 microsecondes. Ces décisions sont basées sur des données qui arrivent à ce rythme. On conçoit bien, dès lors, qu'un développeur de programmes de transaction à haute fréquence aura tout intérêt à stocker les données sur lesquelles il testera ses algorithmes dans un format :
- plus compacte qu'un format texte ;
- qui peut être utiliser directement pour les calculs.
En effet, pour stocker le nombre 1234567890123456789 il faut 19x7 = 133 bits en format texte ([[https://fr.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange][ASCII]] ou [[https://fr.wikipedia.org/wiki/Unicode#UTF-8][UTF-8)]] alors qu'il loge sur les 64 bits d'un « format binaire » [[https://fr.wikipedia.org/wiki/Entier_(informatique)][entier non-signé]], ce qui donne un gain de 69 bits. De plus, nos ordinateurs lorsqu'ils manipulent la [[https://fr.wikipedia.org/wiki/Cha%C3%AEne_de_caract%C3%A8res][chaîne de caractères]] « 1234567890123456789 » ne savent pas plus la multiplier par 2 que la chaîne « abcdefghijklmnopqrs » ; pour qu'ils puissent multiplier le nombre correspondant à la première il faut d'abord /convertir/ celle-ci en un type arithmétique et cela prends du temps. Ce surcout en temps est complètement négligeable lorsque nous traitons des « petits jeux de données » comme celui du module 3, mais il peut devenir considérable lors du traitement de grosses données.
Fort heureusement, les données financières à haute fréquence ne constituent pas le seul exemple de données trop grosses pour être stockées en format texte. Nous avons en fait déjà rencontré un exemple de « grosses données » dans ce cours lorsque nous avons discuté de l'indexation d'images dans la séquence 5 du module 1. Une image, comme une photo numérique, contient en effet une grande quantité de données. Ainsi l'image que nous avions utilisée en exemple dans la diapo intitulée : « Les fichiers images contiennent des métadonnées » est-elle constituée de 7,8 Mégapixels et chaque pixel contient une information sur trois couleurs, chacune étant résolue avec 256 niveaux (8 bits). Cela fait une quantité énorme de données qui est stockée sous format binaire après [[https://fr.wikipedia.org/wiki/Compression_d%27image][compression]] par le format [[https://fr.wikipedia.org/wiki/JPEG][JPEG]].
** L'intérêt des données au format texte et ce qui serait désirable pour un « bon » format binaire
*** Métadonnées
Le premier intérêt du format texte comme nous l'avons vu dans le premier module est que nous pouvons l'utiliser pour stocker à peu près n'importe quoi. En particulier, ce qui nous préoccupe ici est la capacité à stocker non seulement des données, c'est-à-dire des nombres, mais des informations sur les données : d'où proviennent-elles, à qu'elle date ont elles été enregistrées, par qui, quel instrument / appareil de mesure a été utilisé, avec quels paramètres (comme la fréquence à laquelle une suite chronologique est observée), etc., autant d'informations qui peuvent s'avérer cruciales pour rendre nos résultats reproductibles. Mais ces « informations sur les données » ne sont rien d'autre que les métadonnées que nous avons brièvement discutées dans la séquence 5 du module 1. Elles sont si importantes que des formats de données conçus pour une tâche spécifique, comme le format JPEG pour les photos numériques, inclus une place pour elles dans leur spécifications. /Nous voyons bien que si, pour des raisons de taille mémoire trop importante ou d'efficacité de lecture / écriture, nous nous retrouvons « forcés » d'abandonner un format texte, nous avons tout intérêt à choisir un format binaire qui permet l'inclusion de métadonnées/.
*** Boutisme
Un autre intérêt du format texte, que nous avons aussi mentionné dans le premier module, est son caractère « universel » (dans l'univers de l'informatique !) : un fichier généré sur une machine avec une architecture et un système d'exploitation donné peut être ouvert et lu sans problème sur une autre machine ayant une architecture et un système d'exploitation complètement différents. Cette universalité se perd très vite avec les formats binaires. Le cas typique est lié au [[https://fr.wikipedia.org/wiki/Endianness][boutisme]] ([[https://en.wikipedia.org/wiki/Endianness][endianness]] en anglais, les explications sur cette notion sont plus claires sur site Wikipedia en anglais) qui spécifie par quel bout il faut lire une séquence de bits comme 1010 ; s'il s'agit d'un entier non signé (codé sur 4 bits), on peut faire:
- 1x1 + 0x2 + 1x4 + 0x8 = 5, c'est le /petit-boutisme/ utilisé par Unix/Linux, MacOS et Windows sur processeurs Intel ;
- 1x8 + 0x4 + 1x2 + 0x1 = 10, c'est le /gros-boutisme/ utilisé par les Sparc, Unix/Linux et MacOS sur PowerPC et par les protocoles [[https://fr.wikipedia.org/wiki/Suite_des_protocoles_Internet][TCP/IP]], c'est-à-dire par tout ce qui passe par internet (c'est aussi comme cela que nous écrivons les nombres décimaux : 123 = 1x100 + 2x10 + 3x1).
Il est évident que le stockage de données binaires à des fins de recherche reproductible devrait toujours se faire avec des formats dont le boutisme a été spécifié « une fois pour toute ».
* Des formats binaires, pour données composites, permettant le sauvegarde de métadonnées
Les préoccupations que nous avons évoquées dans la section précédente ne sont évidemment pas nouvelles, même mesurées à l'aune de l'ère numérique.
De façon non surprenante, ce sont les astrophysiciens qui ont très tôt développé des formats de fichiers de données numériques qui remplissent les critères induits par notre discussion précédente :
- des données de grandes tailles et de natures différentes doivent pouvoir être sauvegardées dans un même fichier ;
- des métadonnées doivent pouvoir être sauvegardées dans le même fichier ;
- le boutisme est spécifié.
En effet, les astrophysiciens ont très tôt commencés à utiliser des « capteurs numériques », comme les dispositifs à transfert de charges — plus connus sous leur nom anglais de /charge-coupled device/ qui donne l'acronyme [[https://en.wikipedia.org/wiki/Charge-coupled_device][CCD]] —, ils enregistrent des quantités massives de données qui sont le plus souvent de nature variée allant de la « simple image » à des spectres résolus dans le temps et dans l'espace (c'est-à-dire des objets à 5 dimensions). Nous allons présenter ici deux des formats de fichiers développé successivement, le premier par les astrophysiciens, le second pour les applications numériques sur « super-ordinateurs » :
- le /Flexible Image Transport System/ ([[https://fr.wikipedia.org/wiki/Flexible_Image_Transport_System][FITS]]), créé en 1981 est toujours régulièrement mis à jour — l'adresse du site officiel est : [[https://fits.gsfc.nasa.gov/]] — ;
- le /Hierarchical Data Format/ ([[https://fr.wikipedia.org/wiki/Hierarchical_Data_Format][HDF]]), développé au /National Center for Supercomputing Applications/, il en est à sa cinquième version, =HDF5= — l'adresse du site officiel est : https://www.hdfgroup.org/.
** « Bonus »
*** Bibliothèques
Les deux formats de fichiers que nous venons d'introduire, =FITS= et =HDF5=, sont en fait plus que des « formats » puisque les institutions / consortiums qui les développent distribuent également une ou plusieurs bibliothèques de fonctions (ainsi que des programmes) permettant de manipuler ces fichiers — un des reproches couramment adressé au format HDF5 est d'ailleurs le fait qu'il est tellement compliqué, que personne ne s'est jamais lancé dans le développement d'une bibliothèque de manipulation indépendante de celle distribué par le consortium.
*** Lecture partielle de données
Les deux formats ont été conçus pour de très grosses données, tellement grosses qu'elle peuvent ne pas loger dans la [[https://fr.wikipedia.org/wiki/M%C3%A9moire_vive][mémoire vive]] (=RAM=) d'un ordinateur « typique » de laboratoire. Les bibliothèques fournissent donc des fonctions qui permettent de ne charger en RAM, par exemple, qu'une partie d'une très grosse matrice, cela de façon « transparente » : le code de l'utilisateur est écrit comme si la totalité de la matrice était en RAM (c'est la bibliothèque qui gère le va et vient nécessaire entre RAM et disque).
** FITS
Comme nous l'avons écrit, le format =FITS= a été introduit et continue d'être mis à jour par les astrophysiciens. Ce format est néanmoins suffisamment général pour être utilisé dans des contextes très différents comme en témoigne son adoption par le projet de numérisation des manuscrits de la [[https://www.vaticanlibrary.va/home.php?pag=progettodigit][bibliothèque vaticane]]. Sans aller jusqu'à considérer cette adoption comme une [[https://fr.wikipedia.org/wiki/Imprimatur][imprimatur]], elle témoigne clairement d'une adaptabilité du format.
*** Anatomie d'un fichier =FITS=
Un fichier =FITS= peut contenir un nombre arbitraire de segments appelés « Header/Data Units (HDUs) » — voir le [[https://fits.gsfc.nasa.gov/fits_primer.html][primer ]]pour plus de détails. Ces segments sont placés « à la queue leu leu » dans le fichier — c'est-à-dire qu'il n'y a pas de structure hiérarchique comme dans les fichiers =HDF5= que nous discutons plus loin.
Le premier segment qui est obligatoire dans tout fichier =FITS= (même s'il ne contient pas de données). Il est nommé HDU primaire (/Primary HDU/ ou /Primary Array/). Il ne peut contenir qu'un tableau au sens large — c'est-à-dire avec 1, 2 ou plus de dimensions (jusqu'à 999), c'est ce qu'on nomme /array/ en anglais — au format binaire (entiers ou [[https://fr.wikipedia.org/wiki/Virgule_flottante][virgule flottante]]).
Les segments suivants sont facultatifs et son désignés par le terme d'« extension » dans le jargon =FITS=. Les extensions peuvent contenir des tableaux comme l'HDU primaire, mais aussi des tables (objets à 2 dimensions) au format texte (ASCII) ou binaire.
Chaque HDU consiste en une en-tête (/Header Unit/ en jargon =FITS=) suivie, /mais ce n'est pas obligatoire/, par des données (/Data Unit/ en jargon =FITS=). Chaque en-tête est formée de paires de « mots clés / valeurs ». Les paires de mots clés / valeurs fournissent des informations telles que la taille, l'origine, les coordonnées, le format de données binaire, les commentaires en format libre, l'historique des données, et /toute autre chose souhaitée par le rédacteur/ ; tandis que beaucoup de mots-clés sont réservés pour l'usage interne, la norme permet l'utilisation arbitraire du reste (source [[https://fr.wikipedia.org/wiki/Flexible_Image_Transport_System][Wikipédia]]).
*** Manipulation des fichiers =FITS=
Le consortium qui développe le format =FITS= fournit une bibliothèque [[https://heasarc.gsfc.nasa.gov/docs/software/fitsio/fitsio.html][CFITSIO]] en langage =C= ainsi qu'une collection de programmes associés. Notre expérience est que la bibliothèque, comme les programmes sont simples d'emploi et « bien pensés ».
Les utilisateurs de =Python= pourront utiliser [[https://pythonhosted.org/pyfits/][PyFITS]], une interface très complète avec [[https://heasarc.gsfc.nasa.gov/docs/software/fitsio/fitsio.html][CFITSIO]].
Les utilisateurs de =R= pourront utiliser [[https://cran.r-project.org/package=FITSio][FITSio]].
Des [[https://fits.gsfc.nasa.gov/fits_libraries.html][interfaces existent]] également pour =Java=, =Perl=, =Matlab=, etc.
** HDF5
*** La présentation d'=HDF5= par ses concepteurs
HDF5 est un modèle de données, une bibliothèque et un format de fichier pour stocker et gérer des données. Il prend en charge une variété illimitée de types de données et est conçu pour des entrées / sorties flexibles et efficaces, pour des volumes élevés et des données complexes. HDF5 est utilisable sur différentes plateformes et est extensible. Il permet aux applications d'évoluer dans leur utilisation d'HDF5. La suite technologique HDF5 comprend des outils et des applications pour gérer, manipuler, visualiser et analyser des données au format HDF5.
La [[https://portal.hdfgroup.org/display/HDF5/HDF5][version originale]] du texte ci-dessus :
HDF5 is a data model, library, and file format for storing and managing data. It supports an unlimited variety of datatypes, and is designed for flexible and efficient I/O and for high volume and complex data. HDF5 is portable and is extensible, allowing applications to evolve in their use of HDF5. The HDF5 Technology suite includes tools and applications for managing, manipulating, viewing, and analyzing data in the HDF5 format.
*** Différences majeurs avec =FITS=
Comme son nom l'indique avec le « H » pour /Hierarchical/, l'organisation interne d'un fichier =HDF5= est hierarchique et ressemble elle-même à une arborisation de fichiers. Cela contraste avec l'organisation « plate » des fichiers =FITS= et cela permet clairement d'ordonner des données complexes plus efficacement.
Ainsi un expérimentateur qui effectue des mesures répétées dans les mêmes conditions sur un même objet peut il stoker chaque « mesure » — qui peut elle-même générer des données complexes, /dataset/ en jargon =HDF=, comme une séquence d'images et une ou plusieurs suites chronologiques — dans l'équivalent d'un répertoire, un /group/ en jargon =HDF=. Cela permet à notre expérimentateur de créer un /group/ par condition expérimentale. Comme dans le cas d'une arborescence de répertoires sur le disque d'un ordinateur, les /groups/ peuvent eux-mêmes contenir des /groups/ (les répertoires peuvent avoir des sous-répertoires). Clairement, l'aspect structuré du format =HDF5=, facilite la navigation dans les jeux de données (/datasets/) et constitue une véritable amélioration par-rapport au format =FITS=.
Les méta-données n'ont pas de structure imposée mots clés / valeurs comme dans le cas du format =FITS=. Les données (/datasets/) n'ont pas non plus de structure imposée ce qui permet par exemple d'y stocker de longs textes, comme un article ou des codes sources. Encore une fois, cette possibilité n'est pas présente dans les fichiers =FITS=.
*** Manipulation des fichiers =HDF5=
La plus grande « souplesse » du format =HDF5= se « paie » par une bibliothèque de manipulation =C= (nettement) plus difficile à utiliser que son équivalent du format =FITS=. La bibliothèque vient avec de nombreux programmes utilisables depuis la ligne de commande, ainsi qu'avec une application =JAVA=, [[https://portal.hdfgroup.org/display/HDFVIEW/HDFView][HDFView]], très puissante pour explorer, visualiser et, dans une certaine mesure, éditer les fichiers =HDF5=.
=Python= dispose d'une interface très complète avec [[http://www.h5py.org/][h5py]].
Il y a trois paquets =R= pour manipuler les fichiers =HDF5= : [[https://CRAN.R-project.org/package=h5][h5]], [[https://CRAN.R-project.org/package=hdf5r][hdf5r]] et [[http://www.bioconductor.org/packages/release/bioc/html/rhdf5.html][rhdf5]]. Les deux premiers sont disponibles sur le /Comprehensive R Archive Network/ ([[https://cran.r-project.org/][CRAN]]), et le dernier est disponible sur [[http://www.bioconductor.org/][bioconductor]]. Le plus complet à ce jour est =hdf5r=, mais les trois permettent toutes les opérations de bases et même plus.
*** Pour aller plus loin
Une présentation par Martial Tola : [[https://perso.liris.cnrs.fr/martial.tola/presentations/hdf5/]].
Le blog de C. Rossant présente une critique intéressante et argumentée du format : [[http://cyrille.rossant.net/moving-away-hdf5/]].