Commit b67fb877 authored by Laurence Farhi's avatar Laurence Farhi

Synthèses de Sabrina

parent a58344a0
# -*- coding: utf-8 -*-
# -*- mode: org -*-
#+TITLE: Au-delà de la reproductibilité : la transparence de la recherche
#+AUTHOR: Sabrina Granger
#+STARTUP: overview indent inlineimages logdrawer
#+LANGUAGE: fr
* Introduction
:PROPERTIES:
:CUSTOM_ID: au-delà-de-la-reproductibilité-la-transparence-de-la-recherche
:END:
Si l'on définit la reproductibilité comme le fait d'aboutir à des
résultats similaires à partir des mêmes données et des mêmes méthodes
que celles de l'étude initiale, plusieurs domaines de recherche semblent
exclus de la problématique. Lorsque l'objet d'étude est un phénomène
climatique rare, un événement historique ou lorsque le travail consiste
à interpréter des textes ou à énoncer des théorèmes, ce sont davantage
les *enjeux de transparence* qui prédominent. Janz distingue 3 types de
transparence (Janz 2018). Les objectifs à atteindre dans chaque domaine
vont se traduire différemment selon que l'on travaille avec des méthodes
quantitatives ou qualitatives :
- /data transparency/ : "/Providing full
access to data itself/" ; il s'agit là de fournir les jeux de données
sur lesquels se fonde l'analyse, mais Janz précise que la mise à
disposition ne peut être que partielle si on utilise des transcriptions
d'entretiens, des vidéos.
- /analytic transparency/ : "/Information
about data analysis/"; il peut s'agir de fournir les codes informatiques
mais aussi d'indiquer précisement sur quelles sources l'analyse s'appuie
ou encore d'apporter des commentaires complémentaires à l'analyse.
- /production transparency/ : "/Process of data collection/" ; il peut
s'agir de fournir ou de décrire les données brutes, de documenter les
variables. Mais l'objectif de transparence peut aussi consister à
expliquer selon quels protocoles les données ont été collectées. On peut
par exemple détailler les critères de sélection des participants à une
étude.
*Toutes les techniques de reproductibilité n'auront donc pas la même
importance en fonction des disciplines et des méthodes employées*.
* Quelques exemples de pratiques favorables à une recherche
reproductible ...
:PROPERTIES:
:CUSTOM_ID: quelques-exemples-de-pratiques-favorables-à-une-recherche-reproductible
:END:
La recherche reproductible ne constitue pas un ensemble prédéterminé de
techniques et de méthodes. Si le *partage de données* et/ou de *code
informatique* participe à une recherche plus reproductible, la pratique
émergente de la */pre-registration/* (Nosek et al. 2017) peut également
y concourir. L'une de ses finalités est de prévenir les risques de
HARKing - /Hypothesizing After the Results are Known/. La
/pre-registration/ intervient en amont du travail d'analyse. Un.e
chercheur.euse va ainsi formaliser ses hypothèses de recherche, ses
données, son /study design/ et son plan d'analyse ; on va par exemple
décrire la manière dont une variable va être mesurée, enregistrée. Ces
informations peuvent être sauvegardées /via/ des plateformes numériques
pour s'assurer par la suite que la démarche initialement décrite est
bien appliquée. La tenue d'un *cahier de laboratoire* classique peut
jouer un rôle similaire.
Il ne s'agit pas d'amputer la recherche de sa dimension exploratoire car
il est possible de documenter tout changement, mais d'indiquer en début
de processus la manière dont l'analyse sera conduite afin de mieux
distinguer post-diction et prédiction. En d'autres termes, l'un des
objectifs de la /pre-registration/ est d'aider le.a chercheur.euse à se
prémunir contre des biais, des erreurs de méthode.
Gardons à l'esprit que *la /pre-registration/ représente au mieux une
aide* et ne constitue pas un rempart contre la fraude. Par ailleurs, *ce
type de modalité de travail ne se substitue pas à la maîtrise des
concepts et des méthodes statistiques*.
Mais il existe également de nombreux cas où aucune de ces techniques ne
s'applique (donnée ne pouvant être partagées, absence de dimension
calculatoire ou informatique, etc.).
* ... qui appellent d'autres réponses : la transparence, une notion
centrale de la recherche reproductible. Mais de quoi parle-t-on alors ?
:PROPERTIES:
:CUSTOM_ID: qui-appellent-dautres-réponses-la-transparence-une-notion-centrale-de-la-recherche-reproductible.-mais-de-quoi-parle-t-on-alors
:END:
Tout d'abord, *transparence n'est pas synonyme de mise à disposition, et
réciproquement* ! D'une part, il est courant de travailler sur des
données qui ne sont accessibles qu'à une poignée d'individus pour des
raisons matérielles (i.e. manuscrit ancien ou tout autre document unique
à consulter sur place) comme pour des raisons juridiques (i.e. données
de santé ou données personnelles plus généralement, données soumises à
des droits patrimoniaux). Est-on alors condamné.e à ignorer les
questions de reproductibilité et faut-il pour autant ne pas se
préoccuper de transparence ? Certainement pas. Ainsi, même lorsqu'on
utilise des données confidentielles, il s'avère nécessaire de les gérer
méthodiquement en les décrivant précisément, en documentant le protocole
de collecte, en assurant leur préservation. L'objectif est de conserver
ces informations pour soi, mais aussi à des fins de réfutabilité par un
tiers sous réserve de respecter un dispositif juridique précis. On
s'attachera alors à travailler en gardant à l'esprit que ces travaux
seront peut-être amenés à être accessible à un plus grand nombre de
personnes dans le futur. Le *module 4 du Mooc* comporte quelques pistes
de réflexion sur ce sujet très vaste.
D'autre part, dans le cadre d'une recherche conduite avec des méthodes
qualitatives, le code (dans ce contexte, l'étiquetage appliqué aux
données) peut jouer un rôle majeur, mais son partage ne fournira qu'un
niveau d'information limité puisque l'intérêt des travaux réside dans
leur dimension interprétative. La mise à disposition des données est
donc très loin d'être suffisante pour garantir une compréhension des
travaux effectués. Nous vous invitons à vous reporter au Sujet 3 du
*module 3 du Mooc* ("L'épidémie de choléra à Londres en 1854") car il
illustre pleinement l'importance d'une analyse plus qualitative des
données (FIXME, ajouter la correction et le lien vers la correction).
*Le terme "transparence" renvoie donc plutôt au fait de rendre accessibles à son lectorat les éléments sur lesquels s'est construit le
raisonnement* : sources citées, données analysées ou description des
données, /corpus/, /etc/. La notion de traçabilité occupe donc une place
centrale. L'accent n'est pas mis sur le fait d'aboutir aux mêmes
conclusions.
L'importance de *donner accès aux éléments constitutifs de son
raisonnement* n'est pas une idée nouvelle et réside au cœur de la
démarche scientifique, indépendamment des outils et méthodes utilisées
(analyse quantitative, analyse qualitative, /etc/.). Mais la
démultiplication des données disponibles (/corpus/ numérisés, catalogues
de références, sources en texte intégral, données obtenues grâce à des
logiciels, /etc/.) et leur fragilité (obsolescence des supports, des
formats et des logiciels) constituent autant d'*atteintes potentielles à
la traçabilité de la recherche*.
A tous les stades du travail, l'objectif de transparence peut être mis à
mal : recherche des sources et analyse de la littérature ; saisie et
traitement des données ; constitution des /corpus/ ; présentation des
résultats ; rédaction.
Par ailleurs, *nul besoin de travailler avec des bases de données, des
données d'enquêtes ou encore des jeux de données massifs pour être
concerné.e par ces problématiques*. Par exemple, il peut être difficile
pour un.e chercheur.euse d'évaluer la robustesse d'une hypothèse de
recherche fondée sur la présence d'une expression donnée dans un
/corpus/ si celui-ci n'est pas interrogeable de manière automatisée. On
s'expose alors à des déconvenues. L'exemple est tiré de l'ouvrage de
Bernard et Bohet cité dans la bibliographie (Bernard and Bohet 2017) :
un chercheur affirme qu'il n'y a pas d'occurrence de l'expression
"illusions perdues" dans le roman éponyme de Balzac. Si l'expression est
en effet absente du roman, une recherche dans le document permet de
faire émerger plusieurs occurrences du terme "illusions", notamment un
passage d'une lettre de Lucien : "Paris est à la fois toute la gloire et
toute l'infamie de la France, j'y ai déjà perdu bien des illusions, et
je vais en perdre encore d'autres". Ce résultat appelle dès lors une
analyse bien plus nuancée que l'hypothèse initiale.
Cette anecdote n'est évidemment pas à considérer comme un argument
susceptible de discréditer les approches qualitatives par rapport aux
approches quantitatives ou l'inverse. Ces approches sont complémentaires
et cet exemple illustre avant tout le fait qu'un biais de confirmation
dont on n'a pas conscience ou une visualisation de données inadaptée
peuvent conduire à des erreurs d'interprétation majeures, et ce même si
les chiffres sont corrects. Seul le fait de garder une trace rigoureuse
de la démarche et de l'automatiser autant que possible permet de
débusquer et de corriger les erreurs potentielles.
*Le recours au numérique est ici considéré comme un outil parmi d'autres
au service d'un cadre méthodologique*, permettant entre autres de
limiter les risques d'oubli et d'erreurs, de disposer d'outils de
vérification. De fait, se pose la question du degré de contrôle possible
de ces outils : *sous quelles conditions est-il raisonnable de s'en
remettre à des traitements automatisés dès lors qu'on veut s'assurer
d'une recherche transparente* ? Autant que faire se peut, le recours à
des *logiciels /open source/* constitue une première étape dans ce sens
: le code source des logiciels commerciaux demeure en effet
inaccessible. Ensuite, acquérir progressivement un socle de compétences
techniques permet d'appréhender le fonctionnement général d'un logiciel.
*Il ne s'agit pas forcément d'en comprendre le paramétrage dans le
détail, mais d'avoir suffisamment de notions pour comprendre ce qu'on
obtient en sortie et le crédit qu'on peut lui apporter*. Les
ingénieur.e.s en traitement et analyse de données et les
statisticien.ne.s des équipes de recherche peuvent vous aider à
appréhender ces aspects techniques, mais aussi culturels car les
logiciels naissent dans un environnement épistémologique donné.
* Le /codebook/, un exemple d'outil pour les méthodes qualitatives
:PROPERTIES:
:CUSTOM_ID: le-codebook-un-exemple-doutil-pour-les-méthodes-qualitatives
:END:
Que l'on décide de partager ou non ce type de données, concevoir un
*/codebook/* (Saldaña 2016) peut être utile aux chercheurs.euses
recourant aux *méthodes qualitatives*. Le terme "code" s'entend ici de
la sorte : "/A code in qualitative inquiry is most often a word or short
phrase that symbolically assigns a summative, salient,
essence-capturing, and/or evocative attribute for a portion of
language-based or visual data. The data can consist of interview
transcripts, participant observation field notes, journals, documents,
literature,artifacts, photographs, video, websites, e-mail
correspondence, and so on./" (Saldaña 2016)
*Qu'on code les données à l'aide d'un logiciel CAQDAS (Computer Assisted qualitative Data Analysis Software) ou manuellement, le
processus de codage ou d'étiquetage des données est itératif* : une première étape
exploratoire permet d'aboutir à une seconde phase où l'étiquetage
devient plus sélectif, théorique. L'étape de codage appelle souvent
plusieurs cycles d'adaptation, ainsi que le rappelle Saldaña : "/As you
code and recode, expect -- or rather, strive for -- your codes and
categories to become more refined. Some of your First Cycle codes may be
later subsumed by other codes, relabeled, or dropped all together. As
you progress toward Second Cycle coding, there may be some rearrangement
and reclassification of coded data into different and even new
categories./" (Saldaña 2016) Par ailleurs, non seulement les codes
évoluent au fil de l'analyse, mais leur nombre peut aussi augmenter. La
figure ci-dessous illustre le cycle de conception des codes (Roberts,
Dowell, and Nie 2019). [[file:ROBERTS-cycle-codebook.png]]
De fait, la nécessité de suivre ces évolutions s'impose tout du long du
processus de recherche. Un /codebook/ peut répondre au besoin de suivi
des évolutions puisqu'il s'agit d'*un document permettant d'une part, de
recenser tous les codes appliqués, d'autre part, de consigner ses choix
et de suivre leur évolution*. Ainsi, un /codebook/ représente plus qu'un
simple index. Il existe différents types de /codebooks/ : certains se
focalisent sur la description des données. Le /codebook/ constitue un
outil de suivi au service de la dimension interprétative du travail
d'analyse.
Les rubriques principales d'un /codebook/ sont les suivantes :
- intitulé du code
- courte description des finalités du code
- critères d'inclusion, i.e. sur quelles données ou quel phénomène
utiliser le code. Il s'agit de formaliser les critères à réunir pour
recourir au code
- critères d'exclusion, i.e. critères, cas particulier de données où le
code ne doit pas être utilisé
- exemples typiques : sélection de quelques cas qui illustrent le mieux
les critères d'utilisation
- exemples atypiques : sélection de cas extrêmes, atypiques pour
lesquels l'usage du code est requis
- "presque, mais non" ("/close, but no/") : des cas où l'on serait
tenté.e d'utiliser le code, alors que les données ne correspondent pas
Ci-dessous, un exemple de /codebook/ (Roberts, Dowell, and Nie 2019) :
[[file:ROBERTS_codebook.png]]\\
Enfin, *le /codebook/ lui-même constitue un document à gérer* : il faut
gérer ses versions successives.
Ce type de travail peut sembler fastidieux, mais tenter de se souvenir
de son propre étiquetage peut l'être encore davantage, /a fortiori/ en
cas de travail collaboratif. D'ailleurs, lorsque le codage est conçu
collectivement, il peut être utile de désigner un /codebook editor/
chargé de coordonner les ajouts, les suppressions, les évolutions.
Concevoir et gérer un /codebook/ nécessite du temps, mais cette démarche
de documentation apporte des garanties : "/It was thought that the
codebook improved the potential for inter-coder agreement and
reliability testing and ensured an accurate description of analyses/."
(Roberts, Dowell, and Nie 2019)
* /Quid/ des aspects non computationnels de la recherche ?
:PROPERTIES:
:CUSTOM_ID: quid-des-aspects-non-computationnels-de-la-recherche
:END:
Dans le cas des *disciplines ne faisant pas appel à des méthodes fondées
sur le numérique*, la question de la transparence se pose en d'autres
termes. Par exemple, les techniques de traitement de /corpus/ numériques
n'offrent qu'un intérêt limité pour un.e chercheur.euse en lettres
travaillant sur la manière dont une œuvre est interprétée en fonction
des époques car ce type de recherche appelle une autre forme
d'exploitation du texte. En revanche, la rigueur dans l'utilisation des
sources bibliographiques (revue de littérature, constitution de
l'appareil bibliographique, /etc/.) constitue le critère déterminant
d'une recherche transparente. Dès lors, le recours à un *gestionnaire de
références bibliographiques* est très adapté. Une autre famille d'outil
peut également devenir utile quand on travaille uniquement sur des
textes : les *outils de contrôle de versions*. Il peut en effet être
difficile de garder le suivi des évolutions du texte quand on rédige une
monographie, une thèse ou lorsque la rédaction est collective. Un
logiciel de forge tel que Gitlab n'est par exemple pas seulement utile à
des développeurs : il peut aider à gérer tout type de contenu, pas
seulement du code.
* Sources et compléments
:PROPERTIES:
:CUSTOM_ID: sources-et-compléments
:END:
Bernard, Michel, and Baptiste Bohet. 2017. Littérométrie: outils
numériques pour l'analyse des textes littéraires. Paris, France: Presses
Sorbonne nouvelle.
Freelon, Deen. 2010. 'ReCal: Intercoder Reliability Calculation as a Web
Service'. International Journal of Internet Science 5 (1): 20--33.
[[http://dfreelon.org/utils/recalfront/][Recal]] : "ReCal (“Reliability
Calculator") is an online utility that computes intercoder/interrater
reliability coefficients for nominal, ordinal, interval, or ratio-level
data. It is compatible with Excel, SPSS, STATA, OpenOffice, Google Docs,
and any other database, spreadsheet, or statistical application that can
export comma-separated (CSV), tab-separated (TSV), or
semicolon-delimited data files. ReCal consists of three independent
modules each specialized for different types of data. The following
table will help you select the module that best fits your data. (If you
do not know whether your data are considered nominal, ordinal, interval,
or ratio, please consult this Wikipedia article to find out more about
these levels of measurement.)"
Heimburger, Franziska, and Émilien Ruiz. 2011. 'Faire de l'histoire à
l'ère numérique : retours d'expériences'. Revue dhistoire moderne
contemporaine n° 58-4bis (5): 70--89.
Janz, Nicole. 2018. 'Research Reproducibility in Political Science'.
presented at the NCRM Research Methods Festival, University of Bath,
July 5.
https://www.ukdataservice.ac.uk/media/622140/janz\_rmf\_qualtransperency\_bath2018.pdf.
Nosek, Brian A., Charles R. Ebersole, Alexander DeHaven, and David
Mellor. 2017. 'The Preregistration Revolution'. Open Science Framework,
June. https://doi.org/10.17605/OSF.IO/2DXU5.
Roberts, Kate, Anthony Dowell, and Jing-Bao Nie. 2019. 'Attempting
Rigour and Replicability in Thematic Analysis of Qualitative Research
Data; a Case Study of Codebook Development'. BMC Medical Research
Methodology 19 (1): 66. https://doi.org/10.1186/s12874-019-0707-y.
Saldaña, Johnny. 2016. The Coding Manual for Qualitative Researchers.
Third Edition. Los Angeles: SAGE.
*Ressources complémentaires*
Dymond-Green, Neil, and UK Data Service. 2018. 'Show Me the Data:
Research Reproducibility in Qualitative Research -- Data Impact Blog'.
Data Impact Blog (blog). 18 September 2018.
http://blog.ukdataservice.ac.uk/show-me-the-data/.
[[https://programminghistorian.org/en/][The Programming Historian]] :
"We publish novice-friendly, peer-reviewed tutorials that help humanists
learn a wide range of digital tools, techniques, and workflows to
facilitate research and teaching. We are committed to fostering a
diverse and inclusive community of editors, writers, and readers."
*Ressources sur la gestion de données (dont données personnelles) :
gestion, partage*
Andreassen, Helene N. 2019. 'How to Share Research Data'. University
Library : The Arctic University of Norway, November 5.
http://site.uit.no/rdmtraining/files/2019/11/En\_share\_2019-11-05.pdf.
Andreassen, Helene N., and Erik Axel Vollan. 2018. 'Research Data
Management Part 2: (Qualitative) Data Containing Personal/Sensitive
Information'. University Library : The Arctic University of Norway,
October 11.
http://site.uit.no/rdmtraining/files/2018/10/TakeControlResearchData\_PART\_2\_Qualitative.pdf.
Beagrie, Neil. 2019. 'What to Keep : A Jisc Research Data Study'. JISC.
https://repository.jisc.ac.uk/7262/1/JR0100\_WHAT\_RESEARCH\_DATA\_TO\_KEEP\_FEB2019\_v5\_WEB.pdf.
Boistel, Romain, Frédérique Bordignon, and Lionel Maurel. 2019. 'Aspects
Juridiques de La Gestion et Du Partage Des Données'. In Journées
Nationales de La Science Ouverte 2019. Paris, France.
https://hal-enpc.archives-ouvertes.fr/hal-02372271.
Caporali, Arianna, Amandine Morisset, and Stéphane Legleye. 2015. 'La
mise à disposition des enquêtes quantitatives en sciences sociales :
l'exemple de l'Ined'. Population (édition française) 70 (3): 567--97.
https://doi.org/10.3917/popu.1503.0567.
National Science Foundation, Center for Qualitative and Multi-Method
Inquiry, and Syracuse University. n.d. 'Qualitative Data Repository'.
Accessed 22 January 2020. https://qdr.syr.edu/discover.
# -*- coding: utf-8 -*-
# -*- mode: org -*-
#+TITLE: Les références bibliographiques, un autre vecteur de transparence
#+AUTHOR: Sabrina Granger
#+STARTUP: overview indent inlineimages logdrawer
#+LANGUAGE: fr
* Introduction
Il ne s'agit pas ici de traiter des questions de normes de présentation
bibliographique : chaque discipline, voire chaque revue possède ses
critères formels.
En outre, le degré de formalisme des références bibliographiques diffère
selon les pratiques disciplinaires : dans certains domaines, il faut
citer la pagination, voire le paragraphe concerné alors que dans
d'autres champs, cette précision n'est pas requise. En fonction du degré
de précision requis dans sa discipline, on adaptera ses modalités de
prise de notes pour retrouver les informations requises lors de la
rédaction.
* En quoi la question des références bibliographiques a-t-elle trait à
la question de la reproductibilité ?
:PROPERTIES:
:CUSTOM_ID: en-quoi-la-question-des-références-bibliographiques-a-t-elle-trait-à-la-question-de-la-reproductibilité
:END:
Une gestion rigoureuse de l'appareil bibliographique constitue un gage
majeur de transparence, qu'on travaille en sciences dites dures comme en
lettres, langues, sciences humaines et sociales.
Dans la perspective des sciences humaines et plus particulièrement des
disciplines recourant à des méthodes qualitatives ou reposant
essentiellement sur de l'interprétation de textes, l'enjeu principal est
moins de reproduire des résultats que de donner à d'autres
chercheurs.euses la possibilité d'étayer comme de réfuter le propos
défendu. Or, les références bibliographiques donnent à voir les étapes
de la construction du raisonnement et des hypothèses.
La bibliographie constitue donc un faisceau d'indices de transparence
pour un lectorat de chercheurs.euses : *la liste des sources est-elle
exhaustive et représentative de l'ensemble des points de vue sur la
question ou au contraire, présente-t-elle d'importants biais de
sélection ?*
* Gérer de la manière la plus systématique possible ses sources
participe à réduire les erreurs de /reporting/
:PROPERTIES:
:CUSTOM_ID: gérer-de-la-manière-la-plus-systématique-possible-ses-sources-participe-à-réduire-les-erreurs-de-reporting
:END:
Par erreur de /reporting/, on n'entend pas le fait d'aboutir à des
conclusions différentes voire divergentes de celles de l'auteur.e de la
référence citée. Il est question ici d'une erreur d'interprétation du
propos initial. La pratique des citations dites de seconde main (ou
citations secondaires) peut ainsi induire l'auteur.e en erreur dans la
mesure où le texte cité n'est pas appréhendé dans son contexte original,
mais à travers le filtre d'un.e autre auteur.e.
/Quid/ du cas où *le texte original s'avère inaccessible* ? Votre
lectorat doit disposer des références précises de la source citant le
passage que vous reprenez. Par exemple : (Brown, 2010 cité par Jamison,
2012). Afin de ne pas laisser entendre de manière erronée que vous avez
consulté directement la source :
- soit la bibliographie mentionne
uniquement le document citant la source
- soit la référence est incluse
dans la bibliographie dans une liste séparée ou signalée comme source
non consultée au moyen d'un signe distinctif (un astérisque par ex.)
*Le respect d'un formalisme dans la rédaction de la citation et de la
bibliographie offre ainsi des repères à votre lectorat*. En cas
d'impossibilité d'accéder à la source, une bonne connaissance de
l'auteur.e citant le passage que vous souhaitez reprendre vous permet
d'évaluer le degré de fiabilité de la référence utilisée.
* Adopter un style bibliographique pour identifier plus facilement les
sources citées
:PROPERTIES:
:CUSTOM_ID: adopter-un-style-bibliographique-pour-identifier-plus-facilement-les-sources-citées
:END:
Que votre document fasse quatre ou mille pages, appliquer un style
bibliographique vous permet d'éviter d'oublier de mentionner des
éléments nécessaires à l'identification d'un document. Un style
bibliographique fournit en effet une trame des informations à compléter
en fonction des types de documents cités : article de revue
scientifique, monographie, billet de blog, article d'encyclopédie,
présentation, /etc/. Certains champs sont facultatifs. La
[[http://www.sudoc.fr/146773233][norme ISO 690]] vous permet
d'identifier les éléments à mentionner obligatoirement selon le type de
document cité. En effet, même si l'import du descriptif dans votre
gestionnaire de références est automatisé, la notice obtenue peut
s'avérer inexploitable. Tout va dépendre de la qualité du gisement
d'informations consulté pour importer la notice. Ci-dessous, nous
pouvons constater que pour une même référence, la qualité des
descriptions varie selon le type d'outil consulté (moteur de recherche
généraliste vs catalogue de bibliothèque). [[./comparatif-biblio.png]]
Dans l'exemple ci-dessus, la mention de l'édition est une donnée
importante pour identifier le document cité. Enfin, il est plus facile
pour votre lectorat d'appréhender les références bibliographiques
lorsque leur présentation est standardisée. Les gestionnaires de
références bibliographiques permettent d'appliquer des éléments formels
de manière homogène et automatisée.
* Automatiser la gestion de ses références : qu'en attendre ou pas ?
:PROPERTIES:
:CUSTOM_ID: automatiser-la-gestion-de-ses-références-quen-attendre-ou-pas
:END:
Il existe plusieurs solutions. Parmi elles,
[[https://www.zotero.org/][Zotero]] constitue une solution gratuite et
/open source/ utilisée par une communauté d'utilisateurs grandissante et
dynamique. Les fonctionnalités décrites ci-dessous reprennent grandement
celles de Zotero.
Un gestionnaire de références bibliographiques permet entre autres
de :
- *importer des descriptions bibliographiques* depuis des catalogues,
des moteurs de recherche, des sites web, des plateformes d'éditeurs
- centraliser* les références collectées et constituer ainsi sa base de
données personnelle, à la différence des outils proposés dans les
traitement de texte. Word permet par exemple de créer une base de
données de références bibliographiques, mais celle-ci est propre à un
document. Ainsi, pour citer dans plusieurs documents une même référence,
je dois la créer dans chaque document.
- *exporter des références
bibliographiques sous différents formats* : .html, .ris, .rtf
- *partager ses références* soit de manière récurrente en créant des
bibliothèques de groupes, soit de manière ponctuelle en exportant des
références
- *citer* des sources dans du texte en leur appliquant un
style donné
- éditer les descriptions collectées pour les corriger et
les améliorer * *annoter les références bibliographiques* : vous pouvez
par exemple associer à une description des passages que vous trouvez
particulièrement intéressants ; les notes prises sur des supports
extérieurs à votre gestionnaire (cahiers, fichiers, etc.) peuvent ainsi
être associées au descriptif du document. Ces notes sont à usage
internes et non visibles lors de la citation de la référence.
- *organiser* des volumes importants de données ; vous pouvez créer des
dossiers et des sous-dossiers ; classer les descriptifs dans plusieurs
dossiers sans pour autant occasionner de doublons ; étiquetter des
références pour indiquer celles que vous jugez fondamentales ou signaler
les références en attente de lecture ; faire des renvois de références
internes à sa bibliothèque ; créer des dossiers "dynamiques" : en
sauvegardant une requête, vous créez un dossier où seront
automatiquement classées toutes les références répondant aux critères
enregistrés, indépendamment du classement manuel effectué. La liste
n'est pas exhaustive.
- *dédoublonner* les références ; on parle ici des
descriptifs importés plusieurs fois et pas des références classées dans
plusieurs dossiers
- *naviguer dans ses références* grâce aux outils
d'interrogation
- travailler sur plusieurs postes sans problème de
synchronisation de la base de références bibliographiques
Un outil comme Zotero dispose même
d'[[https://www.zotero.org/blog/retracted-item-notifications/][un plugin
dédié au suivi des articles rétractés]].
Les gestionnaires de références bibliographiques automatisent la plupart
des tâches, mais resteront toujours à la charge de l'utilisateur :
- une étape d'*amélioration et de correction des données importées* : la
qualité des sorties dépend en premier lieu de la qualité des données
d'entrée. Or, si le gestionnaire peut identifier quelles sont les
données importables dans une page web, il n'est pas en mesure
d'évaluer leur qualité descriptive. Le problème peut être d'ordre
quantitatif (i.e.: tous les champs obligatoires ne sont pas
complétés), comme qualitatif (i.e.: les données comportent des
inexactitudes, on constate des problèmes de graphie). Les pages de
résultats d'un moteur de recherche généraliste offrent par exemple des
descriptifs d'une qualité inférieure à celles d'un catalogue de
bibliothèque et pour le lecteur, il peut être difficile d'identifier
précisément la source citée.\\
- une *méthode de tri et d'organisation des données* ; ex. : il s'agit
de prévoir régulièrement un nettoyage de sa base en dédoublonnant les
références, revoir l'arborescence de ses dossiers, /etc/. Certes, les
gestionnaires de références disposent de fonctionnalités de recherche,
mais le problème des doublons reste par exemple entier sans nettoyage
régulier. La difficulté est majeure : comme évoqué ci-dessus, la
qualité des notices descriptives peut varier fortement. Or, si des
doublons d'une même référence sont présents dans la base, tantôt vous
utiliserez la notice A, tantôt la notice A' pour renvoyer à une même
source. Or, ces 2 notices peuvent ne pas être équivalentes du tout :
certes, elles sont censées renvoyer vers un même document, mais leur
niveau d'information peut varier. Enfin, au moment de créer la
bibliographie qui recense l'ensemble des références citées dans le
texte, les notices A et A' apparaîtront toutes les deux alors qu'elles
renvoient à la même source car le gestionnaire de références considère
qu'il s'agit de 2 notices.
- l'*enrichissement des informations /via/ l'annotation des notices* :
on pourrait considérer cette étape comme facultative. Techniquement,
rien n'empêche en effet de citer une source même si sa notice n'est
pas accompagnée d'annotations. Mais retrouver facilement les extraits
majeurs d'une source /via/ les annotations participe à fiabiliser
votre gestion des références : descriptifs bibliographiques et
extraits citables sont ainsi associés et les risques d'attribuer à
tort une citation à une source s'amoindrissent. Ce type d'erreur est
d'autant plus présent si vous vous appuyez sur plusieurs références
d'un même auteur. Enfin, en annotant vos notices /via/ le gestionnaire
de références, vous pouvez facilement retrouver les extraits
sélectionnés grâce aux fonctionnalités de recherche.
[[https://github.com/jkitchin/org-ref][Si vous travaillez avec Emacs,
org-ref vous permet d'annoter vos références]].
La puissance et la facilité d'utilisation d'un gestionnaire de
références constituent une arme à double tranchant : encore plus
rapidement qu'avec une méthode manuelle, l'utilisateur.rice est
confronté.e à une masse importante de références potentielles. L'étape
de revue de littérature peut dès lors devenir envahissante dans le
processus de recherche, surtout dans le cadre d'un travail de thèse.
Analyser sa bibliothèque de références à la lumière de sa question de
recherche constitue une méthode de tri non automatisable, mais plus
efficace que la mise en place de filtres.
* /Quid/ du texte intégral ?
:PROPERTIES:
:CUSTOM_ID: quid-du-texte-intégral
:END:
Quand on interroge une plateforme d'éditeur, il est aussi possible de
collecter le texte intégral des articles (sous réserve des abonnements
aux revues souscrits par votre institution) au moment où l'on charge son
descriptif bibliographique dans son gestionnaire. Mais ces imports
soulèvent rapidement la question du quota de stockage gratuit pour
l'utilisateur.
Sans entrer dans le détail des alternatives, vous êtes invité.e à
considérer cette fonctionnalité avant tout comme une option de confort
car la pertinence des gestionnaires de références réside avant tout dans
l'aide qu'ils apportent dans la gestion et la citation des références
bibliographiques. En d'autres termes, *mieux vaut un descriptif complet
sans texte intégral plutôt qu'une référence lacunaire accompagnée de son
texte intégral* : lors de l'étape de la citation, c'est le descriptif et
non pas le fichier joint qui est exploité.
* Compléments
:PROPERTIES:
:CUSTOM_ID: compléments
:END:
Le [[https://zotero.hypotheses.org/][blog Zotero francophone]] pour des
conseils, l'actualité des développements
Le [[https://www.zotero.org/][site Zotero]] comporte de la documentation
et des [[https://forums.zotero.org/discussions][forums]]
L'[[https://www.zotero.org/styles][entrepôt des styles Zotero]],
gratuitement téléchargeables
Les usages de la communauté des *juristes francophones* présentent des
spécificités jusqu'à présent peu ou mal gérées par les styles existant
dans l'entrepôt Zotero. L'exemple du style conçu pour l'école doctorale
"Droit" de l'Université de Bordeaux apporte des pistes de réflexion :
Flamerie de Lachapelle, Frédérique. 2019. 'Créer un style pour Zotero
correspondant à une norme bibliographique juridique : retour
d'expérience bordelais. Billet invité'. Billet. UrfistInfo (blog). 2
July 2019. https://urfistinfo.hypotheses.org/3305.
Muller, Caroline. 2018. 'Cinq ans d'usage de Zotero, un bilan'. Billet.
Acquis de conscience (blog). 9 March 2018.
https://consciences.hypotheses.org/1184.
Sergiadis, Ashley. 2019. 'Evaluating Zotero, SHERPA/RoMEO, and Unpaywall
in an Institutional Repository Workflow'. Journal of Electronic
Resources Librarianship, September. https://dc.etsu.edu/etsu-works/4739.
*** Exploiter des textes avec la TEI
:PROPERTIES:
:CUSTOM_ID: exploiter-des-textes-avec-la-tei
:END:
La question de la reproductibilité, pour soi comme pour les autres,
soulève entre autres celle de la pérennité de l'information
scientifique. Or, les données produites avec des logiciels propriétaires
et/ou sous des formats spécifiques à un outil offrent encore moins de
garantie d'accessibilité sur le long terme. La Text Encoding Initiative
(TEI) constitue un exemple de format de balisage standard.
**** A quels besoins de recherche la TEI répond-elle ?
:PROPERTIES:
:CUSTOM_ID: a-quels-besoins-de-recherche-la-tei-répond-elle
:END:
Si vous utilisez des textes (littéraires, législatifs, archives,
/etc/.), une technique de balisage de données peut vous permettre
d'aller au-delà du seul décompte brut d'occurrences : la Text Encoding
Initiative (TEI). Lou Burnard, l'un des fondateurs de la TEI, prend
l'exemple du mot "Paris" : s'agit-il de la ville du Texas, de la
capitale fraçaise, voire du prénom d'une héritière américaine ? Si trier
manuellement le bon grain de l'ivraie est possible - mais non sans
risque d'erreur - à l'échelle d'un petit /corpus/, il s'avère nettement
plus complexe de travailler sur *une masse de documents plus importante
et/ou plus hétérogène*. La TEI permet de résoudre ce problème.
Dans ce cas, /quid/ des /corpus/ peu volumineux ? *Le balisage en TEI
permet de rendre vos données textuelles "intelligentes"*: il est
possible de *baliser des personnages, des langues de citation, des
catégories grammaticales, des passages barrés*, /etc/. Qui peut le plus
peut le moins : s'il existe plus de 500 éléments combinables entre eux,
il est possible de travailler avec un jeu de balises réduit. Pour
traiter un roman, 5 ou 6 balises peuvent suffire.
**** Quelles garanties de pérennité ?
:PROPERTIES:
:CUSTOM_ID: quelles-garanties-de-pérennité
:END:
L'encodage des données en TEI permet de concevoir des /corpus/ à très
forte valeur ajoutée. Dès lors se posent les questions de l'*accès*, de
la *conservation* voire du *partage* de cette plus-value. Si le recours
à certains logiciels proposant des outils d'encodage de données est
commode, sur le long terme, leur utilisation peut nuire à la
reproductibilité de vos travaux. En effet, l'un des avantages de la TEI
est d'offrir un *codage standard, affranchissant ainsi ses utilisateurs
de toute dépendance logicielle*.
Si certains logiciels intègrent le codage en TEI, d'autres reposent sur
des codages qui leur sont propres (ex. Alceste, Lexico3, /etc/.) ainsi
que le souligne Burnard : "Si vous souhaitez partager les ressources
textuelles que vous créez avec d'autres personnes (ou avec vous-même à
quelques décennies de distance), vous devriez vous préoccuper de la
tendance de nombreux systèmes informatiques à appliquer leur propre
façon de stocker l'information" (Burnard 2014).
*Normalisation n'est pas synonyme de fermeture* : l'un des enjeux de la
TEI est d'offrir un système de balise évolutif grâce à son
extensibilité.
**** La TEI en pratique
:PROPERTIES:
:CUSTOM_ID: la-tei-en-pratique
:END:
Bernard et Bohet définissent ainsi la TEI (Bernard and Bohet 2017) : "Il
s'agit d'un balisage s'appuyant sur le langage XML et qui se présente
comme un dictionnaire de balises couvrant à peu près toutes les
situations". Il s'agit de permettre à une machine de lire ces données.
La TEI permet d'*introduire dans le texte des informations allant bien
au-delà des éléments formels* comme le montre
[[https://fr.wikipedia.org/wiki/Text_Encoding_Initiative][ce comparatif
tiré de Wikipédia]] entre d'une part, un encodage en HTML, où l'on prend
en compte uniquement les aspects de présentation, et d'autre part, un
encodage en TEI, où l'on peut introduire des informations sur les
personnages, la versification des éléments.
Le travail s'effectue sur des données numériques ; si les données sont
issues d'une numérisation, elles doivent au préalable être traitées avec
un logiciel de reconnaissance optique des caractères (OCR) (Humanum
2015).
Il existe des *éditeurs* tels que
[[https://framalibre.org/content/xml-copy-editor][XML Copy Editor]].
Certains logiciels incluent un *convertisseur* ; on peut citer : * le
[[http://textometrie.ens-lyon.fr/spip.php?rubrique96][logiciel TXM]] *
le
[[http://obvil.sorbonne-universite.site/developpements/odette][logiciel
Odette]] permet de passer d'un document en traitement de texte à des
données en XML/TEI
Exemple de texte encodé : Oscar Wilde. /The Importance of Being Earnest/
[[https://teibyexample.org/examples/TBED05v00.htm?target=wilde][disponible
sur le site web TEI by example]]
**** Sources
:PROPERTIES:
:CUSTOM_ID: sources
:END:
Bernard, Michel, and Baptiste Bohet. 2017. Littérométrie: outils
numériques pour l'analyse des textes littéraires. Paris, France: Presses
Sorbonne nouvelle.
Burnard, Lou. 2014. What Is the Text Encoding Initiative? : How to Add
Intelligent Markup to Digital Resources. Encyclopédie Numérique.
Marseille: OpenEdition Press. http://books.openedition.org/oep/426.
Humanum. 2015. 'Le Guide Des Bonnes Pratiques Numériques'. TGIR des
humanités numériques.
https://www.huma-num.fr/ressources/guide-des-bonnes-pratiques-numeriques.
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment