diff --git a/module1/ressources/ROBERTS-cycle-codebook.png b/module1/ressources/ROBERTS-cycle-codebook.png new file mode 100644 index 0000000000000000000000000000000000000000..c7be33f9b49cb0deb52e6c3b65991d6617d678f7 Binary files /dev/null and b/module1/ressources/ROBERTS-cycle-codebook.png differ diff --git a/module1/ressources/ROBERTS_codebook.png b/module1/ressources/ROBERTS_codebook.png new file mode 100644 index 0000000000000000000000000000000000000000..30afdf6884c81935c703bc7fbc7d9af444a4c5d0 Binary files /dev/null and b/module1/ressources/ROBERTS_codebook.png differ diff --git a/module1/ressources/ResearchTransparency_fr.org b/module1/ressources/ResearchTransparency_fr.org new file mode 100644 index 0000000000000000000000000000000000000000..77cb8c312c433d8767e88fa9f37ebcfa93a33781 --- /dev/null +++ b/module1/ressources/ResearchTransparency_fr.org @@ -0,0 +1,369 @@ +# -*- coding: utf-8 -*- +# -*- mode: org -*- + +#+TITLE: Au-delà de la reproductibilité : la transparence de la recherche +#+AUTHOR: Sabrina Granger +#+STARTUP: overview indent inlineimages logdrawer +#+LANGUAGE: fr + + +* Introduction + :PROPERTIES: + :CUSTOM_ID: au-delà-de-la-reproductibilité-la-transparence-de-la-recherche + :END: + +Si l'on définit la reproductibilité comme le fait d'aboutir à des +résultats similaires à partir des mêmes données et des mêmes méthodes +que celles de l'étude initiale, plusieurs domaines de recherche semblent +exclus de la problématique. Lorsque l'objet d'étude est un phénomène +climatique rare, un événement historique ou lorsque le travail consiste +à interpréter des textes ou à énoncer des théorèmes, ce sont davantage +les *enjeux de transparence* qui prédominent. Janz distingue 3 types de +transparence (Janz 2018). Les objectifs à atteindre dans chaque domaine +vont se traduire différemment selon que l'on travaille avec des méthodes +quantitatives ou qualitatives : +- /data transparency/ : "/Providing full +access to data itself/" ; il s'agit là de fournir les jeux de données +sur lesquels se fonde l'analyse, mais Janz précise que la mise à +disposition ne peut être que partielle si on utilise des transcriptions +d'entretiens, des vidéos. +- /analytic transparency/ : "/Information +about data analysis/"; il peut s'agir de fournir les codes informatiques +mais aussi d'indiquer précisement sur quelles sources l'analyse s'appuie +ou encore d'apporter des commentaires complémentaires à l'analyse. +- /production transparency/ : "/Process of data collection/" ; il peut +s'agir de fournir ou de décrire les données brutes, de documenter les +variables. Mais l'objectif de transparence peut aussi consister à +expliquer selon quels protocoles les données ont été collectées. On peut +par exemple détailler les critères de sélection des participants à une +étude. + +*Toutes les techniques de reproductibilité n'auront donc pas la même +importance en fonction des disciplines et des méthodes employées*. + +* Quelques exemples de pratiques favorables à une recherche +reproductible ... + :PROPERTIES: + :CUSTOM_ID: quelques-exemples-de-pratiques-favorables-à-une-recherche-reproductible + :END: + +La recherche reproductible ne constitue pas un ensemble prédéterminé de +techniques et de méthodes. Si le *partage de données* et/ou de *code +informatique* participe à une recherche plus reproductible, la pratique +émergente de la */pre-registration/* (Nosek et al. 2017) peut également +y concourir. L'une de ses finalités est de prévenir les risques de +HARKing - /Hypothesizing After the Results are Known/. La +/pre-registration/ intervient en amont du travail d'analyse. Un.e +chercheur.euse va ainsi formaliser ses hypothèses de recherche, ses +données, son /study design/ et son plan d'analyse ; on va par exemple +décrire la manière dont une variable va être mesurée, enregistrée. Ces +informations peuvent être sauvegardées /via/ des plateformes numériques +pour s'assurer par la suite que la démarche initialement décrite est +bien appliquée. La tenue d'un *cahier de laboratoire* classique peut +jouer un rôle similaire. + +Il ne s'agit pas d'amputer la recherche de sa dimension exploratoire car +il est possible de documenter tout changement, mais d'indiquer en début +de processus la manière dont l'analyse sera conduite afin de mieux +distinguer post-diction et prédiction. En d'autres termes, l'un des +objectifs de la /pre-registration/ est d'aider le.a chercheur.euse à se +prémunir contre des biais, des erreurs de méthode. + +Gardons à l'esprit que *la /pre-registration/ représente au mieux une +aide* et ne constitue pas un rempart contre la fraude. Par ailleurs, *ce +type de modalité de travail ne se substitue pas à la maîtrise des +concepts et des méthodes statistiques*. + +Mais il existe également de nombreux cas où aucune de ces techniques ne +s'applique (donnée ne pouvant être partagées, absence de dimension +calculatoire ou informatique, etc.). + +* ... qui appellent d'autres réponses : la transparence, une notion +centrale de la recherche reproductible. Mais de quoi parle-t-on alors ? + :PROPERTIES: + :CUSTOM_ID: qui-appellent-dautres-réponses-la-transparence-une-notion-centrale-de-la-recherche-reproductible.-mais-de-quoi-parle-t-on-alors + :END: + +Tout d'abord, *transparence n'est pas synonyme de mise à disposition, et +réciproquement* ! D'une part, il est courant de travailler sur des +données qui ne sont accessibles qu'à une poignée d'individus pour des +raisons matérielles (i.e. manuscrit ancien ou tout autre document unique +à consulter sur place) comme pour des raisons juridiques (i.e. données +de santé ou données personnelles plus généralement, données soumises à +des droits patrimoniaux). Est-on alors condamné.e à ignorer les +questions de reproductibilité et faut-il pour autant ne pas se +préoccuper de transparence ? Certainement pas. Ainsi, même lorsqu'on +utilise des données confidentielles, il s'avère nécessaire de les gérer +méthodiquement en les décrivant précisément, en documentant le protocole +de collecte, en assurant leur préservation. L'objectif est de conserver +ces informations pour soi, mais aussi à des fins de réfutabilité par un +tiers sous réserve de respecter un dispositif juridique précis. On +s'attachera alors à travailler en gardant à l'esprit que ces travaux +seront peut-être amenés à être accessible à un plus grand nombre de +personnes dans le futur. Le *module 4 du Mooc* comporte quelques pistes +de réflexion sur ce sujet très vaste. + +D'autre part, dans le cadre d'une recherche conduite avec des méthodes +qualitatives, le code (dans ce contexte, l'étiquetage appliqué aux +données) peut jouer un rôle majeur, mais son partage ne fournira qu'un +niveau d'information limité puisque l'intérêt des travaux réside dans +leur dimension interprétative. La mise à disposition des données est +donc très loin d'être suffisante pour garantir une compréhension des +travaux effectués. Nous vous invitons à vous reporter au Sujet 3 du +*module 3 du Mooc* ("L'épidémie de choléra à Londres en 1854") car il +illustre pleinement l'importance d'une analyse plus qualitative des +données (FIXME, ajouter la correction et le lien vers la correction). + +*Le terme "transparence" renvoie donc plutôt au fait de rendre accessibles à son lectorat les éléments sur lesquels s'est construit le +raisonnement* : sources citées, données analysées ou description des +données, /corpus/, /etc/. La notion de traçabilité occupe donc une place +centrale. L'accent n'est pas mis sur le fait d'aboutir aux mêmes +conclusions. + +L'importance de *donner accès aux éléments constitutifs de son +raisonnement* n'est pas une idée nouvelle et réside au cœur de la +démarche scientifique, indépendamment des outils et méthodes utilisées +(analyse quantitative, analyse qualitative, /etc/.). Mais la +démultiplication des données disponibles (/corpus/ numérisés, catalogues +de références, sources en texte intégral, données obtenues grâce à des +logiciels, /etc/.) et leur fragilité (obsolescence des supports, des +formats et des logiciels) constituent autant d'*atteintes potentielles à +la traçabilité de la recherche*. + +A tous les stades du travail, l'objectif de transparence peut être mis à +mal : recherche des sources et analyse de la littérature ; saisie et +traitement des données ; constitution des /corpus/ ; présentation des +résultats ; rédaction. + +Par ailleurs, *nul besoin de travailler avec des bases de données, des +données d'enquêtes ou encore des jeux de données massifs pour être +concerné.e par ces problématiques*. Par exemple, il peut être difficile +pour un.e chercheur.euse d'évaluer la robustesse d'une hypothèse de +recherche fondée sur la présence d'une expression donnée dans un +/corpus/ si celui-ci n'est pas interrogeable de manière automatisée. On +s'expose alors à des déconvenues. L'exemple est tiré de l'ouvrage de +Bernard et Bohet cité dans la bibliographie (Bernard and Bohet 2017) : +un chercheur affirme qu'il n'y a pas d'occurrence de l'expression +"illusions perdues" dans le roman éponyme de Balzac. Si l'expression est +en effet absente du roman, une recherche dans le document permet de +faire émerger plusieurs occurrences du terme "illusions", notamment un +passage d'une lettre de Lucien : "Paris est à la fois toute la gloire et +toute l'infamie de la France, j'y ai déjà perdu bien des illusions, et +je vais en perdre encore d'autres". Ce résultat appelle dès lors une +analyse bien plus nuancée que l'hypothèse initiale. + +Cette anecdote n'est évidemment pas à considérer comme un argument +susceptible de discréditer les approches qualitatives par rapport aux +approches quantitatives ou l'inverse. Ces approches sont complémentaires +et cet exemple illustre avant tout le fait qu'un biais de confirmation +dont on n'a pas conscience ou une visualisation de données inadaptée +peuvent conduire à des erreurs d'interprétation majeures, et ce même si +les chiffres sont corrects. Seul le fait de garder une trace rigoureuse +de la démarche et de l'automatiser autant que possible permet de +débusquer et de corriger les erreurs potentielles. + +*Le recours au numérique est ici considéré comme un outil parmi d'autres +au service d'un cadre méthodologique*, permettant entre autres de +limiter les risques d'oubli et d'erreurs, de disposer d'outils de +vérification. De fait, se pose la question du degré de contrôle possible +de ces outils : *sous quelles conditions est-il raisonnable de s'en +remettre à des traitements automatisés dès lors qu'on veut s'assurer +d'une recherche transparente* ? Autant que faire se peut, le recours à +des *logiciels /open source/* constitue une première étape dans ce sens +: le code source des logiciels commerciaux demeure en effet +inaccessible. Ensuite, acquérir progressivement un socle de compétences +techniques permet d'appréhender le fonctionnement général d'un logiciel. +*Il ne s'agit pas forcément d'en comprendre le paramétrage dans le +détail, mais d'avoir suffisamment de notions pour comprendre ce qu'on +obtient en sortie et le crédit qu'on peut lui apporter*. Les +ingénieur.e.s en traitement et analyse de données et les +statisticien.ne.s des équipes de recherche peuvent vous aider à +appréhender ces aspects techniques, mais aussi culturels car les +logiciels naissent dans un environnement épistémologique donné. + +* Le /codebook/, un exemple d'outil pour les méthodes qualitatives + :PROPERTIES: + :CUSTOM_ID: le-codebook-un-exemple-doutil-pour-les-méthodes-qualitatives + :END: + +Que l'on décide de partager ou non ce type de données, concevoir un +*/codebook/* (Saldaña 2016) peut être utile aux chercheurs.euses +recourant aux *méthodes qualitatives*. Le terme "code" s'entend ici de +la sorte : "/A code in qualitative inquiry is most often a word or short +phrase that symbolically assigns a summative, salient, +essence-capturing, and/or evocative attribute for a portion of +language-based or visual data. The data can consist of interview +transcripts, participant observation field notes, journals, documents, +literature,artifacts, photographs, video, websites, e-mail +correspondence, and so on./" (Saldaña 2016) + +*Qu'on code les données à l'aide d'un logiciel CAQDAS (Computer Assisted qualitative Data Analysis Software) ou manuellement, le +processus de codage ou d'étiquetage des données est itératif* : une première étape +exploratoire permet d'aboutir à une seconde phase où l'étiquetage +devient plus sélectif, théorique. L'étape de codage appelle souvent +plusieurs cycles d'adaptation, ainsi que le rappelle Saldaña : "/As you +code and recode, expect -- or rather, strive for -- your codes and +categories to become more refined. Some of your First Cycle codes may be +later subsumed by other codes, relabeled, or dropped all together. As +you progress toward Second Cycle coding, there may be some rearrangement +and reclassification of coded data into different and even new +categories./" (Saldaña 2016) Par ailleurs, non seulement les codes +évoluent au fil de l'analyse, mais leur nombre peut aussi augmenter. La +figure ci-dessous illustre le cycle de conception des codes (Roberts, +Dowell, and Nie 2019). [[file:ROBERTS-cycle-codebook.png]] + +De fait, la nécessité de suivre ces évolutions s'impose tout du long du +processus de recherche. Un /codebook/ peut répondre au besoin de suivi +des évolutions puisqu'il s'agit d'*un document permettant d'une part, de +recenser tous les codes appliqués, d'autre part, de consigner ses choix +et de suivre leur évolution*. Ainsi, un /codebook/ représente plus qu'un +simple index. Il existe différents types de /codebooks/ : certains se +focalisent sur la description des données. Le /codebook/ constitue un +outil de suivi au service de la dimension interprétative du travail +d'analyse. + +Les rubriques principales d'un /codebook/ sont les suivantes : + +- intitulé du code +- courte description des finalités du code +- critères d'inclusion, i.e. sur quelles données ou quel phénomène + utiliser le code. Il s'agit de formaliser les critères à réunir pour + recourir au code +- critères d'exclusion, i.e. critères, cas particulier de données où le + code ne doit pas être utilisé +- exemples typiques : sélection de quelques cas qui illustrent le mieux + les critères d'utilisation +- exemples atypiques : sélection de cas extrêmes, atypiques pour + lesquels l'usage du code est requis +- "presque, mais non" ("/close, but no/") : des cas où l'on serait + tenté.e d'utiliser le code, alors que les données ne correspondent pas + +Ci-dessous, un exemple de /codebook/ (Roberts, Dowell, and Nie 2019) : +[[file:ROBERTS_codebook.png]]\\ +Enfin, *le /codebook/ lui-même constitue un document à gérer* : il faut +gérer ses versions successives. + +Ce type de travail peut sembler fastidieux, mais tenter de se souvenir +de son propre étiquetage peut l'être encore davantage, /a fortiori/ en +cas de travail collaboratif. D'ailleurs, lorsque le codage est conçu +collectivement, il peut être utile de désigner un /codebook editor/ +chargé de coordonner les ajouts, les suppressions, les évolutions. + +Concevoir et gérer un /codebook/ nécessite du temps, mais cette démarche +de documentation apporte des garanties : "/It was thought that the +codebook improved the potential for inter-coder agreement and +reliability testing and ensured an accurate description of analyses/." +(Roberts, Dowell, and Nie 2019) + +* /Quid/ des aspects non computationnels de la recherche ? + :PROPERTIES: + :CUSTOM_ID: quid-des-aspects-non-computationnels-de-la-recherche + :END: + +Dans le cas des *disciplines ne faisant pas appel à des méthodes fondées +sur le numérique*, la question de la transparence se pose en d'autres +termes. Par exemple, les techniques de traitement de /corpus/ numériques +n'offrent qu'un intérêt limité pour un.e chercheur.euse en lettres +travaillant sur la manière dont une œuvre est interprétée en fonction +des époques car ce type de recherche appelle une autre forme +d'exploitation du texte. En revanche, la rigueur dans l'utilisation des +sources bibliographiques (revue de littérature, constitution de +l'appareil bibliographique, /etc/.) constitue le critère déterminant +d'une recherche transparente. Dès lors, le recours à un *gestionnaire de +références bibliographiques* est très adapté. Une autre famille d'outil +peut également devenir utile quand on travaille uniquement sur des +textes : les *outils de contrôle de versions*. Il peut en effet être +difficile de garder le suivi des évolutions du texte quand on rédige une +monographie, une thèse ou lorsque la rédaction est collective. Un +logiciel de forge tel que Gitlab n'est par exemple pas seulement utile à +des développeurs : il peut aider à gérer tout type de contenu, pas +seulement du code. + +* Sources et compléments + :PROPERTIES: + :CUSTOM_ID: sources-et-compléments + :END: + +Bernard, Michel, and Baptiste Bohet. 2017. Littérométrie: outils +numériques pour l'analyse des textes littéraires. Paris, France: Presses +Sorbonne nouvelle. + +Freelon, Deen. 2010. 'ReCal: Intercoder Reliability Calculation as a Web +Service'. International Journal of Internet Science 5 (1): 20--33. + +[[http://dfreelon.org/utils/recalfront/][Recal]] : "ReCal (“Reliability +Calculator") is an online utility that computes intercoder/interrater +reliability coefficients for nominal, ordinal, interval, or ratio-level +data. It is compatible with Excel, SPSS, STATA, OpenOffice, Google Docs, +and any other database, spreadsheet, or statistical application that can +export comma-separated (CSV), tab-separated (TSV), or +semicolon-delimited data files. ReCal consists of three independent +modules each specialized for different types of data. The following +table will help you select the module that best fits your data. (If you +do not know whether your data are considered nominal, ordinal, interval, +or ratio, please consult this Wikipedia article to find out more about +these levels of measurement.)" + +Heimburger, Franziska, and Émilien Ruiz. 2011. 'Faire de l'histoire à +l'ère numérique : retours d'expériences'. Revue dhistoire moderne +contemporaine n° 58-4bis (5): 70--89. + +Janz, Nicole. 2018. 'Research Reproducibility in Political Science'. +presented at the NCRM Research Methods Festival, University of Bath, +July 5. +https://www.ukdataservice.ac.uk/media/622140/janz\_rmf\_qualtransperency\_bath2018.pdf. + +Nosek, Brian A., Charles R. Ebersole, Alexander DeHaven, and David +Mellor. 2017. 'The Preregistration Revolution'. Open Science Framework, +June. https://doi.org/10.17605/OSF.IO/2DXU5. + +Roberts, Kate, Anthony Dowell, and Jing-Bao Nie. 2019. 'Attempting +Rigour and Replicability in Thematic Analysis of Qualitative Research +Data; a Case Study of Codebook Development'. BMC Medical Research +Methodology 19 (1): 66. https://doi.org/10.1186/s12874-019-0707-y. + +Saldaña, Johnny. 2016. The Coding Manual for Qualitative Researchers. +Third Edition. Los Angeles: SAGE. + +*Ressources complémentaires* + +Dymond-Green, Neil, and UK Data Service. 2018. 'Show Me the Data: +Research Reproducibility in Qualitative Research -- Data Impact Blog'. +Data Impact Blog (blog). 18 September 2018. +http://blog.ukdataservice.ac.uk/show-me-the-data/. + +[[https://programminghistorian.org/en/][The Programming Historian]] : +"We publish novice-friendly, peer-reviewed tutorials that help humanists +learn a wide range of digital tools, techniques, and workflows to +facilitate research and teaching. We are committed to fostering a +diverse and inclusive community of editors, writers, and readers." + +*Ressources sur la gestion de données (dont données personnelles) : +gestion, partage* + +Andreassen, Helene N. 2019. 'How to Share Research Data'. University +Library : The Arctic University of Norway, November 5. +http://site.uit.no/rdmtraining/files/2019/11/En\_share\_2019-11-05.pdf. + +Andreassen, Helene N., and Erik Axel Vollan. 2018. 'Research Data +Management Part 2: (Qualitative) Data Containing Personal/Sensitive +Information'. University Library : The Arctic University of Norway, +October 11. +http://site.uit.no/rdmtraining/files/2018/10/TakeControlResearchData\_PART\_2\_Qualitative.pdf. + +Beagrie, Neil. 2019. 'What to Keep : A Jisc Research Data Study'. JISC. +https://repository.jisc.ac.uk/7262/1/JR0100\_WHAT\_RESEARCH\_DATA\_TO\_KEEP\_FEB2019\_v5\_WEB.pdf. + +Boistel, Romain, Frédérique Bordignon, and Lionel Maurel. 2019. 'Aspects +Juridiques de La Gestion et Du Partage Des Données'. In Journées +Nationales de La Science Ouverte 2019. Paris, France. +https://hal-enpc.archives-ouvertes.fr/hal-02372271. + +Caporali, Arianna, Amandine Morisset, and Stéphane Legleye. 2015. 'La +mise à disposition des enquêtes quantitatives en sciences sociales : +l'exemple de l'Ined'. Population (édition française) 70 (3): 567--97. +https://doi.org/10.3917/popu.1503.0567. + +National Science Foundation, Center for Qualitative and Multi-Method +Inquiry, and Syracuse University. n.d. 'Qualitative Data Repository'. +Accessed 22 January 2020. https://qdr.syr.edu/discover. diff --git a/module1/ressources/SourcesAndBiblio_fr.org b/module1/ressources/SourcesAndBiblio_fr.org new file mode 100644 index 0000000000000000000000000000000000000000..2c372f4645104f779859073e279b40bad153e56d --- /dev/null +++ b/module1/ressources/SourcesAndBiblio_fr.org @@ -0,0 +1,271 @@ +# -*- coding: utf-8 -*- +# -*- mode: org -*- + +#+TITLE: Les références bibliographiques, un autre vecteur de transparence +#+AUTHOR: Sabrina Granger +#+STARTUP: overview indent inlineimages logdrawer +#+LANGUAGE: fr + +* Introduction +Il ne s'agit pas ici de traiter des questions de normes de présentation +bibliographique : chaque discipline, voire chaque revue possède ses +critères formels. + +En outre, le degré de formalisme des références bibliographiques diffère +selon les pratiques disciplinaires : dans certains domaines, il faut +citer la pagination, voire le paragraphe concerné alors que dans +d'autres champs, cette précision n'est pas requise. En fonction du degré +de précision requis dans sa discipline, on adaptera ses modalités de +prise de notes pour retrouver les informations requises lors de la +rédaction. + +* En quoi la question des références bibliographiques a-t-elle trait à +la question de la reproductibilité ? + :PROPERTIES: + :CUSTOM_ID: en-quoi-la-question-des-références-bibliographiques-a-t-elle-trait-à-la-question-de-la-reproductibilité + :END: + +Une gestion rigoureuse de l'appareil bibliographique constitue un gage +majeur de transparence, qu'on travaille en sciences dites dures comme en +lettres, langues, sciences humaines et sociales. + +Dans la perspective des sciences humaines et plus particulièrement des +disciplines recourant à des méthodes qualitatives ou reposant +essentiellement sur de l'interprétation de textes, l'enjeu principal est +moins de reproduire des résultats que de donner à d'autres +chercheurs.euses la possibilité d'étayer comme de réfuter le propos +défendu. Or, les références bibliographiques donnent à voir les étapes +de la construction du raisonnement et des hypothèses. + +La bibliographie constitue donc un faisceau d'indices de transparence +pour un lectorat de chercheurs.euses : *la liste des sources est-elle +exhaustive et représentative de l'ensemble des points de vue sur la +question ou au contraire, présente-t-elle d'importants biais de +sélection ?* + +* Gérer de la manière la plus systématique possible ses sources +participe à réduire les erreurs de /reporting/ + :PROPERTIES: + :CUSTOM_ID: gérer-de-la-manière-la-plus-systématique-possible-ses-sources-participe-à-réduire-les-erreurs-de-reporting + :END: + +Par erreur de /reporting/, on n'entend pas le fait d'aboutir à des +conclusions différentes voire divergentes de celles de l'auteur.e de la +référence citée. Il est question ici d'une erreur d'interprétation du +propos initial. La pratique des citations dites de seconde main (ou +citations secondaires) peut ainsi induire l'auteur.e en erreur dans la +mesure où le texte cité n'est pas appréhendé dans son contexte original, +mais à travers le filtre d'un.e autre auteur.e. + +/Quid/ du cas où *le texte original s'avère inaccessible* ? Votre +lectorat doit disposer des références précises de la source citant le +passage que vous reprenez. Par exemple : (Brown, 2010 cité par Jamison, +2012). Afin de ne pas laisser entendre de manière erronée que vous avez +consulté directement la source : +- soit la bibliographie mentionne +uniquement le document citant la source +- soit la référence est incluse +dans la bibliographie dans une liste séparée ou signalée comme source +non consultée au moyen d'un signe distinctif (un astérisque par ex.) + +*Le respect d'un formalisme dans la rédaction de la citation et de la +bibliographie offre ainsi des repères à votre lectorat*. En cas +d'impossibilité d'accéder à la source, une bonne connaissance de +l'auteur.e citant le passage que vous souhaitez reprendre vous permet +d'évaluer le degré de fiabilité de la référence utilisée. + +* Adopter un style bibliographique pour identifier plus facilement les +sources citées + :PROPERTIES: + :CUSTOM_ID: adopter-un-style-bibliographique-pour-identifier-plus-facilement-les-sources-citées + :END: + +Que votre document fasse quatre ou mille pages, appliquer un style +bibliographique vous permet d'éviter d'oublier de mentionner des +éléments nécessaires à l'identification d'un document. Un style +bibliographique fournit en effet une trame des informations à compléter +en fonction des types de documents cités : article de revue +scientifique, monographie, billet de blog, article d'encyclopédie, +présentation, /etc/. Certains champs sont facultatifs. La +[[http://www.sudoc.fr/146773233][norme ISO 690]] vous permet +d'identifier les éléments à mentionner obligatoirement selon le type de +document cité. En effet, même si l'import du descriptif dans votre +gestionnaire de références est automatisé, la notice obtenue peut +s'avérer inexploitable. Tout va dépendre de la qualité du gisement +d'informations consulté pour importer la notice. Ci-dessous, nous +pouvons constater que pour une même référence, la qualité des +descriptions varie selon le type d'outil consulté (moteur de recherche +généraliste vs catalogue de bibliothèque). [[./comparatif-biblio.png]] + +Dans l'exemple ci-dessus, la mention de l'édition est une donnée +importante pour identifier le document cité. Enfin, il est plus facile +pour votre lectorat d'appréhender les références bibliographiques +lorsque leur présentation est standardisée. Les gestionnaires de +références bibliographiques permettent d'appliquer des éléments formels +de manière homogène et automatisée. + +* Automatiser la gestion de ses références : qu'en attendre ou pas ? + :PROPERTIES: + :CUSTOM_ID: automatiser-la-gestion-de-ses-références-quen-attendre-ou-pas + :END: + +Il existe plusieurs solutions. Parmi elles, +[[https://www.zotero.org/][Zotero]] constitue une solution gratuite et +/open source/ utilisée par une communauté d'utilisateurs grandissante et +dynamique. Les fonctionnalités décrites ci-dessous reprennent grandement +celles de Zotero. + +Un gestionnaire de références bibliographiques permet entre autres +de : + +- *importer des descriptions bibliographiques* depuis des catalogues, +des moteurs de recherche, des sites web, des plateformes d'éditeurs +- centraliser* les références collectées et constituer ainsi sa base de +données personnelle, à la différence des outils proposés dans les +traitement de texte. Word permet par exemple de créer une base de +données de références bibliographiques, mais celle-ci est propre à un +document. Ainsi, pour citer dans plusieurs documents une même référence, +je dois la créer dans chaque document. +- *exporter des références +bibliographiques sous différents formats* : .html, .ris, .rtf +- *partager ses références* soit de manière récurrente en créant des +bibliothèques de groupes, soit de manière ponctuelle en exportant des +références +- *citer* des sources dans du texte en leur appliquant un +style donné +- éditer les descriptions collectées pour les corriger et +les améliorer * *annoter les références bibliographiques* : vous pouvez +par exemple associer à une description des passages que vous trouvez +particulièrement intéressants ; les notes prises sur des supports +extérieurs à votre gestionnaire (cahiers, fichiers, etc.) peuvent ainsi +être associées au descriptif du document. Ces notes sont à usage +internes et non visibles lors de la citation de la référence. +- *organiser* des volumes importants de données ; vous pouvez créer des +dossiers et des sous-dossiers ; classer les descriptifs dans plusieurs +dossiers sans pour autant occasionner de doublons ; étiquetter des +références pour indiquer celles que vous jugez fondamentales ou signaler +les références en attente de lecture ; faire des renvois de références +internes à sa bibliothèque ; créer des dossiers "dynamiques" : en +sauvegardant une requête, vous créez un dossier où seront +automatiquement classées toutes les références répondant aux critères +enregistrés, indépendamment du classement manuel effectué. La liste +n'est pas exhaustive. +- *dédoublonner* les références ; on parle ici des +descriptifs importés plusieurs fois et pas des références classées dans +plusieurs dossiers +- *naviguer dans ses références* grâce aux outils +d'interrogation +- travailler sur plusieurs postes sans problème de +synchronisation de la base de références bibliographiques + +Un outil comme Zotero dispose même +d'[[https://www.zotero.org/blog/retracted-item-notifications/][un plugin +dédié au suivi des articles rétractés]]. + +Les gestionnaires de références bibliographiques automatisent la plupart +des tâches, mais resteront toujours à la charge de l'utilisateur : + +- une étape d'*amélioration et de correction des données importées* : la + qualité des sorties dépend en premier lieu de la qualité des données + d'entrée. Or, si le gestionnaire peut identifier quelles sont les + données importables dans une page web, il n'est pas en mesure + d'évaluer leur qualité descriptive. Le problème peut être d'ordre + quantitatif (i.e.: tous les champs obligatoires ne sont pas + complétés), comme qualitatif (i.e.: les données comportent des + inexactitudes, on constate des problèmes de graphie). Les pages de + résultats d'un moteur de recherche généraliste offrent par exemple des + descriptifs d'une qualité inférieure à celles d'un catalogue de + bibliothèque et pour le lecteur, il peut être difficile d'identifier + précisément la source citée.\\ +- une *méthode de tri et d'organisation des données* ; ex. : il s'agit + de prévoir régulièrement un nettoyage de sa base en dédoublonnant les + références, revoir l'arborescence de ses dossiers, /etc/. Certes, les + gestionnaires de références disposent de fonctionnalités de recherche, + mais le problème des doublons reste par exemple entier sans nettoyage + régulier. La difficulté est majeure : comme évoqué ci-dessus, la + qualité des notices descriptives peut varier fortement. Or, si des + doublons d'une même référence sont présents dans la base, tantôt vous + utiliserez la notice A, tantôt la notice A' pour renvoyer à une même + source. Or, ces 2 notices peuvent ne pas être équivalentes du tout : + certes, elles sont censées renvoyer vers un même document, mais leur + niveau d'information peut varier. Enfin, au moment de créer la + bibliographie qui recense l'ensemble des références citées dans le + texte, les notices A et A' apparaîtront toutes les deux alors qu'elles + renvoient à la même source car le gestionnaire de références considère + qu'il s'agit de 2 notices. +- l'*enrichissement des informations /via/ l'annotation des notices* : + on pourrait considérer cette étape comme facultative. Techniquement, + rien n'empêche en effet de citer une source même si sa notice n'est + pas accompagnée d'annotations. Mais retrouver facilement les extraits + majeurs d'une source /via/ les annotations participe à fiabiliser + votre gestion des références : descriptifs bibliographiques et + extraits citables sont ainsi associés et les risques d'attribuer à + tort une citation à une source s'amoindrissent. Ce type d'erreur est + d'autant plus présent si vous vous appuyez sur plusieurs références + d'un même auteur. Enfin, en annotant vos notices /via/ le gestionnaire + de références, vous pouvez facilement retrouver les extraits + sélectionnés grâce aux fonctionnalités de recherche. + [[https://github.com/jkitchin/org-ref][Si vous travaillez avec Emacs, + org-ref vous permet d'annoter vos références]]. + +La puissance et la facilité d'utilisation d'un gestionnaire de +références constituent une arme à double tranchant : encore plus +rapidement qu'avec une méthode manuelle, l'utilisateur.rice est +confronté.e à une masse importante de références potentielles. L'étape +de revue de littérature peut dès lors devenir envahissante dans le +processus de recherche, surtout dans le cadre d'un travail de thèse. +Analyser sa bibliothèque de références à la lumière de sa question de +recherche constitue une méthode de tri non automatisable, mais plus +efficace que la mise en place de filtres. + +* /Quid/ du texte intégral ? + :PROPERTIES: + :CUSTOM_ID: quid-du-texte-intégral + :END: + +Quand on interroge une plateforme d'éditeur, il est aussi possible de +collecter le texte intégral des articles (sous réserve des abonnements +aux revues souscrits par votre institution) au moment où l'on charge son +descriptif bibliographique dans son gestionnaire. Mais ces imports +soulèvent rapidement la question du quota de stockage gratuit pour +l'utilisateur. + +Sans entrer dans le détail des alternatives, vous êtes invité.e à +considérer cette fonctionnalité avant tout comme une option de confort +car la pertinence des gestionnaires de références réside avant tout dans +l'aide qu'ils apportent dans la gestion et la citation des références +bibliographiques. En d'autres termes, *mieux vaut un descriptif complet +sans texte intégral plutôt qu'une référence lacunaire accompagnée de son +texte intégral* : lors de l'étape de la citation, c'est le descriptif et +non pas le fichier joint qui est exploité. + +* Compléments + :PROPERTIES: + :CUSTOM_ID: compléments + :END: + +Le [[https://zotero.hypotheses.org/][blog Zotero francophone]] pour des +conseils, l'actualité des développements + +Le [[https://www.zotero.org/][site Zotero]] comporte de la documentation +et des [[https://forums.zotero.org/discussions][forums]] + +L'[[https://www.zotero.org/styles][entrepôt des styles Zotero]], +gratuitement téléchargeables + +Les usages de la communauté des *juristes francophones* présentent des +spécificités jusqu'à présent peu ou mal gérées par les styles existant +dans l'entrepôt Zotero. L'exemple du style conçu pour l'école doctorale +"Droit" de l'Université de Bordeaux apporte des pistes de réflexion : +Flamerie de Lachapelle, Frédérique. 2019. 'Créer un style pour Zotero +correspondant à une norme bibliographique juridique : retour +d'expérience bordelais. Billet invité'. Billet. UrfistInfo (blog). 2 +July 2019. https://urfistinfo.hypotheses.org/3305. + +Muller, Caroline. 2018. 'Cinq ans d'usage de Zotero, un bilan'. Billet. +Acquis de conscience (blog). 9 March 2018. +https://consciences.hypotheses.org/1184. + +Sergiadis, Ashley. 2019. 'Evaluating Zotero, SHERPA/RoMEO, and Unpaywall +in an Institutional Repository Workflow'. Journal of Electronic +Resources Librarianship, September. https://dc.etsu.edu/etsu-works/4739. diff --git a/module1/ressources/TEIIntroduction_fr.org b/module1/ressources/TEIIntroduction_fr.org new file mode 100644 index 0000000000000000000000000000000000000000..95cd3b6cbdf12b91e50467d05c6b16272f52f6ff --- /dev/null +++ b/module1/ressources/TEIIntroduction_fr.org @@ -0,0 +1,114 @@ +*** Exploiter des textes avec la TEI + :PROPERTIES: + :CUSTOM_ID: exploiter-des-textes-avec-la-tei + :END: + +La question de la reproductibilité, pour soi comme pour les autres, +soulève entre autres celle de la pérennité de l'information +scientifique. Or, les données produites avec des logiciels propriétaires +et/ou sous des formats spécifiques à un outil offrent encore moins de +garantie d'accessibilité sur le long terme. La Text Encoding Initiative +(TEI) constitue un exemple de format de balisage standard. + +**** A quels besoins de recherche la TEI répond-elle ? + :PROPERTIES: + :CUSTOM_ID: a-quels-besoins-de-recherche-la-tei-répond-elle + :END: + +Si vous utilisez des textes (littéraires, législatifs, archives, +/etc/.), une technique de balisage de données peut vous permettre +d'aller au-delà du seul décompte brut d'occurrences : la Text Encoding +Initiative (TEI). Lou Burnard, l'un des fondateurs de la TEI, prend +l'exemple du mot "Paris" : s'agit-il de la ville du Texas, de la +capitale fraçaise, voire du prénom d'une héritière américaine ? Si trier +manuellement le bon grain de l'ivraie est possible - mais non sans +risque d'erreur - à l'échelle d'un petit /corpus/, il s'avère nettement +plus complexe de travailler sur *une masse de documents plus importante +et/ou plus hétérogène*. La TEI permet de résoudre ce problème. + +Dans ce cas, /quid/ des /corpus/ peu volumineux ? *Le balisage en TEI +permet de rendre vos données textuelles "intelligentes"*: il est +possible de *baliser des personnages, des langues de citation, des +catégories grammaticales, des passages barrés*, /etc/. Qui peut le plus +peut le moins : s'il existe plus de 500 éléments combinables entre eux, +il est possible de travailler avec un jeu de balises réduit. Pour +traiter un roman, 5 ou 6 balises peuvent suffire. + +**** Quelles garanties de pérennité ? + :PROPERTIES: + :CUSTOM_ID: quelles-garanties-de-pérennité + :END: + +L'encodage des données en TEI permet de concevoir des /corpus/ à très +forte valeur ajoutée. Dès lors se posent les questions de l'*accès*, de +la *conservation* voire du *partage* de cette plus-value. Si le recours +à certains logiciels proposant des outils d'encodage de données est +commode, sur le long terme, leur utilisation peut nuire à la +reproductibilité de vos travaux. En effet, l'un des avantages de la TEI +est d'offrir un *codage standard, affranchissant ainsi ses utilisateurs +de toute dépendance logicielle*. + +Si certains logiciels intègrent le codage en TEI, d'autres reposent sur +des codages qui leur sont propres (ex. Alceste, Lexico3, /etc/.) ainsi +que le souligne Burnard : "Si vous souhaitez partager les ressources +textuelles que vous créez avec d'autres personnes (ou avec vous-même à +quelques décennies de distance), vous devriez vous préoccuper de la +tendance de nombreux systèmes informatiques à appliquer leur propre +façon de stocker l'information" (Burnard 2014). + +*Normalisation n'est pas synonyme de fermeture* : l'un des enjeux de la +TEI est d'offrir un système de balise évolutif grâce à son +extensibilité. + +**** La TEI en pratique + :PROPERTIES: + :CUSTOM_ID: la-tei-en-pratique + :END: + +Bernard et Bohet définissent ainsi la TEI (Bernard and Bohet 2017) : "Il +s'agit d'un balisage s'appuyant sur le langage XML et qui se présente +comme un dictionnaire de balises couvrant à peu près toutes les +situations". Il s'agit de permettre à une machine de lire ces données. + +La TEI permet d'*introduire dans le texte des informations allant bien +au-delà des éléments formels* comme le montre +[[https://fr.wikipedia.org/wiki/Text_Encoding_Initiative][ce comparatif +tiré de Wikipédia]] entre d'une part, un encodage en HTML, où l'on prend +en compte uniquement les aspects de présentation, et d'autre part, un +encodage en TEI, où l'on peut introduire des informations sur les +personnages, la versification des éléments. + +Le travail s'effectue sur des données numériques ; si les données sont +issues d'une numérisation, elles doivent au préalable être traitées avec +un logiciel de reconnaissance optique des caractères (OCR) (Humanum +2015). + +Il existe des *éditeurs* tels que +[[https://framalibre.org/content/xml-copy-editor][XML Copy Editor]]. +Certains logiciels incluent un *convertisseur* ; on peut citer : * le +[[http://textometrie.ens-lyon.fr/spip.php?rubrique96][logiciel TXM]] * +le +[[http://obvil.sorbonne-universite.site/developpements/odette][logiciel +Odette]] permet de passer d'un document en traitement de texte à des +données en XML/TEI + +Exemple de texte encodé : Oscar Wilde. /The Importance of Being Earnest/ +[[https://teibyexample.org/examples/TBED05v00.htm?target=wilde][disponible +sur le site web TEI by example]] + +**** Sources + :PROPERTIES: + :CUSTOM_ID: sources + :END: + +Bernard, Michel, and Baptiste Bohet. 2017. Littérométrie: outils +numériques pour l'analyse des textes littéraires. Paris, France: Presses +Sorbonne nouvelle. + +Burnard, Lou. 2014. What Is the Text Encoding Initiative? : How to Add +Intelligent Markup to Digital Resources. Encyclopédie Numérique. +Marseille: OpenEdition Press. http://books.openedition.org/oep/426. + +Humanum. 2015. 'Le Guide Des Bonnes Pratiques Numériques'. TGIR des +humanités numériques. +https://www.huma-num.fr/ressources/guide-des-bonnes-pratiques-numeriques. diff --git a/module1/ressources/comparatif-biblio.png b/module1/ressources/comparatif-biblio.png new file mode 100644 index 0000000000000000000000000000000000000000..f40eb8fd7c403176c21751996c9abe621bd16a6b Binary files /dev/null and b/module1/ressources/comparatif-biblio.png differ