# Interview de François Pellegrini : recherche reproductible et utilisation de données à caractère personnel
#+TITLE: Interview de François Pellegrini : recherche reproductible et utilisation de données à caractère personnel
#+Date: <déc 2019>
#+Author: François Pellegrini
#+LANGUAGE: fr
** Présentation
François Pellegrini, est informaticien, professeur des universités à l’Université de Bordeaux et chercheur au Laboratoire bordelais de recherche en informatique1 (LaBRI) et à Inria. Il est l'auteur du logiciel Scotch2, un logiciel de partitionnement généraliste. Il est commissaire à la Commission nationale de l’informatique et des libertés (CNIL).
François Pellegrini, est informaticien, professeur des universités à l’Université de Bordeaux et chercheur au Laboratoire bordelais de recherche en informatique1 (LaBRI) et à Inria. Il est l'auteur du logiciel Scotch2, un logiciel de partitionnement généraliste. Il est commissaire à la Commission nationale de l’informatique et des libertés (CNIL).
### Comment concilier la logique de transparence inhérente à celle de la recherche reproductible avec le respect de contraintes de confidentialité, dans le cas d'utilisation de données personnelles ?
** Comment concilier la logique de transparence inhérente à celle de la recherche reproductible avec le respect de contraintes de confidentialité, dans le cas d'utilisation de données personnelles ?
La personne ayant collecté les données à caractère personnel acquiert, de par le Règlement Général sur la Protection des Données (RGPD), le statut de "**responsable de traitement**", qui est le "gardien" des données en question. Il est soumis à un **principe de "redevabilité"** (en anglais : "*accountability*") quant aux moyens et procédures qu'il met en place pour administrer le traitement en question.
La personne ayant collecté les données à caractère personnel acquiert, de par le Règlement Général sur la Protection des Données (RGPD), le statut de "**responsable de traitement**", qui est le "gardien" des données en question. Il est soumis à un **principe de "redevabilité"** (en anglais : "*accountability*") quant aux moyens et procédures qu'il met en place pour administrer le traitement en question.
De fait, **sauf consentement explicite des personnes lors de la collecte**, il ne peut placer ces données en libre accès pour les personnes inconnues souhaitant reproduire les recherches.
De fait, **sauf consentement explicite des personnes lors de la collecte**, il ne peut placer ces données en libre accès pour les personnes inconnues souhaitant reproduire les recherches.
...
@@ -14,16 +17,14 @@ De fait, ils peuvent (tenter de) reproduire les résultats, mais pas mener d'aut
...
@@ -14,16 +17,14 @@ De fait, ils peuvent (tenter de) reproduire les résultats, mais pas mener d'aut
Dans le cas de **données confidentielles non à caractère personnel**, la situation est somme toute similaire, avec en moins la contrainte du respect strict de la loi "Informatique et Libertés".
Dans le cas de **données confidentielles non à caractère personnel**, la situation est somme toute similaire, avec en moins la contrainte du respect strict de la loi "Informatique et Libertés".
### En tant que lecteur.rice d'articles scientifiques, sur quels critères puis-je évaluer la robustesse du protocole de constitution des données si elles sont confidentielles ?
** En tant que lecteur.rice d'articles scientifiques, sur quels critères puis-je évaluer la robustesse du protocole de constitution des données si elles sont confidentielles ?
**Le processus et les données sont deux choses différentes**.
**Le processus et les données sont deux choses différentes**.
Tu peux très bien **auditer un processus sans regarder *in concreto* les données qui y seront soumises**.
Tu peux très bien **auditer un processus sans regarder *in concreto* les données qui y seront soumises**.
Il est également possible de **tester le processus avec des données synthétiques**, afin d'en vérifier la conformité des résultats attendus, par rapport aux caractéristiques des jeux de données qui ont été générées.
Il est également possible de **tester le processus avec des données synthétiques**, afin d'en vérifier la conformité des résultats attendus, par rapport aux caractéristiques des jeux de données qui ont été générées.
### Compléments
** Compléments
Site web de la CNIL : ["Comprendre le RGPD"](https://www.cnil.fr/fr/comprendre-le-rgpd)
Site web de la CNIL : ["Comprendre le RGPD"](https://www.cnil.fr/fr/comprendre-le-rgpd)
Nguyen, Benjamin. 2019. ‘Anonymization Techniques : Theory and Practice’. presented at the Cinquième École d’Hiver é-EGC, sur le thème «Privacy Preserving, Reasoning, Explaining», Metz, January 21. https://egc2019.sciencesconf.org/resource/page/id/12.
Nguyen, Benjamin. 2019. ‘Anonymization Techniques : Theory and Practice’. presented at the Cinquième École d’Hiver é-EGC, sur le thème «Privacy Preserving, Reasoning, Explaining», Metz, January 21. https://egc2019.sciencesconf.org/resource/page/id/12.
#+TITLE: Interview de Joël Zaffran, chercheur en sociologie
#+Date: <déc 2019>
#+Author: Joël Zaffran
#+LANGUAGE: fr
### Quel est votre domaine de recherche? Quelles méthodes utilisez-vous pour traiter vos données ?
** Quel est votre domaine de recherche? Quelles méthodes utilisez-vous pour traiter vos données ?
Je me présente. Je suis Joël Zaffran, professeur de sociologie à l’université de Bordeaux et chercheur au Centre Emile Durkheim qui est une UMR dont la particularité est de regrouper des chercheurs en science politique et en sociologie. Mes domaines de recherche sont d’une part l’école et la jeunesse, d’autre part le handicap.
Je me présente. Je suis Joël Zaffran, professeur de sociologie à l’université de Bordeaux et chercheur au Centre Emile Durkheim qui est une UMR dont la particularité est de regrouper des chercheurs en science politique et en sociologie. Mes domaines de recherche sont d’une part l’école et la jeunesse, d’autre part le handicap.
Sur le plan méthodologique, j’utilise aussi bien des approches quantitatives que des approches qualitatives. Souvent, j’essaie d’articuler les deux approches pour faire en sorte que la mixed method éclaire sous plusieurs angles l’objet de recherche. C’est dans ce cadre que j’utilise plusieurs logiciels, parfois simultanément.
Sur le plan méthodologique, j’utilise aussi bien des approches quantitatives que des approches qualitatives. Souvent, j’essaie d’articuler les deux approches pour faire en sorte que la mixed method éclaire sous plusieurs angles l’objet de recherche. C’est dans ce cadre que j’utilise plusieurs logiciels, parfois simultanément.
### Sur quels types de données travaillez-vous (ex. données d’enquête, etc.) et quelles sont les contraintes associées à ce type de données (ex. confidentialité)? Comment gérez-vous ces contraintes?
** Sur quels types de données travaillez-vous (ex. données d’enquête, etc.) et quelles sont les contraintes associées à ce type de données (ex. confidentialité)? Comment gérez-vous ces contraintes?
Les données quantitatives sur lesquelles je travaille soit sont issues d’un questionnaire *ad hoc* que j’élabore en fonction de mes hypothèses puis je diffuse généralement sous Sphinx, soit sont issues d’une analyse secondaire. Dans les deux cas, le problème de la confidentialité se pose conjointement avec la contrainte de la CNIL.
Les données quantitatives sur lesquelles je travaille soit sont issues d’un questionnaire *ad hoc* que j’élabore en fonction de mes hypothèses puis je diffuse généralement sous Sphinx, soit sont issues d’une analyse secondaire. Dans les deux cas, le problème de la confidentialité se pose conjointement avec la contrainte de la CNIL.
Cela suppose donc d’une part une autorisation préalable de la CNIL après qu’une demande a été déposée sur leur site, d’autre part d’une anonymisation des individus lors de la production des résultats. A cela s’ajoute que le fait d’utiliser Sphinx me permet de déposer mes données sur le serveur de l’université, ce qui a l’avantage de bénéficier d’une sécurisation d’accès à ces données.
Cela suppose donc d’une part une autorisation préalable de la CNIL après qu’une demande a été déposée sur leur site, d’autre part d’une anonymisation des individus lors de la production des résultats. A cela s’ajoute que le fait d’utiliser Sphinx me permet de déposer mes données sur le serveur de l’université, ce qui a l’avantage de bénéficier d’une sécurisation d’accès à ces données.
### Dans votre domaine, quelles ont été les évolutions majeures en termes de traitement de données? il peut s’agir de méthodes (ex. new statistics) comme d’outils (ex. utilisation plus massive de R, etc.)
** Dans votre domaine, quelles ont été les évolutions majeures en termes de traitement de données? il peut s’agir de méthodes (ex. new statistics) comme d’outils (ex. utilisation plus massive de R, etc.)
L’évolution majeure pour ce qui me concerne a été de passer de SPSS à R. Ce passage a été contraint puisqu’il est dû à des restrictions budgétaires de l’université. Or, j'enseignais SPSS à mes étudiants, et il a fallu que je passe à R (qui a l’avantage d’être un logiciel libre) pour assurer la continuité de mes enseignements. Cela étant, j’ai une licence SPSS sur mon ordinateur privé. De sorte qu’il n’est pas rare que je passe de Sphinx à SPSS, et de SPSS à R lorsque j’exploite les données de mes enquêtes.
L’évolution majeure pour ce qui me concerne a été de passer de SPSS à R. Ce passage a été contraint puisqu’il est dû à des restrictions budgétaires de l’université. Or, j'enseignais SPSS à mes étudiants, et il a fallu que je passe à R (qui a l’avantage d’être un logiciel libre) pour assurer la continuité de mes enseignements. Cela étant, j’ai une licence SPSS sur mon ordinateur privé. De sorte qu’il n’est pas rare que je passe de Sphinx à SPSS, et de SPSS à R lorsque j’exploite les données de mes enquêtes.
Cette manière de faire présente plusieurs avantages. Tout d’abord, R me permet de passer d’une analyse statistique des données quantitatives à une analyse statistique des données lexicales (ce que permet de faire iramuteq). Ensuite, j’ai dû faire récemment une analyse de survie pour des données de parcours. Or, SPSS ne fournit (du moins à ma connaissance) ni la table des “Hazard ratio” ni les graphiques du Schoenfeld test, alors qu’il existe un script R pour cela.
Cette manière de faire présente plusieurs avantages. Tout d’abord, R me permet de passer d’une analyse statistique des données quantitatives à une analyse statistique des données lexicales (ce que permet de faire iramuteq). Ensuite, j’ai dû faire récemment une analyse de survie pour des données de parcours. Or, SPSS ne fournit (du moins à ma connaissance) ni la table des “Hazard ratio” ni les graphiques du Schoenfeld test, alors qu’il existe un script R pour cela.
### Comment se traduit la question de la transparence dans votre domaine de recherche ? Quels sont les points critiques dans votre discipline? Toutes les données n’ont pas vocation à être partagées, mais comment gérez-vous le fait de pouvoir retracer votre processus de recherche? Quelles pratiques avez-vous adoptées ?
** Comment se traduit la question de la transparence dans votre domaine de recherche ? Quels sont les points critiques dans votre discipline? Toutes les données n’ont pas vocation à être partagées, mais comment gérez-vous le fait de pouvoir retracer votre processus de recherche? Quelles pratiques avez-vous adoptées ?
Comme je l’ai dit, mon champ est les sciences humaines et sociales, plus précisément la sociologie. Dans ce domaine, la question de la transparence ne se pose pas dans des termes identiques aux sciences dures, où les enjeux scientifiques et académiques sont différents. **En revanche, le problème de la capacité à retracer le processus de recherche est le même, quelle que soit la discipline.** Pour ce qui me concerne, il s’agit surtout de **garder une trace des scripts et des tableaux construits avant de publier les résultats sous la forme d’un article**.
Comme je l’ai dit, mon champ est les sciences humaines et sociales, plus précisément la sociologie. Dans ce domaine, la question de la transparence ne se pose pas dans des termes identiques aux sciences dures, où les enjeux scientifiques et académiques sont différents. **En revanche, le problème de la capacité à retracer le processus de recherche est le même, quelle que soit la discipline.** Pour ce qui me concerne, il s’agit surtout de **garder une trace des scripts et des tableaux construits avant de publier les résultats sous la forme d’un article**.
Je dois dire que ce n’est pas une mince affaire puisque l’on sait bien qu’**un article reflète mal le processus de recherche en amont de sa publication**.
Je dois dire que ce n’est pas une mince affaire puisque l’on sait bien qu’**un article reflète mal le processus de recherche en amont de sa publication**.
J’ai deux manières de faire : la première est de préciser l’approche et la méthode dans un **encart méthodologique** figurant dans le corps de l’article, la deuxième est de toujours **nommer chaque tableau ou script avant de l’enregistrer**. Cela permet de s’y retrouver dans la masse des fichiers créés.
J’ai deux manières de faire : la première est de préciser l’approche et la méthode dans un **encart méthodologique** figurant dans le corps de l’article, la deuxième est de toujours **nommer chaque tableau ou script avant de l’enregistrer**. Cela permet de s’y retrouver dans la masse des fichiers créés.
### Quels outils utilisez-vous ? par exemple, le recours aux logiciels propriétaires (SAS, SPSS, etc.) soulève de nombreuses difficultés dans une perspective de recherche reproductible car le code source n’est pas disponible.
** Quels outils utilisez-vous ? par exemple, le recours aux logiciels propriétaires (SAS, SPSS, etc.) soulève de nombreuses difficultés dans une perspective de recherche reproductible car le code source n’est pas disponible.
Sur le plan de la traçabilité, **le recours à R est plus aisé dans la mesure où tous les scripts utilisés sont enregistrés chronologiquement**, et qu’il suffit d’attribuer un titre à chacun d’eux (en veillant au préalable à bien mettre le signe #). Cela est plus difficile avec SPSS. C’est la raison pour laquelle, comme je le disais, j’ai opté avec SPSS pour des enregistrements pas à pas du listing des résultats.
Sur le plan de la traçabilité, **le recours à R est plus aisé dans la mesure où tous les scripts utilisés sont enregistrés chronologiquement**, et qu’il suffit d’attribuer un titre à chacun d’eux (en veillant au préalable à bien mettre le signe #). Cela est plus difficile avec SPSS. C’est la raison pour laquelle, comme je le disais, j’ai opté avec SPSS pour des enregistrements pas à pas du listing des résultats.
### Pourriez-vous décrire une histoire d'horreur ? i.e. un gros raté (ex. : données non disponibles ; impossibilité de reproduire une figure en obtenant le même résultat, impossibilité de fournir des données à un reviewer, etc.)
** Pourriez-vous décrire une histoire d'horreur ? i.e. un gros raté (ex. : données non disponibles ; impossibilité de reproduire une figure en obtenant le même résultat, impossibilité de fournir des données à un reviewer, etc.)
Mon plus grand raté est lorsqu’il s’est agi de **refaire un modèle de régression à la demande de reviewers**. Le drame est que j’ai été dans **l’impossibilité de retrouver les variables qui furent recodées et l’horreur a été de refaire tous les recodages**, puis de refaire tous les tableaux avant de pouvoir refaire l’analyse dans le sens attendu par les reviewers.
Mon plus grand raté est lorsqu’il s’est agi de **refaire un modèle de régression à la demande de reviewers**. Le drame est que j’ai été dans **l’impossibilité de retrouver les variables qui furent recodées et l’horreur a été de refaire tous les recodages**, puis de refaire tous les tableaux avant de pouvoir refaire l’analyse dans le sens attendu par les reviewers.
Ma plus grande déception a été de voir que les résultats initialement présentés ne furent guère différents des résultats produits après avoir retravaillé les données dans le sens indiqué par les reviewers.
Ma plus grande déception a été de voir que les résultats initialement présentés ne furent guère différents des résultats produits après avoir retravaillé les données dans le sens indiqué par les reviewers.
# Interview croisée de Valérie Orozco et Christophe Bontemps (économie)
#+TITLE: Interview croisée de Valérie Orozco et Christophe Bontemps
#+Date: <déc 2019>
#+Author: Valérie Orozco et Christophe Bontemps
#+LANGUAGE: fr
### Présentez-vous : votre identité, votre domaine de recherche et vos centres d’intérêts scientifiques hors discipline (ex. R, Python, etc.) ?
** Présentez-vous : votre identité, votre domaine de recherche et vos centres d’intérêts scientifiques hors discipline (ex. R, Python, etc.) ?
Nous travaillons à la croisée de deux mondes: celui des **mathématiques (statistique)** et celui de l’**économie**, en particulier l’économie de l’alimentation et de l’environnement.
Nous travaillons à la croisée de deux mondes: celui des **mathématiques (statistique)** et celui de l’**économie**, en particulier l’économie de l’alimentation et de l’environnement.
En tant qu’ingénieurs-économètres, nous sommes appelés à collaborer sur des projets scientifiques, et agissons comme des interfaces entre ces deux mondes. Nous devons donc interpréter les notions économiques très formalisées pour les tester en pratique sur des jeux de données.
En tant qu’ingénieurs-économètres, nous sommes appelés à collaborer sur des projets scientifiques, et agissons comme des interfaces entre ces deux mondes. Nous devons donc interpréter les notions économiques très formalisées pour les tester en pratique sur des jeux de données.
Nous utilisons donc les outils des deux mondes, nous privilégions l’écriture d’articles en LaTeX et l’utilisation de R, mais nous utilisons également Stata, logiciel propriétaire incontournable en économétrie.
Nous utilisons donc les outils des deux mondes, nous privilégions l’écriture d’articles en LaTeX et l’utilisation de R, mais nous utilisons également Stata, logiciel propriétaire incontournable en économétrie.
### Comment se traduit la question de la reproductibilité et de la transparence dans votre domaine de recherche ?
** Comment se traduit la question de la reproductibilité et de la transparence dans votre domaine de recherche ?
Les recherches auxquelles nous participons comportent de **fortes parties empiriques**. Le plus souvent, un problème est observé et soulève des questions. Les comportements des acteurs (entreprises, consommateurs, décideurs) sont modélisés à l’aide de la théorie économique, puis une hypothèse est émise qui viendrait expliquer le phénomène observé.
Les recherches auxquelles nous participons comportent de **fortes parties empiriques**. Le plus souvent, un problème est observé et soulève des questions. Les comportements des acteurs (entreprises, consommateurs, décideurs) sont modélisés à l’aide de la théorie économique, puis une hypothèse est émise qui viendrait expliquer le phénomène observé.
Cette hypothèse est ensuite confrontée aux données. Si l’hypothèse est vérifiée sur un jeu de données pertinent, des recommandations peuvent être émises et il s’agit là d’un résultat.
Cette hypothèse est ensuite confrontée aux données. Si l’hypothèse est vérifiée sur un jeu de données pertinent, des recommandations peuvent être émises et il s’agit là d’un résultat.
...
@@ -24,9 +26,7 @@ Dans le premier cas, la chaîne de traitements assure que le résultat est repro
...
@@ -24,9 +26,7 @@ Dans le premier cas, la chaîne de traitements assure que le résultat est repro
Le terme « robuste » renvoie plutôt à ce 2ème cas. D’ailleurs, souvent, pour une question de recherche donnée, on teste la robustesse des résultats obtenus soit en testant le modèle sur un autre jeu de données, soit en modifiant une hypothèse du modèle.
Le terme « robuste » renvoie plutôt à ce 2ème cas. D’ailleurs, souvent, pour une question de recherche donnée, on teste la robustesse des résultats obtenus soit en testant le modèle sur un autre jeu de données, soit en modifiant une hypothèse du modèle.
** Quelles sont vos pratiques de recherche pour qu'elles soient plus reproductibles et plus transparentes ? (quand vous travaillez seul, quand vous travaillez en groupe)
### Quelles sont vos pratiques de recherche pour qu'elles soient plus reproductibles et plus transparentes ? (quand vous travaillez seul, quand vous travaillez en groupe)
Le plus important, pour nous, est de **maîtriser l'enchaînement des tâches et des programmes (le workflow)**. Évidemment, cela est plus simple lorsque nous sommes seuls en charge du code et des données (cela signifie que nous collaborons avec d’autres chercheurs, mais que nous sommes « responsables » des codes et données).
Le plus important, pour nous, est de **maîtriser l'enchaînement des tâches et des programmes (le workflow)**. Évidemment, cela est plus simple lorsque nous sommes seuls en charge du code et des données (cela signifie que nous collaborons avec d’autres chercheurs, mais que nous sommes « responsables » des codes et données).
Nous utilisons alors des outils simples et une organisation structurée en scripts maîtres et sous-programmes.
Nous utilisons alors des outils simples et une organisation structurée en scripts maîtres et sous-programmes.
...
@@ -34,8 +34,7 @@ Nous utilisons aussi des makefile et des outils de représentation du workflow c
...
@@ -34,8 +34,7 @@ Nous utilisons aussi des makefile et des outils de représentation du workflow c
Évidemment, si le projet et le chercheur s’y prêtent, nous utilisons R (et les notebooks/Markdown) et Git.
Évidemment, si le projet et le chercheur s’y prêtent, nous utilisons R (et les notebooks/Markdown) et Git.
Pour l’écriture d’articles, nous privilégions Overleaf pour une écriture collaborative et Zotero (ou bibTex/JabRef) pour le partage de bibliographies.
Pour l’écriture d’articles, nous privilégions Overleaf pour une écriture collaborative et Zotero (ou bibTex/JabRef) pour le partage de bibliographies.
### Quels outils utilisez-vous ?
** Quels outils utilisez-vous ?
Même si nous pouvons mettre en avant les atouts d’un logiciel libre auprès de nos chercheurs, nous ne pouvons pas changer brutalement leurs pratiques.
Même si nous pouvons mettre en avant les atouts d’un logiciel libre auprès de nos chercheurs, nous ne pouvons pas changer brutalement leurs pratiques.
**En économie, nombreux sont ceux qui utilisent des logiciels propriétaires** (Stata, SAS, Matlab, Mathematica, Gams,…) même si l’utilisation de R se répand.
**En économie, nombreux sont ceux qui utilisent des logiciels propriétaires** (Stata, SAS, Matlab, Mathematica, Gams,…) même si l’utilisation de R se répand.
...
@@ -44,18 +43,15 @@ Même si nous pouvons mettre en avant les atouts d’un logiciel libre auprès d
...
@@ -44,18 +43,15 @@ Même si nous pouvons mettre en avant les atouts d’un logiciel libre auprès d
Lorsque nous utilisons le logiciel Stata, rien ne nous empêche de diffuser un code lisible, et structuré permettant de retrouver toutes les étapes et tous les résultats ! Certes, il faudra une licence Stata pour réutiliser ce code, mais ce n’est pas forcément très compliqué à comprendre ni à lire puisque le code est en format texte.
Lorsque nous utilisons le logiciel Stata, rien ne nous empêche de diffuser un code lisible, et structuré permettant de retrouver toutes les étapes et tous les résultats ! Certes, il faudra une licence Stata pour réutiliser ce code, mais ce n’est pas forcément très compliqué à comprendre ni à lire puisque le code est en format texte.
### Utilisez-vous des cahiers de notes, des outils de balisage ?
** Utilisez-vous des cahiers de notes, des outils de balisage ?
Nous essayons de **documenter le plus possible nos projets** (données, choix de modélisation, pistes abandonnées, hypothèses prises…) et d’améliorer nos pratiques d’échanges d’informations (notamment éviter les mails relatifs aux avancées des projets).
Nous essayons de **documenter le plus possible nos projets** (données, choix de modélisation, pistes abandonnées, hypothèses prises…) et d’améliorer nos pratiques d’échanges d’informations (notamment éviter les mails relatifs aux avancées des projets).
Nous utilisons par exemple des **outils de TMS (Tasks Management System)** comme Trello.
Nous utilisons par exemple des **outils de TMS (Tasks Management System)** comme Trello.
Concernant Markdown, il s’est clairement imposé dans nos pratiques surtout pour générer des documents reproductibles automatiquement à partir du code (dans R bien sûr, dans Stata également), mais aussi pour les notebooks Jupyter que nous avons testés.
Concernant Markdown, il s’est clairement imposé dans nos pratiques surtout pour générer des documents reproductibles automatiquement à partir du code (dans R bien sûr, dans Stata également), mais aussi pour les notebooks Jupyter que nous avons testés.
### Quels sont workflows, comment articulez-vous les différents outils que vous utilisez au quotidien ? Quelles étapes de préparation des données (coder, documenter) suivez-vous ?
** Quels sont workflows, comment articulez-vous les différents outils que vous utilisez au quotidien ? Quelles étapes de préparation des données (coder, documenter) suivez-vous ?
** Quelles bonnes pratiques de modélisation (packages, fonctions, etc.) avez-vous appris à mettre en oeuvre ? Comment assurez-vous le suivi des versions de vos scripts, de votre code, de vos textes, etc?
### Quelles bonnes pratiques de modélisation (packages, fonctions, etc.) avez-vous appris à mettre en oeuvre ? Comment assurez-vous le suivi des versions de vos scripts, de votre code, de vos textes, etc?
Il faudrait un article entier pour décrire tout cela et d’ailleurs nous en avons co-écrit un à paraître bientôt ! **Les données sont souvent des tables**, que l’on appariera parfois, mais la structure des données est souvent simple chez nous.
Il faudrait un article entier pour décrire tout cela et d’ailleurs nous en avons co-écrit un à paraître bientôt ! **Les données sont souvent des tables**, que l’on appariera parfois, mais la structure des données est souvent simple chez nous.
On a pris l'habitude d’une **structure de répertoires** bien claire, séparant données originales, programmes, données de travail, et documentation. Nous avons aussi des **conventions de nomenclature pour les fichiers et les variables**, ce qui simplifie la vie.
On a pris l'habitude d’une **structure de répertoires** bien claire, séparant données originales, programmes, données de travail, et documentation. Nous avons aussi des **conventions de nomenclature pour les fichiers et les variables**, ce qui simplifie la vie.
...
@@ -69,17 +65,15 @@ On est tout le temps en train de « penser automatique » notamment pour exporte
...
@@ -69,17 +65,15 @@ On est tout le temps en train de « penser automatique » notamment pour exporte
Concernant le partage de l’écriture du papier, Overleaf permet un suivi des versions (version payante). **Au final, c’est beaucoup de bon sens, un peu d’organisation et quelques bons outils** que l’on trouve en restant ouverts à de nouvelles pratiques - et fermés à des outils de type tableurs, MS-word etc. qui sont encore très utilisés en économie.
Concernant le partage de l’écriture du papier, Overleaf permet un suivi des versions (version payante). **Au final, c’est beaucoup de bon sens, un peu d’organisation et quelques bons outils** que l’on trouve en restant ouverts à de nouvelles pratiques - et fermés à des outils de type tableurs, MS-word etc. qui sont encore très utilisés en économie.
### Qu'est-ce que ça a changé dans votre pratique de la publication?
** Qu'est-ce que ça a changé dans votre pratique de la publication?
Cela a surtout changé **notre façon de travailler avec les chercheurs**. À force de montrer des exemples - et des contre-exemples dramatiques - certains chercheurs nous ont laissé la maîtrise des travaux empiriques.
Cela a surtout changé **notre façon de travailler avec les chercheurs**. À force de montrer des exemples - et des contre-exemples dramatiques - certains chercheurs nous ont laissé la maîtrise des travaux empiriques.
Quel bonheur que de lancer un programme et de voir l’écran clignoter, des graphiques s'afficher furtivement, des lignes défiler dans la console pour enfin retrouver l'ensemble des outputs bien rangés dans leurs dossiers !
** bonheur que de lancer un programme et de voir l’écran clignoter, des graphiques s'afficher furtivement, des lignes défiler dans la console pour enfin retrouver l'ensemble des outputs bien rangés dans leurs dossiers !
Nos pratiques ont évoluées au fur et à mesure, en utilisant de nouveaux outils et en maîtrisant l'ensemble du workflow. Après, ce ne sont que des expériences sur des outils de plus en plus performants et utiles, du bon sens et l’envie permanente d’améliorer nos pratiques.
Nos pratiques ont évoluées au fur et à mesure, en utilisant de nouveaux outils et en maîtrisant l'ensemble du workflow. Après, ce ne sont que des expériences sur des outils de plus en plus performants et utiles, du bon sens et l’envie permanente d’améliorer nos pratiques.
### À quel moment vous avez été sensible à cette question ? Quels conseils donneriez-vous aux jeunes étudiants ? (Et aux moins jeunes)?
** À quel moment vous avez été sensible à cette question ? Quels conseils donneriez-vous aux jeunes étudiants ? (Et aux moins jeunes)?
### Quels seraient vos conseils en termes de formation et d’accompagnement des chercheurs pour une recherche plus transparente ? Quels sont les défis actuels dans votre domaine ?
** Quels seraient vos conseils en termes de formation et d’accompagnement des chercheurs pour une recherche plus transparente ? Quels sont les défis actuels dans votre domaine ?
Assez tôt (2005) puisque nous manipulons des données que nous achetons régulièrement (une fois par an) pour lesquelles de nouvelles versions peuvent nous être envoyées. **Il a donc été nécessaire de penser automatisation très vite**. Travaillant à 2 ingénieurs sur ces données, il a été nécessaire de penser reproductibilité sur nos 2 PCs puis sur n’importe quel autre.
Assez tôt (2005) puisque nous manipulons des données que nous achetons régulièrement (une fois par an) pour lesquelles de nouvelles versions peuvent nous être envoyées. **Il a donc été nécessaire de penser automatisation très vite**. Travaillant à 2 ingénieurs sur ces données, il a été nécessaire de penser reproductibilité sur nos 2 PCs puis sur n’importe quel autre.
Bref, ça a été progressif et le partage de nos pratiques, la confrontation de nos idées et l’évolution des outils ont été de vrais moteurs.
Bref, ça a été progressif et le partage de nos pratiques, la confrontation de nos idées et l’évolution des outils ont été de vrais moteurs.
...
@@ -92,8 +86,7 @@ Les journaux ont aussi un rôle à jouer en montant en exigences concernant la v
...
@@ -92,8 +86,7 @@ Les journaux ont aussi un rôle à jouer en montant en exigences concernant la v
Évidemment, le point crucial reste celui des données confidentielles, mais avec de bonnes métadonnées, un DOI et [l’arrivée récente de CASCAD, une plateforme de certification de la reproductibilité](https://www.cascad.tech/), la reproductibilité avance là aussi.
Évidemment, le point crucial reste celui des données confidentielles, mais avec de bonnes métadonnées, un DOI et [l’arrivée récente de CASCAD, une plateforme de certification de la reproductibilité](https://www.cascad.tech/), la reproductibilité avance là aussi.
### Pourriez-vous décrire une histoire d'horreur ? i.e. un gros raté (ex. : données non disponibles ; impossibilité de reproduire une figure en obtenant le même résultat, impossibilité de fournir des données à un referee, etc.)
** Pourriez-vous décrire une histoire d'horreur ? i.e. un gros raté (ex. : données non disponibles ; impossibilité de reproduire une figure en obtenant le même résultat, impossibilité de fournir des données à un referee, etc.)
**Nous vivons dans un film d’horreur !** “Nos” chercheurs, à de rares exceptions près, ne sont pas des programmeurs et n’ont pas (encore) de trop fortes incitations à publier et diffuser leurs programmes.
**Nous vivons dans un film d’horreur !** “Nos” chercheurs, à de rares exceptions près, ne sont pas des programmeurs et n’ont pas (encore) de trop fortes incitations à publier et diffuser leurs programmes.
En outre, nos données étant très souvent confidentielles, les revues, à de très rares exceptions près, ne demandent pas à tester les programmes même sur des données fictives.
En outre, nos données étant très souvent confidentielles, les revues, à de très rares exceptions près, ne demandent pas à tester les programmes même sur des données fictives.
...
@@ -102,8 +95,7 @@ C’est donc parfois l’horreur absolue lorsqu’un referee demande à refaire
...
@@ -102,8 +95,7 @@ C’est donc parfois l’horreur absolue lorsqu’un referee demande à refaire
Il faut dire aussi, que **les estimations économétriques reposent souvent sur la maximisation d’une vraisemblance**, une fonction souvent complexe à maximiser et il arrive qu’un changement de version de logiciel (Stata par exemple, mais une mise à jour d’un package R ou un package R obsolète peuvent aussi réserver de belles surprises) vienne perturber la délicate mécanique mise au point.
Il faut dire aussi, que **les estimations économétriques reposent souvent sur la maximisation d’une vraisemblance**, une fonction souvent complexe à maximiser et il arrive qu’un changement de version de logiciel (Stata par exemple, mais une mise à jour d’un package R ou un package R obsolète peuvent aussi réserver de belles surprises) vienne perturber la délicate mécanique mise au point.
### Pourriez-vous donner des cas concrets où des pratiques visant à rendre votre recherche reproductible et transparente vous ont aidé à résoudre un problème ?
** Pourriez-vous donner des cas concrets où des pratiques visant à rendre votre recherche reproductible et transparente vous ont aidé à résoudre un problème ?
**Nous avons probablement fait de la recherche reproductible sans le savoir, à nos débuts, en 2003**. Pour un programme de recherche sur l'essor des marques de distributeurs (MDD), nous avons été amenés à répliquer une analyse économétrique effectuée sur une catégorie de produit (les yaourts),sur quelques autres.
**Nous avons probablement fait de la recherche reproductible sans le savoir, à nos débuts, en 2003**. Pour un programme de recherche sur l'essor des marques de distributeurs (MDD), nous avons été amenés à répliquer une analyse économétrique effectuée sur une catégorie de produit (les yaourts),sur quelques autres.
Nous avons donc commencé à mettre en place un workflow, puis des sorties automatiques en LaTeX et finalement avons construit une “moulinette” qui prenait n’importe quel produit alimentaire et produisait automatique un document pdf (via LaTeX) avec l’analyse économétrique complète. Le tout était programmé sous Stata, une prouesse !
Nous avons donc commencé à mettre en place un workflow, puis des sorties automatiques en LaTeX et finalement avons construit une “moulinette” qui prenait n’importe quel produit alimentaire et produisait automatique un document pdf (via LaTeX) avec l’analyse économétrique complète. Le tout était programmé sous Stata, une prouesse !
...
@@ -112,8 +104,7 @@ Ce processus nous a permis d’envisager l’écriture d’un premier article, s
...
@@ -112,8 +104,7 @@ Ce processus nous a permis d’envisager l’écriture d’un premier article, s
Un autre exemple très positif est celui récent d’un papier à paraître : **avoir anticipé la demande de la revue de fournir les codes et données et d’avoir ainsi été capable de les fournir en 2 jours (codes propres et commentés, données, workflow documenté, un seul programme à lancer générant une page web avec toutes les sorties du papier)**.
Un autre exemple très positif est celui récent d’un papier à paraître : **avoir anticipé la demande de la revue de fournir les codes et données et d’avoir ainsi été capable de les fournir en 2 jours (codes propres et commentés, données, workflow documenté, un seul programme à lancer générant une page web avec toutes les sorties du papier)**.
### Quelle question souhaiteriez-vous ajouter à cette interview? Qu’auriez-vous envie d’évoquer ?
** Quelle question souhaiteriez-vous ajouter à cette interview? Qu’auriez-vous envie d’évoquer ?
Il n’est **jamais trop tard pour changer ses pratiques** et **s’organiser différemment**. On nous reproche souvent de vouloir compliquer une organisation bien établie qui a fait ses preuves (de non-reproductibilité).
Il n’est **jamais trop tard pour changer ses pratiques** et **s’organiser différemment**. On nous reproche souvent de vouloir compliquer une organisation bien établie qui a fait ses preuves (de non-reproductibilité).
**Pour reprendre des notions économiques, pour certains, les coûts semblent nettement supérieurs aux bénéfices. Cela ne nous semble pas vrai.** Certes tout changement à un coût, surtout à court terme, mais nous restons persuadés que **les bénéfices individuels et collectifs sont grands et que ce coût peut être minime**.
**Pour reprendre des notions économiques, pour certains, les coûts semblent nettement supérieurs aux bénéfices. Cela ne nous semble pas vrai.** Certes tout changement à un coût, surtout à court terme, mais nous restons persuadés que **les bénéfices individuels et collectifs sont grands et que ce coût peut être minime**.
...
@@ -122,3 +113,4 @@ Il y a espoir que ce discours soit donc entendu par des économistes … par con
...
@@ -122,3 +113,4 @@ Il y a espoir que ce discours soit donc entendu par des économistes … par con