Intéressons-nous aujourd’hui à une tendance émergente dans le monde de la « bibliothéconomie des données » : la reproductibilité. En gros, il s’agit du fait de pouvoir reproduire les expériences et/ou les observations faites par des chercheurs, pour pouvoir d’une part vérifier qu’elles sont justes, mais aussi et surtout pour aller plus loin dans le travail de recherche à partir de ces données. Cela suppose notamment que les données en question soient accessibles bien sûr, mais aussi qu’elles le soient dans des formats normalisés pour pouvoir être manipulées. Et que les outils utilisés pour analyser ces données soient accessibles également.
Cela semble évident dit comme ça, mais c’est loin d’être le cas : depuis le milieu des années 2000, plusieurs études ont montré qu’entre la moitié et les trois quarts, selon les disciplines, des expériences publiées ne sont pas reproductibles, à tel point que l’on a parlé d’une « crise de la reproductibilité » scientifique. La psychologie et la médecine seraient les domaines les plus touchés par le problème.
Pour y remédier, les différents acteurs de la recherche ont mis en place différents outils et démarches : les registered reports (on détaille dans un article spécifique, avant le démarrage de la collecte des données, le processus de recherche qui va être appliqué, si celui-ci est validé, on poursuit), l’analyse collaborative des résultats (pour éviter les biais d’interprétation par un chercheur isolé), un effort sur la formation des chercheurs aux outils statistiques et d’analyse…
La New-York University elle, s’est dotée, en plus, d’une bibliothécaire chargée de la gestion des données de recherche et de la reproductibilité (« Librarian for research data management and reproductibility »). Dans l’article « Reproductibility librarianship » de la revue Collaborative librarianship, Vicky Steeves nous détaille ses fonctions (je traduis et résume) :
- Formation des enseignants-chercheurs et des étudiants avancés sur la gestion des données de recherche, sur la curation de données, sur les critères à remplir pour être en conformité avec les obligations de diffusion ouverte des organismes financeurs. C’est un travail mené en collaboration avec le ou la bibliothécaire chargé de la gestion des données (« Librarian for RDM »), qui aborde systématiquement la reproductibilité mais aussi les questions d’éthique de la recherche. Ces questions font d’ailleurs partie de la formation obligatoire sur l’intégrité scientifique (« Responsible conduct of research« ) que doivent suivre les lauréats des bourses de la NSF et des NIH.
- Rayonnement : programmation d’événements mettant en avant les questions de gestion des données de recherche (y compris celle de la reproductibilité), et s’articulant avec l’évolution des besoins des laboratoires selon les disciplines. Ce travail est conduit en étroite collaboration avec les bibliothécaires de chaque discipline (« liaison librarians »), qui connaissent les projets de recherche et le type de données que celles-ci sont susceptibles de générer. Cette collaboration permet d’améliorer l’offre de services à la recherche dans son ensemble. Les projets sont diffusés en libre accès, et présentés lors de différentes manifestations professionnelles nationales.
- Support et création d’outils : veille sur les outils et techniques d’aide à la reproductibilité, et diffusion de celle-ci auprès des publics concernés, participation à la création d’une infrastructure de stockage et de gestion des données pour les enseignants-chercheurs de l’établissement, développement de méthodes et de workflows pour la ré-utilisation et la conservation de jeux de données. L’outil open source développé par la NYU, ReproZip, permet d’enregistrer les données, les paramètres et l’environnement logiciel avec lesquels la recherche a été faite, et de les « rejouer » sur une autre machine, quel que soit l’environnement de travail. Il permet également de modifier les paramètres pour faire avancer les hypothèses de recherche. C’est un moyen très parlant pour sensibiliser chercheurs et étudiants à l’intérêt de la reproductibilité de la recherche.
Un poste intéressant, qui montre une volonté d’intégration de la gestion des données à toutes les étapes du cycle des projets de recherche, en s’appuyant sur les compétences des bibliothécaires. Et qui demande, comme finalement souvent dans le domaine de la science ouverte, autant sinon plus de compétences relationnelles, pédagogiques et de gestion de projet que de compétences réellement techniques. Or ces compétences, normalement, nous les avons : c’est plutôt rassurant en terme d’évolution des métiers, je trouve.
[Photo : Roel Wijnants]