La reproductibilité, une corde à ajouter à l’arc des bibliothécaires ?

4048391932_b09fe9569a_oIntéressons-nous aujourd’hui à une tendance émergente dans le monde de la « bibliothéconomie des données » : la reproductibilité. En gros, il s’agit du fait de pouvoir reproduire les expériences et/ou les observations faites par des chercheurs, pour pouvoir d’une part vérifier qu’elles sont justes, mais aussi et surtout pour aller plus loin dans le travail de recherche à partir de ces données. Cela suppose notamment que les données en question soient accessibles bien sûr, mais aussi qu’elles le soient dans des formats normalisés pour pouvoir être manipulées. Et que les outils utilisés pour analyser ces données soient accessibles également.
Cela semble évident dit comme ça, mais c’est loin d’être le cas : depuis le milieu des années 2000, plusieurs études ont montré qu’entre la moitié et les trois quarts, selon les disciplines, des expériences publiées ne sont pas reproductibles, à tel point que l’on a parlé d’une « crise de la reproductibilité » scientifique. La psychologie et la médecine seraient les domaines les plus touchés par le problème.
Pour y remédier, les différents acteurs de la recherche ont mis en place différents outils et démarches : les registered reports (on détaille dans un article spécifique, avant le démarrage de la collecte des données, le processus de recherche qui va être appliqué, si celui-ci est validé, on poursuit), l’analyse collaborative des résultats (pour éviter les biais d’interprétation par un chercheur isolé), un effort sur la formation des chercheurs aux outils statistiques et d’analyse…
La New-York University elle, s’est dotée, en plus, d’une bibliothécaire chargée de la gestion des données de recherche et de la reproductibilité (« Librarian for research data management and reproductibility »). Dans l’article « Reproductibility librarianship » de la revue Collaborative librarianship, Vicky Steeves nous détaille ses fonctions (je traduis et résume) :

  • Formation des enseignants-chercheurs et des étudiants avancés sur la gestion des données de recherche, sur la curation de données, sur les critères à remplir pour être en conformité avec les obligations de diffusion ouverte des organismes financeurs. C’est un travail mené en collaboration avec le ou la bibliothécaire chargé de la gestion des données (« Librarian for RDM »), qui aborde systématiquement la reproductibilité mais aussi les questions d’éthique de la recherche. Ces questions font d’ailleurs partie de la formation obligatoire sur l’intégrité scientifique (« Responsible conduct of research« ) que doivent suivre les lauréats des bourses de la NSF et des NIH.
  • Rayonnement : programmation d’événements mettant en avant les questions de gestion des données de recherche (y compris celle de la reproductibilité), et s’articulant avec l’évolution des besoins des laboratoires selon les disciplines. Ce travail est conduit en étroite collaboration avec les bibliothécaires de chaque discipline (« liaison librarians »), qui connaissent les projets de recherche et le type de données que celles-ci sont susceptibles de générer. Cette collaboration permet d’améliorer l’offre de services à la recherche dans son ensemble. Les projets sont diffusés en libre accès, et présentés lors de différentes manifestations professionnelles nationales.
  • Support et création d’outils : veille sur les outils et techniques d’aide à la reproductibilité, et diffusion de celle-ci auprès des publics concernés, participation à la création d’une infrastructure de stockage et de gestion des données pour les enseignants-chercheurs de l’établissement, développement de méthodes et de workflows pour la ré-utilisation et la conservation de jeux de données. L’outil open source développé par la NYU, ReproZip, permet d’enregistrer les données, les paramètres et l’environnement logiciel avec lesquels la recherche a été faite, et de les « rejouer » sur une autre machine, quel que soit l’environnement de travail. Il permet également de modifier les paramètres pour faire avancer les hypothèses de recherche. C’est un moyen très parlant pour sensibiliser chercheurs et étudiants à l’intérêt de la reproductibilité de la recherche.

Un poste intéressant, qui montre une volonté d’intégration de la gestion des données à toutes les étapes du cycle des projets de recherche, en s’appuyant sur les compétences des bibliothécaires. Et qui demande, comme finalement souvent dans le domaine de la science ouverte,  autant sinon plus de compétences relationnelles, pédagogiques et de gestion de projet que de compétences réellement techniques. Or ces compétences, normalement, nous les avons : c’est plutôt rassurant en terme d’évolution des métiers, je trouve.
[Photo : Roel Wijnants]

Publicité

2 Réponses to “La reproductibilité, une corde à ajouter à l’arc des bibliothécaires ?”


  1. 1 Mathieu Saby (@27point7) 07/11/2017 à 12:09

    Merci pour ce billet.
    A noter : la démarche de l’université de New York n’est pas isolée. Voir par exemple le travail de Shirley Zhao, « data science librarian » à l’université d’Utah, et informaticienne de formation http://shirl0207.wordpress.com/
    Elle a organisé une formation de 2,5 jours récemment sur le sujet https://github.com/UUDeCART/reproducible_science en reprenant justement certains contenus de Vicky Steeves.

    La boite à outils de base de la science reproductible : versionning (git, github), écriture en markdown, langages de script (R et Python), carnets interactifs (Jupyter…)… Au delà des outils cela suppose toute une démarche.

    La plateforme de plus en plus utilisée par ce type de projet est l’Open Science Framework https://osf.io/ du Center for Open Science (organisation financée par des fondations américaines). Ex en psychologie: https://osf.io/ezcuj/
    Ce service pourrait être comparé (de très loin) à ce que propose Huma-Num, mais n’est pas destiné spécialement aux SHS.

    De nombreuses universités US ont noué des partenariats avec le COS et proposent une interface dédiée à leurs chercheurs. C’est le cas de l’université de Vicky Steeves : http://osf.nyu.edu. Vicky est donc très impliquée dans la promotion de ces outils. cf https://osf.io/ubzve/ et https://osf.io/bs23x/

    A ma connaissance il y a très peu d’universités non américaines liées au COS, mais il y en a paraît-il en Allemagne. Il serait intéressant de savoir si des universités françaises pourraient en profiter (mais ça peut poser des questions juridiques…). Ces services peuvent aussi être utilisés par des chercheurs individuels, sans prise en charge par leur institution.

    Mathieu Saby

  2. 2 Sylvie Vullioud 06/11/2017 à 09:35

    Bonjour,
    Avant de parler de la reproductibilité des « autres », les bibliothécaires devraient travailler sur la reproductibilité, la normalisation et l’accessibilité des données des coûts de licences, et des APCs pour le Gold-OA et Hybride-OA! A lire absolument: https://blog.okfn.org/2017/10/24/understanding-the-costs-of-scholarly-publishing-why-we-need-a-public-data-infrastructure-of-publishing-costs/


Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s




novembre 2017
L M M J V S D
 12345
6789101112
13141516171819
20212223242526
27282930  

Archives

Licence

Licence Creative Commons
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.

%d blogueurs aiment cette page :