data management | Marlène's corner

4048391932_b09fe9569a_o Intéressons-nous aujourd’hui à une tendance émergente dans le monde de la « bibliothéconomie des données » : la reproductibilité. En gros, il s’agit du fait de pouvoir reproduire les expériences et/ou les observations faites par des chercheurs, pour pouvoir d’une part vérifier qu’elles sont justes, mais aussi et surtout pour aller plus loin dans le travail de recherche à partir de ces données. Cela suppose notamment que les données en question soient accessibles bien sûr, mais aussi qu’elles le soient dans des formats normalisés pour pouvoir être manipulées. Et que les outils utilisés pour analyser ces données soient accessibles également.
Cela semble évident dit comme ça, mais c’est loin d’être le cas : depuis le milieu des années 2000, plusieurs études ont montré qu’entre la moitié et les trois quarts, selon les disciplines, des expériences publiées ne sont pas reproductibles, à tel point que l’on a parlé d’une « crise de la reproductibilité » scientifique. La psychologie et la médecine seraient les domaines les plus touchés par le problème.
Pour y remédier, les différents acteurs de la recherche ont mis en place différents outils et démarches : les registered reports (on détaille dans un article spécifique, avant le démarrage de la collecte des données, le processus de recherche qui va être appliqué, si celui-ci est validé, on poursuit), l’analyse collaborative des résultats (pour éviter les biais d’interprétation par un chercheur isolé), un effort sur la formation des chercheurs aux outils statistiques et d’analyse…
La New-York University elle, s’est dotée, en plus, d’une bibliothécaire chargée de la gestion des données de recherche et de la reproductibilité (« Librarian for research data management and reproductibility »). Dans l’article « Reproductibility librarianship » de la revue Collaborative librarianship, Vicky Steeves nous détaille ses fonctions (je traduis et résume) :

Formation des enseignants-chercheurs et des étudiants avancés sur la gestion des données de recherche, sur la curation de données, sur les critères à remplir pour être en conformité avec les obligations de diffusion ouverte des organismes financeurs. C’est un travail mené en collaboration avec le ou la bibliothécaire chargé de la gestion des données (« Librarian for RDM »), qui aborde systématiquement la reproductibilité mais aussi les questions d’éthique de la recherche. Ces questions font d’ailleurs partie de la formation obligatoire sur l’intégrité scientifique (« Responsible conduct of research« ) que doivent suivre les lauréats des bourses de la NSF et des NIH.
Rayonnement : programmation d’événements mettant en avant les questions de gestion des données de recherche (y compris celle de la reproductibilité), et s’articulant avec l’évolution des besoins des laboratoires selon les disciplines. Ce travail est conduit en étroite collaboration avec les bibliothécaires de chaque discipline (« liaison librarians »), qui connaissent les projets de recherche et le type de données que celles-ci sont susceptibles de générer. Cette collaboration permet d’améliorer l’offre de services à la recherche dans son ensemble. Les projets sont diffusés en libre accès, et présentés lors de différentes manifestations professionnelles nationales.
Support et création d’outils : veille sur les outils et techniques d’aide à la reproductibilité, et diffusion de celle-ci auprès des publics concernés, participation à la création d’une infrastructure de stockage et de gestion des données pour les enseignants-chercheurs de l’établissement, développement de méthodes et de workflows pour la ré-utilisation et la conservation de jeux de données. L’outil open source développé par la NYU, ReproZip, permet d’enregistrer les données, les paramètres et l’environnement logiciel avec lesquels la recherche a été faite, et de les « rejouer » sur une autre machine, quel que soit l’environnement de travail. Il permet également de modifier les paramètres pour faire avancer les hypothèses de recherche. C’est un moyen très parlant pour sensibiliser chercheurs et étudiants à l’intérêt de la reproductibilité de la recherche.

Un poste intéressant, qui montre une volonté d’intégration de la gestion des données à toutes les étapes du cycle des projets de recherche, en s’appuyant sur les compétences des bibliothécaires. Et qui demande, comme finalement souvent dans le domaine de la science ouverte, autant sinon plus de compétences relationnelles, pédagogiques et de gestion de projet que de compétences réellement techniques. Or ces compétences, normalement, nous les avons : c’est plutôt rassurant en terme d’évolution des métiers, je trouve.
[Photo : Roel Wijnants]

J’ai eu l’opportunité, dans le cadre de mon stage chez Openedition, d’assister fin juin au congrès annuel de Liber à Münich, dont le thème était cette année : « Research information infrastructures and the future role of libraries ». Le programme et les supports des interventions sont en ligne sur le site du congrès, inutile donc de tenter un compte-rendu exhaustif de ces 3 jours, d’autant qu’il n’était pas possible d’assister à tous les ateliers ; voici juste quelques aperçus.

Open access
Même si la route est encore longue, la marche vers l’Open Access continue ; le rapport Finch et les prises de position multiples qui s’en sont suivies amènent le secteur éditorial à évoluer. Plusieurs initiatives ont été présentées, concernant essentiellement les SHS :
– Openedition, qu’on ne présente plus, en France en tout cas : Ses presque 400 revues, ses 600 carnets de recherche, ses 20000 annonces d’événements, ses bientôt 1000 livres… et ses 3 millions de visites par mois en provenance de tous les pays, preuve s’il en était que les SHS suscitent l’intérêt au delà du monde académique francophone.
– Social Sciences directory : L’idée qui sous-tend ce projet récent de publication, c’est de garder les bons côtés de l’édition scientifique traditionnelle (le contrôle de la qualité, l’indépendance éditoriale, la structuration des articles…) et de leur ajouter les bénéfices de l’édition numérique (pagination illimitée, réduction des délais de publication, liens vers des données additionnelles…). Côté modèle économique c’est du Gold auteur-payeur, l’institution paye des frais de publication (Article Processing Charges, APCs) annuels pour ses chercheurs, ou bien ceux-ci payent des APCs à l’article. La différence avec les autres offres éditoriales de ce type, c’est la volonté affichée d’arriver à un modèle durable sur le long terme, donc avec des coûts a priori plus bas que ceux généralement constatés : on est à 150$ par article, au lieu de 3000$. Jusqu’ici 3 numéros sont parus, soit 9 articles, et une version pour les humanités est déjà prévue.
– Directory of OA Books : Calqué sur le modèle du DOAJ, le DOAB vise à améliorer la visibilité des livres en open access, en mettant l’accent sur la qualité des contenus publiés, qui doivent obéir à des critères académiques de validation (peer review). Il est maintenu par l’OAPEN Foundation, un projet de développement de l’édition de livres en open access financé par l’Union Européenne, qui rassemble des presses universitaires d’Europe (surtout) du nord.
– Knowledge Unlatched : Un projet plutôt intéressant, qui propose de faire financer la publication d’ouvrages en libre accès par les bibliothèques : elles partagent les coûts fixes de publication (sélection, peer review, relecture…) – sachant qu’il faut compter dans les 10 000 à 15 000 $ en moyenne pour un ouvrage universitaire – et les contenus sont ensuite accessibles librement par tous. Les éditeurs restent libres de vendre des versions imprimées ou dans d’autres formats électroniques. Une commission est chargée de choisir les titres sélectionnés par les bibliothèques membres du consortium en cours de constitution parmi les titres proposés par les éditeurs partenaires du projet ; il s’agit pour l’instant uniquement de livres à paraître, mais il n’est pas exclut que le projet s’intéresse ultérieurement à des ouvrages déjà parus (et donc déjà amortis). Le succès de l’opération réside dans la participation d’un grand nombre de bibliothèques, pour faire diminuer la contribution de chacun. C’est là le vrai challenge : les bibliothèques sont-elles prêtes à faire ce type d’investissement ? (et en ont-elles les moyens ?)
– MedOAnet : Dans le cadre de ce projet européen de suivi des stratégies et politiques en faveur de l’Open Access dans les pays de l’Europe méditerranéenne a été menée une étude auprès des éditeurs (publics et privés), afin d’avoir une vue de leur politique vis à vis de l’open access. On leur a posé des questions assez précises sur leurs politiques en matière de transfert de copyright, d’auto-archivage, sur la version de dépôt autorisée, sur la présence d’embargos. Il en ressort que les éditeurs ayant répondu seraient plutôt favorables à la diffusion en open access (forts taux d’acceptation du dépôt dans des archives ouvertes, peu d’exigences de transfert exclusif des droits de diffusion). Ce résultat est néanmoins à pondérer au vu du taux de réponse (12%), qui permet difficilement, à mon sens, de tirer des conclusions très probantes de l’enquête. Il serait intéressant de la reconduire, en en faisant davantage de promotion : cela sera-t-il possible, sachant que le projet n’est financé que jusqu’à fin 2013 ? Et que les financements vont généralement aux nouveaux projets plutôt qu’au suivi de projets existants ?
[Ce n’est pas directement le sujet de ce billet ni de ce congrès, mais il me semble cependant que c’est une vraie question en ce qui concerne le financement de l’open access : on entend beaucoup parler de « durabilité », de viabilité (‘ »sustainability ») comme d’un Graal à atteindre, mais on continue à ne donner que des enveloppes d’impulsion – comment espérer à ce compte là arriver à des stratégies à long terme ? Bref, fin de la parenthèse.]

Data data data
On a beaucoup entendu parler de gestion des données de la recherche (« research data management ») : face au « data deluge » qui se profile, par exemple avec l’obligation de mise en place de plans de gestion des données (« RDM plans ») pour les agences fédérales américaines (cf la directive de l’OSTP), les bibliothèques doivent s’adapter et intégrer la gestion des données de recherche à leurs missions, voire au coeur de leurs missions. Les recommandations pour plus d’ouverture des résultats de la recherche qui se sont multipliées au cours des derniers mois s’étendent aux données de la recherche, qui doivent être ouvertes par défaut. Cette ouverture est garante d’une science plus intègre (moins de fraude), plus économique (réplicabilité de la recherche), accessible au plus grand nombre (« citizen science »)…
La gestion de ces données soulève bien des questions, notamment celle de leur archivage (quelle durée ? quels formats ? quels moyens ?), et, en corollaire, celle des coûts, qui demeure la grande inconnue : si ceux-ci peuvent être financés par les bourses et autres financements des projets de recherche au départ, la conservation des données à long-terme a aussi un coût qui doit être supporté, vraisemblablement par les institutions. Par ailleurs, vue la masse de données produites, il y a nécessité de mutualiser les outils et de partager les infrastructures de stockage et d’accès aux informations ; ce serait particulièrement pertinent pour les projets les plus modestes (les « gros » projets comprennent généralement un volet spécifique aux données et à leur gestion). Dans ce contexte, les bibliothèques pourraient se positionner comme services de publication de données institutionnelles : en apportant de l’assistance aux chercheurs dans la mise en place de « plan de gestion des données », en participant à la structuration des formats de données, en travaillant sur les métriques autour des données…
Quelques initiatives à suivre :
– Journals Research Data policy bank (JoRD) : Un projet du JISC, piloté par la responsable de Sherpa/Romeo, qui examine la faisabilité d’un service centralisé de recensement des politiques des revues concernant les données de recherche. L’étude montre que la moitié des revues affichent des politiques en la matière, mais que les 3/4 de celles-ci sont floues (manque de standardisation, incomplétude…)
– Elixir : Un projet européen d’infrastructure pour le stockage et le traitement des données en sciences de la vie, mené par la Royal Society.
– La ligue européenne des universités de recherche (LERU) travaille, avec LIBER, sur ces questions, la rédaction d’une feuille de route sur les données de recherche est en cours.

Une statue perplexe dans le hall de la Bayerische Staats Bibliothek

Problème de casting ?
Ca a été clairement dit par l’un des intervenants (G. Boulton, ppt) : « Libraries do the wrong things, employ the wrong people ». Pour gérer toutes ces données, les bibliothèques doivent s’équiper de « data scientists », de « data managers ». Problème : où les trouver ? Il y a un vrai problème de manque de compétences dans la profession actuellement, qui attire toujours peu de profils scientifiques (en sciences « dures ») – or un data scientist, c’est quelqu’un qui sait gérer les données et les manipuler pour leur donner du sens, avec des compétences en statistiques, en mathématiques, en informatique spécialisée. De l’avis général, il existe peu de formations spécifiques dans les cursus universitaires, et la gestion de données ne fait pas partie des enseignements dans les formations initiales des bibliothécaires (je confirme) ; acquérir ce type de compétences est pourtant un enjeu fort, qui va demander un changement dans les mentalités des bibliothécaires. Des initiatives émergent, notamment au Royaume-Uni :
– Immersive Informatics : il s’agit d’un programme pilote de formation à la gestion des données de la recherche, mené conjointement par les universités de Bath et de Melbourne, à destination des professionnels de l’IST. Il comprend, en plus des nombreux ateliers thématiques (sur la conservation, les aspects juridiques, la gestion des plans, etc), 2 modules au sein desquels les participants sont entièrement intégrés dans un laboratoire ou un département de recherche de l’université et travaillent sur des jeux de données réels.
– RDMRose : ce projet de formation continue pour les professionnels de l’IST financé par le JISC a permis de produire des cours sur la gestion des données (en accès libre et donc réutilisables)

Bref, encore du pain sur la planche pour les bibliothécaires…

L	M	M	J	V	S	D
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Marlène's corner

Posts Tagged 'data management'

La reproductibilité, une corde à ajouter à l’arc des bibliothécaires ?

Liber 2013

Archives

Tags

Licence