Avez-vous déjà entendu parler de Conditor ? Il s’agit d’un projet initié dans le cadre de BSN3, dont l’objectif est de « recenser l’ensemble de la production scientifique de la communauté Enseignement Supérieur et Recherche ». L’idée est donc de faire une grosse base de signalement de la production scientifique française, en récupérant les données là où elles sont déjà (dans le Web of Science, dans les archives ouvertes, dans les réservoirs de littérature grise…) et en s’appuyant sur des référentiels existants (RNSR, IDREF…). La base peut gérer les liens vers le texte intégral le cas échéant, mais ce n’est pas une archive ouverte, on reste bien au niveau du signalement.
Pour avoir une idée de ce que la mise en place d’un tel projet donnerait à l’échelle nationale, une expérimentation a été organisée en 2013 avec un groupe d’établissements pilotes (IRD, INRA, Paris Dauphine, ABES, CNRS, INRIA) : ils ont chacun fourni une extraction de leur archive locale, ou bien donné accès à leur référentiel, pour constituer un corpus de données à analyser.
Les résultats de cette expérimentation ont donné lieu à une restitution la semaine dernière à laquelle j’ai eu l’occasion d’assister, je vous en livre quelques éléments :
– L’expérimentation s’est terminée fin 2013. Il faut améliorer la méthode pour la détection des doublons (28000 repérés dans l’échantillon), pour les appellations des tutelles, pour les liens avec IDREF, pour l’absence d’un tronc commun de métadonnées (qui a donné lieu à un travail de formatage initial très lourd).
– Les points positifs : la volumétrie importante et la variété des signalements et des formats présents dans le corpus expérimental permettent de se rendre réellement compte des difficultés. On réalise que le « tout automatique » est impossible. Le projet est faisable, d’autant plus si les établissements mutualisent les façons de faire, et n’ont plus à saisir dans leurs systèmes que ce qui n’y est pas déjà (la mutualisation telle qu’elle est pratiquée dans le SUDOC a été citée plusieurs fois en exemple).
Les établissements ayant participé à l’expérimentation ont fait un retour sur leur propre expérience, en voici quelques points saillants :
– Conditor comme pivot : l’intérêt d’une base nationale alimentée de façon mutualisée (et qui gère le dédoublonnage) permet de n’avoir plus qu’un seul connecteur à développer pour récupérer la production de son établissement et la reverser dans son archive locale
– Les DOI sont insuffisants pour dédoublonner
– Le matching entre le corpus et le WoS montre les insuffisances de cet outil : 50% des notices du corpus ne figuraient pas dans les résultats du WoS, dont 30% de notices d’articles. Effet collatéral : cela pose question sur la pertinence des analyses de l’OST, qui ne s’appuie que sur des outils commerciaux (WoS et Scopus).
– L’intérêt de la mutualisation est indéniable : l’usage de référentiels communs, la gestion centralisée des opérations de dédoublonnage, les comparaisons entre bases permettront, à terme, de disposer d’une vue d’ensemble claire de chaque communauté de recherche, au-delà des organismes.
Par contre il n’est apparemment pas question d’attribuer à Conditor de budget supplémentaire…
[Photo : Gustavo Duran]
Merci beaucoup pour ce retour très clair et très instructif!
Une question naïve que j’ai déjà entendue mais dont la réponse m’échappe ce matin : plutôt que de se lancer dans un nouveau projet, il n’était pas envisageable d’améliorer / développer l’existant ? Faut-il dissocier l’archivage du signalement ? Je pense évidemment à HAL, qui est initialement destinée au dépôt d’archive ouverte, mais qui est bien souvent utilisée par nos EC comme simple outil de signalement de leur production scientifique.
PS : il y a pire comme earworm, ouf…
Je ne pense pas que cela ait été envisagé, vu que HaL n’est pas une base de signalement.
et donc, la phase de test passée, comment le projet perdurera ? des indices ?
Ce n’était pas très clair : ils ont parlé d’élargir la base d’établissements, mais sans plus de précisions. Le MENESR a bien dit que ce serait à moyens constants, et la participation de l’INRIA, opérateur technique du projet, semble être soumise à renégociation.