Posts Tagged 'conditor'

El conditor pasa

ImageAvez-vous déjà entendu parler de Conditor ? Il s’agit d’un projet initié dans le cadre de BSN3, dont l’objectif est de « recenser l’ensemble de la production scientifique de la communauté Enseignement Supérieur et Recherche ». L’idée est donc de faire une grosse base de signalement de la production scientifique française, en récupérant les données là où elles sont déjà (dans le Web of Science, dans les archives ouvertes, dans les réservoirs de littérature grise…) et en s’appuyant sur des référentiels existants (RNSR, IDREF…). La base peut gérer les liens vers le texte intégral le cas échéant, mais ce n’est pas une archive ouverte, on reste bien au niveau du signalement.

Pour avoir une idée de ce que la mise en place d’un tel projet donnerait à l’échelle nationale, une expérimentation a été organisée en 2013 avec un groupe d’établissements pilotes (IRD, INRA, Paris Dauphine, ABES, CNRS, INRIA) : ils ont chacun fourni une extraction de leur archive locale, ou bien donné accès à leur référentiel, pour constituer un corpus de données à analyser.
Les résultats de cette expérimentation ont donné lieu à une restitution la semaine dernière à laquelle j’ai eu l’occasion d’assister, je vous en livre quelques éléments :
– L’expérimentation s’est terminée fin 2013. Il faut améliorer la méthode pour la détection des doublons (28000 repérés dans l’échantillon), pour les appellations des tutelles, pour les liens avec IDREF, pour l’absence d’un tronc commun de métadonnées (qui a donné lieu à un travail de formatage initial très lourd).
– Les points positifs : la volumétrie importante et la variété des signalements et des formats présents dans le corpus expérimental permettent de se rendre réellement compte des difficultés. On réalise que le « tout automatique » est impossible. Le projet est faisable, d’autant plus si les établissements mutualisent les façons de faire, et n’ont plus à saisir dans leurs systèmes que ce qui n’y est pas déjà (la mutualisation telle qu’elle est pratiquée dans le SUDOC a été citée plusieurs fois en exemple).
Les établissements ayant participé à l’expérimentation ont fait un retour sur leur propre expérience, en voici quelques points saillants :
– Conditor comme pivot : l’intérêt d’une base nationale alimentée de façon mutualisée (et qui gère le dédoublonnage) permet de n’avoir plus qu’un seul connecteur à développer pour récupérer la production de son établissement et la reverser dans son archive locale
– Les DOI sont insuffisants pour dédoublonner
– Le matching entre le corpus et le WoS montre les insuffisances de cet outil : 50% des notices du corpus ne figuraient pas dans les résultats du WoS, dont 30% de notices d’articles. Effet collatéral : cela pose question sur la pertinence des analyses de l’OST, qui ne s’appuie que sur des outils commerciaux (WoS et Scopus).
– L’intérêt de la mutualisation est indéniable : l’usage de référentiels communs, la gestion centralisée des opérations de dédoublonnage, les comparaisons entre bases permettront, à terme, de disposer d’une vue d’ensemble claire de chaque communauté de recherche, au-delà des organismes.
Par contre il n’est apparemment pas question d’attribuer à Conditor de budget supplémentaire…
[Photo : Gustavo Duran]

Publicités

novembre 2017
L M M J V S D
« Sep    
 12345
6789101112
13141516171819
20212223242526
27282930  

Archives

Licence

Licence Creative Commons
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.