La reproductibilité, une corde à ajouter à l’arc des bibliothécaires ?

4048391932_b09fe9569a_oIntéressons-nous aujourd’hui à une tendance émergente dans le monde de la « bibliothéconomie des données » : la reproductibilité. En gros, il s’agit du fait de pouvoir reproduire les expériences et/ou les observations faites par des chercheurs, pour pouvoir d’une part vérifier qu’elles sont justes, mais aussi et surtout pour aller plus loin dans le travail de recherche à partir de ces données. Cela suppose notamment que les données en question soient accessibles bien sûr, mais aussi qu’elles le soient dans des formats normalisés pour pouvoir être manipulées. Et que les outils utilisés pour analyser ces données soient accessibles également.
Cela semble évident dit comme ça, mais c’est loin d’être le cas : depuis le milieu des années 2000, plusieurs études ont montré qu’entre la moitié et les trois quarts, selon les disciplines, des expériences publiées ne sont pas reproductibles, à tel point que l’on a parlé d’une « crise de la reproductibilité » scientifique. La psychologie et la médecine seraient les domaines les plus touchés par le problème.
Pour y remédier, les différents acteurs de la recherche ont mis en place différents outils et démarches : les registered reports (on détaille dans un article spécifique, avant le démarrage de la collecte des données, le processus de recherche qui va être appliqué, si celui-ci est validé, on poursuit), l’analyse collaborative des résultats (pour éviter les biais d’interprétation par un chercheur isolé), un effort sur la formation des chercheurs aux outils statistiques et d’analyse…
La New-York University elle, s’est dotée, en plus, d’une bibliothécaire chargée de la gestion des données de recherche et de la reproductibilité (« Librarian for research data management and reproductibility »). Dans l’article « Reproductibility librarianship » de la revue Collaborative librarianship, Vicky Steeves nous détaille ses fonctions (je traduis et résume) :

  • Formation des enseignants-chercheurs et des étudiants avancés sur la gestion des données de recherche, sur la curation de données, sur les critères à remplir pour être en conformité avec les obligations de diffusion ouverte des organismes financeurs. C’est un travail mené en collaboration avec le ou la bibliothécaire chargé de la gestion des données (« Librarian for RDM »), qui aborde systématiquement la reproductibilité mais aussi les questions d’éthique de la recherche. Ces questions font d’ailleurs partie de la formation obligatoire sur l’intégrité scientifique (« Responsible conduct of research« ) que doivent suivre les lauréats des bourses de la NSF et des NIH.
  • Rayonnement : programmation d’événements mettant en avant les questions de gestion des données de recherche (y compris celle de la reproductibilité), et s’articulant avec l’évolution des besoins des laboratoires selon les disciplines. Ce travail est conduit en étroite collaboration avec les bibliothécaires de chaque discipline (« liaison librarians »), qui connaissent les projets de recherche et le type de données que celles-ci sont susceptibles de générer. Cette collaboration permet d’améliorer l’offre de services à la recherche dans son ensemble. Les projets sont diffusés en libre accès, et présentés lors de différentes manifestations professionnelles nationales.
  • Support et création d’outils : veille sur les outils et techniques d’aide à la reproductibilité, et diffusion de celle-ci auprès des publics concernés, participation à la création d’une infrastructure de stockage et de gestion des données pour les enseignants-chercheurs de l’établissement, développement de méthodes et de workflows pour la ré-utilisation et la conservation de jeux de données. L’outil open source développé par la NYU, ReproZip, permet d’enregistrer les données, les paramètres et l’environnement logiciel avec lesquels la recherche a été faite, et de les « rejouer » sur une autre machine, quel que soit l’environnement de travail. Il permet également de modifier les paramètres pour faire avancer les hypothèses de recherche. C’est un moyen très parlant pour sensibiliser chercheurs et étudiants à l’intérêt de la reproductibilité de la recherche.

Un poste intéressant, qui montre une volonté d’intégration de la gestion des données à toutes les étapes du cycle des projets de recherche, en s’appuyant sur les compétences des bibliothécaires. Et qui demande, comme finalement souvent dans le domaine de la science ouverte,  autant sinon plus de compétences relationnelles, pédagogiques et de gestion de projet que de compétences réellement techniques. Or ces compétences, normalement, nous les avons : c’est plutôt rassurant en terme d’évolution des métiers, je trouve.
[Photo : Roel Wijnants]

Publicités

Peut-on être bibliothécaire sans être promoteur de l’open access ?

6880911245_b11eaaa6b7_mC’est une question que se pose Aaron Tay, bibliothécaire à Singapour dans ce billet. Après avoir raconté son propre cheminement personnel par rapport à l’open access (intéressant à lire aussi), il réagit à l’une des réponses reçues à sa question posée sur Twitter (tu peux être bibliothécaire et pas promoteur de l’open access « seulement si tu t’intéresses plus aux bibliothèques qu’à la recherche »), et donne son analyse :
« Au mieux, [l’open access] va fortement « disrupter » les bibliothèques universitaires, en entraînant de grandes difficultés dûes aux ajustements des missions, avant une stabilisation, au pire il va nettement réduire le besoin en bibliothécaires et conduire au déclin des bibliothèques ; je confesse que cela m’effraie pour moi et pour les BU. »

Il se demande pourtant si ses craintes sont fondées : les bibliothèques ont surmonté d’autres transitions, comme l’informatisation dans les années 60 ou la montée du web à la fin des années 90, et elles semblent s’adapter de mieux en mieux aux changements. Reste qu’il faut voir la réalité en face et se poser les questions qui fâchent :
« Quels postes vont disparaître quand l’open access sera la norme ? Quelles nouvelles fonctions vont émerger à la place ? Et il ne s’agit pas juste de définir des missions, mais également d’estimer les ETP requis pour les remplir. »

Quel futur pour l’open access et les bibliothèques ?
« Dans tous les cas, je pense qu’actuellement l’open access est inévitable, et qu’il ne sert à rien de se demander si on est pour ou contre. Nous devons nous y préparer et nous organiser pour en tirer un maximum de bénéfice pour nos usagers et peut-être même un peu de considération pour nous-mêmes. »
Pour Aaron, « il y a 3 types de bibliothécaires pour ce qui concerne l’open access :
– d’abord les avocats de l’open access les plus fervents, ce sont ceux qui sont à l’origine de toutes les initiatives géniales, ce sont les stars. Ils sont nombreux à avoir des fonctions liées à la diffusion scientifique (« scholarly communication »), mais pas tous.
– le second groupe rassemble les nouveaux bibliothécaires. Pour ce que j’en ai vu, les nouveaux bibliothécaires tendent à être pro open access, et à penser que c’est une nouvelle branche passionnante du métier. Il y a cependant une différence entre dire qu’on est pour l’open access et en savoir suffisamment pour avoir un réel impact : l’open access est quand même un truc bien compliqué, et je me demande parfois si j’en ferai jamais le tour.
– enfin il y a la grosse majorité silencieuse des bibliothécaires qui font juste leur travail et s’en tapent un peu, de l’open access, parce que ça ne les touche pas vraiment pour le moment.
Pourtant les choses peuvent changer rapidement : il y a quelques années, vous pouviez tranquillement vivre votre vie de responsable des ressources électroniques sans connaître grand chose de l’open access. Aujourd’hui, avec le nombre croissant de ressources en open access, vous devez comprendre dans quelle mesure cela peut affecter les usages des ressources que vous achetez, et il n’est pas idiot d’utiliser des outils d’aide à la décision sur les abonnements prenant en compte le volume de contenus en open access. Vous vous occupez de l’outil de découverte ? Il vaudrait mieux que vous sachiez comment fonctionnent les ressources en open access dans votre index central… »

En résumé, Aaron conclut qu’il est temps de se réveiller, et de se mettre à l’open access, en commençant par lire le bouquin de Peter Suber « Qu’est ce que l’accès ouvert ?« , dispo chez OpenEdition. Ce qui me semble être une bonne idée.

[Photo : Lea Aharonovitch]

Research Gate : you’ve got mail !

234447967_516894d7fc_mSTM, l’association internationale des éditeurs en sciences, techniques et santé, vient d’envoyer un courrier à la direction de Research Gate, via son cabinet d’avocats (merci à @McDawg et @protohedgehog pour le lien). Dans ce courrier, après avoir rappelé la volonté des éditeurs de parvenir à un écosystème de diffusion de l’information scientifique durable et légal, et leur souhait de trouver une solution concrète avec les acteurs du secteur, dont RG, pour garantir le partage des contenus scientifiques dans le respect des règles élaborées par STM, l’association propose au réseau académique de procéder à quelques petites modifications dans son fonctionnement :

  • Selon STM, les éditeurs disposent de moyens techniques pour vérifier le statut des documents déposés sur RG. Si la version déposée est compatible avec la politique de l’éditeur, no problemo, le document pourra rester en ligne et accessible librement. Si la version déposée n’est pas compatible – par exemple s’il s’agit d’un pdf éditeur, ce qui est le cas de pratiquement 80% des documents déposés sur RG selon cet article -, le système permettra de « verrouiller » le document en ne donnant plus accès qu’aux co-auteurs ou à des groupes de personnes définis. L’auteur recevra même un petit message lui expliquant comment donner un accès plus large à ses documents, par exemple, je suppose, en lui proposant de payer des APCs…
  • Pour faire de la pédagogie auprès des auteurs, STM est prête à travailler avec RG, en renforçant la communication sur les politiques des éditeurs en matière d’auto-archivage.
  • Sympa, STM ne met pas la pression à Research Gate : elle lui donne jusqu’à juin 2018 pour passer ses contenus au crible et identifier les articles dont le niveau d’accès doit être modifié.
  • Et puis, bien sûr, dans un souci de préservation de l’intégrité scientifique, il n’est plus question que RG indexe les métadonnées des documents qui se trouvent sur ses serveurs, ni que RG se recréée une base de données interne en copiant les documents eux-mêmes…

Si Research Gate ne répond pas positivement à cette proposition d’ici la semaine prochaine, la société sera « contactée » individuellement par les membres de la STM, ou plus vraisemblablement par leurs avocats, un peu comme Elsevier ou l’American Chemical Society l’ont fait avec Sci-Hub.

Research Gate va-t-elle accepter ces conditions ? Les éditeurs vont-ils poursuivre RG pour non respect du copyright ? Et Academia dans tout ça ? Ca n’irait pas plus vite de racheter RG directement ? Les auteurs vont-ils finir par déserter les réseaux sociaux académiques ? A suivre…

[Photo : Liz West]

Faire twitter son AO avec IFTTT

5210463195_2a620dfa4e_zDepuis décembre 2015, HAL AMU twitte les dépôts en texte intégral faits par les chercheurs de mon université sur le portail : l’idée, c’est de promouvoir par un canal supplémentaire les documents en libre accès, en les poussant sur Twitter, qui est de plus en plus fréquenté par les différents acteurs de la recherche.
Je pensais que c’était une pratique courante, mais à la lecture de ce billet du blog du laboratoire Cresson, j’ai réalisé que non, du coup, voici comment j’ai procédé :
– D’abord créer un compte Twitter pour diffuser : prévoir un pseudo pas trop long pour faciliter les re-tweets.
– Ensuite connecter le fil rss des dépôts en texte intégral à twitter avec l’outil magique IFTTT – la recette est simple (une fois qu’on a ouvert un compte sur le service) :

  • On sélectionne le service qui va déclencher l’action : en l’occurrence RSS : à chaque nouvel item ajouté au fil RSS
  • On choisit le service de diffusion : Twitter
  • On définit l’action : Poster un nouveau twitt
  • On précise enfin les éléments qui doivent figurer dans le twitt (« add ingredients »)
    • Le titre de l’item – {{EntryTitle}} – et son URL – {{EntryUrl}}. On peut ajouter du texte, un hashtag par exemple, mais je ne le recommande pas : ça prend des caractères, et même si le système réduit l’url, il faut que le titre du document déposé reste lisible.

Et zou, c’est parti pour de beaux twitts automatiques !

@HAL_AMU ne twitte que les documents déposés en texte intégral, qui sont ceux que nous voulons valoriser ; on pourrait choisir de tout signaler, ou de ne signaler qu’un type de document, ou qu’une ou plusieurs thématiques, il suffit juste de modifier le fil rss d’origine.
Résultat : 99 abonnés au bout de 18 mois d’activité… On va dire qu’il y a une forte marge de progression 🙂 Mais l’évolution du nombre d’abonnés est régulière, et le nombre d’interactions augmente aussi.

J’ai voulu voir si ces tweets avaient un impact sur les scores altmetrics : comme je ne voyais rien de flagrant, j’ai contacté Altmetric pour en savoir plus. Il s’avère que le système fonctionne avec une « liste blanche » de sources validées ; HAL n’y figurant pas, il a été ajouté (et prend désormais en compte toutes les urls en *.archives-ouvertes.fr). J’ai également demandé si les raccourcisseurs d’url avaient un effet : la réponse est non, toutes les urls raccourcies sont « étendues » pour afficher et prendre en compte l’url originale.

Reste maintenant à regarder de plus près les altmetrics des documents ayant été twittés, par exemple en 2016 puisque j’ai une année complète. Pour ce faire, il faut :

  • Vérifier que tous les articles de 2016 déposés en texte intégral ont bien un DOI : grâce à l’équipe très réactive d’OCDHAL, il est désormais possible de repérer avec cet outil les DOI manquants, pour les compléter dans HAL.
  • Réduire le corpus à examiner : ce qui me manque, c’est une requête API pour repérer les documents dans HAL ayant des altmetrics. Pas de bol, HAL ne permet pas de récupérer cette info.
  • Les rentrer dans l’Explorer d’Altmetric, par lots de 50, pour voir leur activité. Cette limite de 50 est basse, j’imagine qu’elle est modifiable quand on prend un abonnement institutionnel.
  • Et après, voir ce que ça donne… Je mets tous ça sur la to-do list de la fin 2017, à suivre !

Entre temps j’ai échangé avec les responsables de Strathprints, l’AO de l’université de Strathclyde, au Royaume-Uni : après 18 mois d’automatisation , ils sont revenus aux twitts manuels, ce qui leur permet d’ajouter des hashtags pertinents, d’être plus retwittés, d’avoir plus de « likes ». Ce travail est partagé entre les membres de l’équipe, les twitts sont faits en bloc et leur diffusion est planifiée sur la semaine. Intéressant : ne sont twittés que les documents complètement accessibles immédiatement, pas ceux sous embargo. Leur démarche est un peu différente de la nôtre (et le volume de dépôts sans doute aussi) : nous nous contentons de « pousser » les dépôts sur ce canal, sans filtre, aux spécialistes ensuite de les lire et de les rediffuser.

Tout cela donne des idées : utiliser les altmetrics pour sélectionner des articles à valoriser localement, faire des comparaisons avec les taux de citation du WoS, trouver un moyen d’intégrer des mot-clés dans les twitts automatiques…

Et vous, quelles sont vos stratégies de promotion de vos AO sur les réseaux sociaux ?

Sci-Hub : analyse croisée

33297043401_0b87a9eb6c_zBastian Greshake, un doctorant en biologie de l’université de Francfort, a eu l’idée de croiser les données sur les 28 millions de téléchargements effectués sur Sci-Hub en 2015-2016 avec les 62 millions de DOI stockés dans la base , voici quelques-uns des résultats qu’il a pu observer :

  • 35% des articles téléchargés ont moins de 2 ans, ce qui a  tendance à montrer l’inefficacité des embargos imposés par les éditeurs
  • Il y a un effet de longue traîne, avec des articles téléchargés datant d’avant 1900 : « enclosure » du domaine public vendu sous forme de bouquets d’archives ?
  • Moins de 10% des revues constituent plus de 50% des contenus de la base, et moins de 1% des revues représentent plus de 50% des téléchargements d’articles
  • Près de 50% des articles téléchargés proviennent de revues éditées par 3 éditeurs : Elsevier, Springer-Nature et Wiley, avec pour ce dernier une sous-représentation dans les téléchargements compte-tenu de la part de contenus présents dans la base.
  • Forte représentation de la chimie et, dans une moindre mesure, des sciences de l’ingénieur parmi les titres les plus demandés : pour l’auteur c’est à mettre en lien avec le fonctionnement de ces disciplines, pour lesquelles la part de recherche effectuée dans le secteur privé est importante, et pour laquelle on peut supposer plus de difficultés d’accès aux ressources numériques payantes que dans le secteur public.

Source : Looking into Pandora’s box : the content of Sci-hub and its usage

A noter : La diffusion de la liste des 62 millions de DOI contenus dans la base a déjà inspiré quelques développements, comme par exemple cet utilitaire qui permet de voir le pourcentage de couverture sur sci-hub, par revue.
[Photo : Astyan42]

Demandes de retrait de l’APA : ça ne passe pas

Choc dans la communauté des psychologues cette semaine :
14414514303_7f2ed6880f_ml’American Psychological Association, l’APA, qui a lancé il y a quelques mois un projet pilote visant « à repérer et à supprimer les articles des revues de l’APA illégalement diffusés en ligne », a envoyé à ses auteurs des demandes de retrait des articles qu’ils avaient eux-mêmes mis en ligne, sur leurs sites web personnels ou sur des sites institutionnels.

Légalement, l’APA a tout à fait le droit de faire ce type de demande aux auteurs, puisqu’elle détient tous les droits sur les articles. En terme de relations publiques et d’image vis à vis des auteurs cependant, cette opération s’est avérée plutôt néfaste : de nombreux auteurs ont exprimé leur mécontentement sur les réseaux sociaux, obligeant l’APA a rectifier le tir dans un communiqué de presse indiquant qu’elle allait concentrer ses efforts sur les sites de partage pirates, et que le dépôt dans les archives ouvertes ou sur les sites non-commerciaux cadrait bien avec sa politique en faveur du partage de la science – car à la base, l’APA est bien référencé dans Sherpa/Romeo comme un éditeur « green ».

Cette mauvaise opération de relations publiques a paradoxalement un effet positif : la polémique a ainsi (re)mis sous les yeux des chercheurs, qui ont tendance à les ignorer, les questions liées à la cession de leur droits aux éditeurs, et leur a rappelé qu’ils gardaient leurs droits sur leurs versions auteur, et pouvaient les déposer sur des archives ouvertes ou des seveurs de pre-prints, comme PsyArXiv par exemple.

Parmi les commentaires sur cette affaire, il est fait à plusieurs reprises référence à initiative PsyOA qui promeut, comme ses consoeurs de la Fair Open Access Alliance, les principes FAIR : transparence de la gouvernance des revues, maintien des droits aux auteurs, publication en OA avec une licence explicite, pas de publication conditionnée au paiement de frais, et si frais de diffusion il y a, ceux-ci doivent être bas, transparents et proportionnels à l’activité réelle de publication.

Sources :
Authors peeved by APA’s article takedown pilot par Aggie Mika in The Scientist
APA starts monitoring unauthorized internet posting of published articles sur Scinoptica
Is the APA tying to take your science down ? chez Alex Holcombe
[Photo : APA 2014 par George Reyes]

Des métriques pour l’open access

De  la même manière que les usages des revues en open access sont relativement peu étudiés dans les bilans statistiques, l’open access est actuellement assez peu pris en compte dans les différentes mesures de l’activité de publication, qui restent souvent basées sur le volume de citations.

Il serait cependant intéressant, pour faire évoluer les pratiques, de reconnaître l’ouverture des résultats de la recherche comme un avantage, un critère positif à côté d’autres mesures de la qualité du travail de recherche. C’est dans cette optique que David Nichols et Michael Twidale ont réfléchi à différents indicateurs, qu’ils présentent dans l’article Metrics for openness, dont je vous conseille la lecture. Voici quelques-unes de leurs propositions :

  • Practical openness index : le nombre d’articles et de communications en accès ouvert d’un auteur divisé par le nombre d’articles et de communications publiés par cet auteur, l’idée étant de s’approcher le plus de 1 (toute la production de l’auteur en accès ouvert).
  • Effective openness index : celui-ci prend en compte les questions de copyright, qui font qu’un article ne peut pas être « libéré » en OA ; on déduit du nombre total de publications celles dont on est sûr que les conditions de copyright empêchent toute ouverture potentielle.
  • Acce$$ index : ici on mesure le coût d’accès à la production d’un auteur pour un lecteur lambda ; la difficulté est de déterminer le coût d’un article, sachant que celui-ci varie selon le tarif payé par l’établissement auquel le lecteur appartient, et s’il n’appartient pas à une université, quel tarif choisir : le tarif public ? le coût du pay-per-view ? Et comment déterminer le coût d’un chapitre ?
  • Openness cost index : la mesure des coûts pour la mise en accès ouvert des documents prend en compte les APC, mais aussi, et c’est plus difficile à calculer, le temps et les efforts nécessaires pour y arriver : le temps de saisie (celui du chercheur ou celui d’une tierce personne), le temps de recherche de la bonne version à déposer, etc.
  • Illegality index : combien d’articles sont accessibles librement au mépris des règles de copyright ?

Les auteurs rapportent un effet vertueux de ce type de métrique individuelle : l’envie de faire augmenter son score est motivante. La jauge proposée sur dissem.in est un bon exemple de visualisation de ce type de données.

Une des difficultés rapportées par les auteurs pour établir ces métriques réside dans le choix de l’outil de mesure : faut-il considérer l’accès potentiel aux documents (en tant qu’auteur, je sais ce que j’ai produit en OA), ou bien le niveau de « découvertabilité » (discoverability) des documents (quels documents sortent le plus dans les recherches sur Google Scholar, par exemple) ; un document en accès ouvert qui est difficile à trouver est-il vraiment ouvert ?

Les auteurs indiquent qu’il est possible d’appliquer ces ratios au niveau d’une institution : cela me semble encore difficile, on manque de données propres, fiables et exploitables pour pouvoir faire ce type d’analyse à grande échelle, mais l’idée est bonne.

A AMU nous calculons annuellement un indicateur OA (iOA)* pour l’établissement, basé sur le nombre de publiants potentiels et sur le nombre de documents déposés en texte intégral dans HAL AMU, ça donne la formule suivante :

iOA = NBA (nombre de dépôts en texte intégral dans l’archive dans l’année) / NBEC (nombre d’enseignants-chercheurs, d’ATER, de doctorants et de postdocs de l’année)

Bien sûr il pourrait être affiné ou pondéré, complété pour prendre en compte l’OA Gold, etc. – en attendant il nous donne une grande tendance, et c’est déjà pas si mal…

Nichols, D. M., & Twidale, M. B. (2017). Metrics for openness. Journal of the Association for Information Science and Technology, 68(4), 1048–1060. https://doi.org/10.1002/asi.23741

* mis au point par Marin Dacos.

 


décembre 2017
L M M J V S D
« Nov    
 123
45678910
11121314151617
18192021222324
25262728293031

Archives

Licence

Licence Creative Commons
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.