Archive pour 9 décembre 2019

RA21 : que va mon EZproxy devenir ?

Cette fois c’est Nicolas Doux, responsable de la BU Médecine-Pharmacie de l’Université de Poitiers, qui a bien voulu répondre à mon invitation, et nous fait un point sur le futur système d’authentification pour l’accès aux ressources électroniques soutenu par les éditeurs, RA21. Merci à lui de nous aider à y voir plus clair !

Longleat-maze

Les bibliothèques universitaires ont développé une offre de documentation électronique de plus en plus étendue et diversifiée. Nos usagers attendent de cette offre un accès rapide et simple qui n’est plus limité par un lieu et ses horaires d’ouverture, ni par le matériel ou la connexion internet utilisée. Shibboleth, OpenAthens, EZproxy… les bibliothèques utilisent différents protocoles pour donner accès à leurs ressources électroniques. RA21 (Ressources Access for 21st Century) se propose de les remplacer. Ca ne concerne pas seulement les revues électroniques mais aussi les eBooks, les bases de données et plus largement toutes les ressources électroniques.

RA21 est une initiative conjointe portée par :

  • STM (Scientific, Technical and Medical Publishers) l’association internationale des éditeurs scientifiques et techniques
  • NISO (National Information Standards Organization) basée aux Etats Unis

Plusieurs éditeurs participent au projet, et non des moindres : Elsevier, Springer Nature, Wiley, ACS, IEEE, Wolters Kluwer, Taylor and Francis. On y trouve également de nombreux prestataires des bibliothèques : Proquest[1], OCLC, Ebsco, OpenAthens, LibLynx. Ainsi que de nombreux établissement universitaires : University of Rotterdam, Bath Spa University, University of Illinois, Carnegie Mellon University, University of Bath, Coastal Carolina University.


[1] Ex Libris est une filiale de Proquest.

Qu’est-ce que RA21 aurait de mieux que mon EZproxy ?

Selon Todd Carpenter, directeur exécutif du NISO, le système actuel est devenu insuffisant dans le contexte du développement des accès à l’internet par les matériels mobiles comme les smartphones. Dès qu’un utilisateur quitte le réseau de son université, par exemple pour passer en 4G sur son portable, les plateformes d’éditeurs ne pourraient plus identifier les droits d’accès. L’utilisateur peut trouver une référence dans de nombreux environnements numériques qui ne feraient pas le lien avec les accès que lui confèrent l’établissement abonné auquel il est appartient. Todd Carpenter insiste sur les limites des accès distants mis en place dans les établissements avec des des logiciels de type reversed proxy, comme EZproxy. En clair, hors du réseau universitaire, Google Scholar, Pubmed, une boîte mail, etc… mettraient l’usager dans un cul de sac pour localiser l’accès au texte intégral. Todd Carpenter souligne que dans ce cas c’est la bibliothèque qui ne remplit pas sa mission.

Nicolas Morin voit en RA21 une solution à la dispersion géographique de l’université française et à la complexité de ses réseaux informatiques : « à Paris par exemple ou pour les chercheurs qui se déplacent beaucoup ou n’ont pas de bureau sur le Campus. (…) Les universités, grandes écoles, qui divorcent, fusionnent, s’allient dans des COMUE, des établissements publics, le CNRS partout, les licences nationales, les contrats communs avec les hôpitaux, etc. Dans ce contexte, il est quasiment impossible (…) de gérer correctement les accès auxquels elle a droit sur la seule base des adresses IP ».

Le projet RA21 ajoute ensuite : « another big concern for the librarian community is that users who are unable to access content via their institutions’ systems often turn to other channels instead. ». Cette assertion évoque le monstre dans le placard, ces « autres canaux », Sci-Hub et LibGen pour ne pas les nommer, avec lesquels ont été illégalement copiées 78%[1] des publications sur les serveurs des éditeurs scientifiques, pour ensuite les diffuser illégalement. Éditeurs scientifiques dont STM défend les légitimes intérêts. Rappelons que, malgré un accès légal aux ressources – hors campus ou sur le campus – certains utilisateurs préfèrent utiliser Sci-Hub pour accéder aux documents plutôt que les abonnements de leurs institutions. Academia et ResearchGate sont aussi visés par la documentation du projet.

Un dernier argument est avancé en faveur de RA21 : il mettrait tous les établissements à égalité, certains n’ayant pas eu le soutien politique ou les moyens de déployer leurs plateformes de service. Et pour ceux l’ayant fait, ce serait l’occasion de faire des économies d’échelle, si ce n’est en coûts directs au moins en déchargeant les services informatiques de la gestion des applications déployées localement, comme EZproxy.

billet1

[1] Substantiellement plus pour les éditeurs participants à RA21 : Elsevier 96.9% ; Springer Nature 89.7% ; Wiley-Blackwell 94.7% ; Taylor & Francis 92.6% ; Wolters Kluwer 79.4% ; American Chemical Society 98.8%.

Au fait, comment fonctionne EZproxy ?

Avec le système actuel, l’éditeur ouvre la consultation à ses collections en se basant sur la reconnaissance de l’IP du réseau d’un abonné. Une adresse IP est un numéro d’identification qui est attribué de façon permanente ou provisoire à chaque périphérique relié à un réseau informatique qui utilise l’Internet Protocol ; enregistrées et routables sur Internet, les IP sont publiques.

En complément, la bibliothèque donne l’accès à ses ressources à l’extérieur de son réseau avec un VPN, en identifiant ces usagers à partir d’une base de données personnelles, un LDAP (Lightweight Directory Access Protocol). Les bibliothèques ont pour la plupart déployé EZproxy, un serveur mandataire qui sert d’intermédiaire entre l’usager et un fournisseur de ressources numériques. Ces établissements gèrent l’identification de l’usager à partir de leur CAS (Central Authentication Service) qui utilise les données du LDAP. Nicolas Morin rappelle qu’en France, la situation est caractérisée par un déploiement extensif de ce système, de préférence aux autre solutions, comme Shibboleth par exemple. Nicolas Morin recommande aux bibliothèques un effort supplémentaire en travaillant avec les partenaires internes (juridiques, techniques) de l’institution pour bien délimiter ces transferts d’information à ce qui est nécessaire et juste ce qui est nécessaire.

Le problème avec cette méthode c’est qu’on ne peut pas utiliser l’URL normale de l’éditeur comme, au hasard, « https://www.sciencedirect.com ». Il faut y intégrer un élément qui renvoie au proxy de l’établissement abonné, comme « https://www-sciencedirect-com.ressources.univ-poitiers.fr/ ». Convenons que c’est contre-intuitif pour un usager lambda, obligé de passer sur le site de son établissement pour récupérer les URL « proxyfiées » de ses abonnements. Selon le contexte, la proportion d’accès hors campus peut devenir très importante.

Dans cette configuration, l’éditeur ne collecte pas toutes les informations : « to the vendor of the electronic resource, the patron appears to be on campus rather than at a remote location. » L’établissement abonné contrôle à la fois l’identité des utilisateurs, l’identification et les données d’utilisation, puisque les applications sont installées sur ses serveurs. Jusqu’à présent, si l’éditeur fournissait des statistiques d’utilisation de ses collections, il ne pouvait les croiser avec les données personnelles d’utilisateurs, tout au plus un statut (étudiants, enseignant-chercheur, lecteur extérieur…).

Et comment fonctionne RA21 ?

Avec RA21, STM et NISO veulent donc proposer une façon simple, sécurisée et universelle d’identifier l’accès (légal) à la documentation électronique. Elle serait commune à toutes les institutions abonnées.

RA21 est conçu comme une un système d’identification fédéré basé sur SAML (Security assertion markup language), un standard informatique définissant un protocole pour échanger des informations liées à la sécurité. Jusque-là rien de révolutionnaire, car Shibboleth et OpenAthens ont déjà construit leur infrastructure sur SAML. Moins conçu pour identifier les différents accès à un document (open access ou paywalled), RA21 est construit pour échanger des informations liées à la sécurité, essentiellement un identifiant personnel et un indicateur d’affiliation à un établissement autorisé. « Essentially SAML is a structure for describing how information is exchanged about the rights that allow someone to access something. » In fine, le protocole sert à vérifier les droits d’accès donc à protéger les éditeurs contre les accès illégaux, ceux qui n’ont pas fait l’objet d’une licence négociée et rémunérée par les établissements d’enseignement supérieur et de recherche.

RA21 a lancé plusieurs programmes pilotes dont deux destinés aux établissements d’enseignement supérieur :

  • Privacy Preserving Persistent WAYF (P3W) basé sur SAML, c’est-à-dire l’application qui contrôle l’identité des utilisateurs ;
  • WAYF Cloud, une plateforme pour faciliter l’échanges des données d’identification entre portails d’éditeurs, que vous pouvez tester en ligne ; lesquelles données sont, dans la configuration actuelle, générées et stockées localement par le LDAP de l’établissement.

Tel que l’analyse Aaron Tay, en plus des identifiants personnels, RA21 enregistrera dès la première connexion le deviceID… l’identifiant du matériel sur lequel l’utilisateur accède aux plateformes de l’éditeurs : PC, portable, tablette, smartphone… A sa première connexion, il sera demandé à l’utilisateur de choisir son établissement avant de saisir identifiant et mot de passe, comme avec Shibboleth ou OpenAthens. Dès la connexion suivante, RA21 gardera en mémoire l’association entre l’identifiant de l’utilisateur et celui de sa (ses) machine(s) pour offrir une identification plus rapide qui se passera de la déclaration de son établissement.

La différence paraît ténue avec Shibboleth et OpenAthens. A la deuxième connexion avec un appareil, la différence évidente pour l’usager serait la disparition du choix de son établissement. Nicolas Morin décrit l’utilisation d’un cookie qui s’installerait dans le navigateur, pour garder en mémoire les établissements dont l’utilisateur aura utilisé les abonnements.

Dans cette configuration, ce sera RA21 qui non seulement gérera l’identité des utilisateurs mais en plus, autorisera – ou non – l’accès. De cette manière, toutes les données d’activité transiteront par leurs applications, P3W et WAYF Cloud. Un éditeur aurait donc un accès complet à l’activité de ses abonnés : le moment, le lieu, des éléments de profils… ? Pourrait-il les relier aux historiques de consultation de ses collections numériques ou de tous autres services ? Le comité d’organisation du RA21 affirme que toutes les garanties seront mises en place dans les configurations du service : non seulement les éditeurs n’auraient pas d’intérêt commercial à le faire (sic), mais le protocole SAML anonymiserait chaque usager avec un pseudonyme. Néanmoins, NISO reconnaît explicitement que RA21 procurera aux éditeurs des avantages pour l’accès aux données générées par les utilisateurs via l’approche de la connexion unique. Au final, RA21 renvoie à l’établissement abonné la responsabilité de protéger la confidentialité des identités et plus largement de gérer cet aspect auprès de ses publics. Ce sera donc aux bibliothèques de choisir quelle informations seront exportées du LDAP vers WAYF Cloud, évitant les données trop personnelles mais devant fournir celles qui permettront à P3W/SAML d’identifier l’établissement et, par voie de conséquence, ses droits d’accès. La conformité du RA21 au RGPD européen mériterait une analyse approfondie. Des voix se sont élevées dans notre communauté professionnelle pour avertir qu’un problème de sécurité pour les éditeurs pourrait devenir un problème de données personnelles pour nos publics, en privant les utilisateurs de tout contrôle.

Et en quoi RA21 va-t-il modifier le fonctionnement de ma bibliothèque ?

RA21 a explicitement confirmé que son objectif est bien d’abandonner les accès basés sur l’IP. Le déploiement de RA21 réécrira les serveurs proxy des éditeurs et de différents prestataires (Proquest, OCLC, Ebsco) pour les transformer en SAML bridges : au lieu de diriger une requête d’accès directement à l’éditeur, le protocole redirigera la requête vers les serveurs de P3W (Privacy Preserving Persistent WAYF) qui utiliseront une URL WAYFless pour accéder au document. Les URL WAYFless  remplaceront les URL proxyfiées. Jusqu’à maintenant, c’est l’établissement abonné qui gérait cette URL avec des applications locales ; avec EZpaarse, il collectait une base de logs constituant l’historique des consultations. Ces logs permettent de produire des statistiques d’utilisation affinées par profils d’usagers anonymisés. Pour la même finalité, le projet RA21 propose un service Granular Usage Statistics à ses clients. Lors d’un webinaire UKSG, Lisa Hinchliffe interpellait les participants sur la manière dont RA21 traiterait les walk-in users (visiteurs non-inscrits en bibliothèque) pour l’accès aux ressources électroniques dans les locaux de la bibliothèque, car ils ne peuvent généralement pas s’authentifier avec des systèmes locaux. Il faudra également s’interroger sur les lecteurs extérieurs (ni étudiants, ni personnels de l’université mais inscrits en BU). Pour l’instant on ne sait pas si RA21 pourra gérer des accès restreints aux locaux de l’université – comme les licences d’éditeurs l’autorisent généralement pour les walk-in users et les lecteurs extérieurs – ni comment on générera leur compte.

RA21 est un protocole qui n’a été conçu que pour gérer les droits d’accès à la documentation électronique. Il n’intègre aucune des autres fonctionnalités avec lesquelles les bibliothèques pourront exercer toute la diversité de leurs missions. De prime abord, RA21 a donc une fonction unique et identique à la fonction de base d’outils de services courants : résolveurs de liens, extensions Browker Browser autrement appelés Access Brokers (Lean Library, Kopernio, Anywhere Access, Libkey Nomad, CASA Campus Activated Subscriber Access). Comparé à eux, RA21 a un avantage : si une installation locale est nécessaire avec nos outils actuels – dans le navigateur avec un « browker browser » ou dans chaque application avec un résolveur – RA21 s’en dispense. Cependant, dans un résolveur comme dans un browker browser, la bibliothèque peut implémenter d’autres services. Le résolveur peut, par exemple, à partir d’une référence de document, renvoyer vers les collections imprimées, le prêt entre bibliothèques, un accès green open access, des libguides, la médiation d’un bibliothécaire/documentaliste… ce que Lisa Hinchliffe appelle l’implémentation d’une assistance contextuelle et adaptative. Avec la mise en production de RA21, elle redoute une régression des bibliothèques, là où nous avons axé nos efforts depuis plusieurs années : le user-centered discovery and delivery. Elle rappelle aussi, si c’était nécessaire, combien pour nos usagers l’activité en ligne reste encore liée à une activité IRL en investissant les espaces physiques et dans l’interaction avec ses pairs et les professionnels de la documentation. RA21 a le potentiel pour réduire notablement le champs d’action des bibliothèques, peut-être même est-il construit sur une conception très restrictive de nos missions.

On doit aussi se demander quel sera le périmètre des contenus pour lesquels RA21 gérera les accès. Lisa Hinchliffe rappelle, si c’était nécessaire, que la bibliothèque a vocation à donner accès à tous les contenus, qu’ils soient propriétaires ou sous des licences ouvertes. Dans nos établissements, de nombreuses collections numériques manquent déjà de métadonnées adéquates pour une découvrabilité optimale : bibliothèques numériques, dépôts institutionnels, données de la recherche, presses locales… C’est une question stratégique que ces ressources soient intégrées à tous les services de découvertes, RA21 inclus. Le plan S européen, le plan français pour la science ouverte, veulent rendre obligatoire l’accès ouvert pour les publications et pour les données issues de recherches financées sur projets, en déposant les documents sur des plateformes publiques ; BASE – Bielefeld Academic Search Engine – en recense 7000 dans le monde. RA21 propose une réponse à cette préoccupation et elle mérite qu’on s’y attarde. Son système d’accès fédéré lui paraît pertinent à deux titres pour le green open access :

  • P3W et WAYF Cloud pourrait être implémentés sur les plateformes pour gérer les droits d’accès, en améliorant la sécurité et la fiabilité des systèmes locaux ;
  • Ils fourniraient aussi des outils de mesure des usages car les bibliothèques n’auraient plus ? aucun moyen de les mesurer (sic). 

Il fallait effectivement s’attarder sur ces propositions et l’appréciation qu’elles ont de nos services. Leur mise en œuvre rendrait nos ressources en green open access techniquement dépendante du RA21 ; on pourrait se demander si leurs données d’utilisation seraient partagées avec d’autres acteurs, comme les éditeurs.

Roger C. Schonfeld[2] expose néanmoins d’autres possibilité d’intégration, au niveau du service rendu à l’utilisateur. Si une plateforme fournit l’accès à la version preprint d’un article, RA21 pourrait être paramétré pour permettre à certains utilisateurs qui n’ont pas accès à la version éditeur – et donc payante – de se voir proposer l’accès à une version alternative gratuite, comme le preprint. Il cite en exemple les efforts d’Elsevier pour connecter ses plateformes avec les dépôts institutionnels. Il reconnaît néanmoins que cela pourrait permettre aux éditeurs de réduire la visibilité de cette offre alternative, bien qu’aucune partie ne l’ai jamais explicitement exprimé.

Outre l’implémentation des ressources open access des bibliothèques, la question se pose de savoir quels éditeurs se déploieront sous le protocole RA21. Sans trop s’avancer, ce sera le cas des éditeurs à l’initiative du projet : Elsevier, Springer Nature, Wiley, ACS, IEEE, Wolters Kluwer, Taylor and Francis. Dans un marché oligopolistique, ces éditeurs ont une position dominante en diffusant la moitié des publications scientifiques. Cependant, JournalSeek, la base de données anglophone de journaux académiques et scientifiques, référence 39226 journaux publiés par 6617 éditeurs à ce jour. Lisa Hinchliffe craint que les plus petits éditeurs n’aient pas les moyens – humains, techniques financiers – d’adapter leurs plateformes à RA21. Ils pourraient être tentés de passer des contrats avec de plus gros acteurs pour qu’ils diffusent leurs contenus ou a minima passer des accords techniques qui mettraient les uns dans la dépendance de quelques autres. Cela ne ferait qu’accentuer la concentration du secteur de l’édition scientifique. Il n’est d’ailleurs pas exclu que l’on passe par une phase hybride, avec des accès alternativement proxyfiés ou par URL WAYFless, dans une période de transition plus ou moins longue, à moins qu’elle ne se pérennise. La question est d’autant plus sensible que RA21 est et restera une application propriétaire. Quand il est demandé si le code de ses applications sera diffusé en open source, RA21 répond qu’il ne veut pas exclure les fournisseurs de gestionnaires d’accès (Proquest, OCLC, Ebsco, OpenAthens, LibLynx) participant au projet, la plupart d’entre eux « gagnant leur vie » en commercialisant des outils et des solutions. RA21 sera donc bien une solution propriétaire que des fournisseurs du marché intégreront à leurs offres de service commerciales. A ce stade, il n’est pas inintéressant de se demander comment est financé le développement du standard et des applications de RA21. Le site officiel est muet sur le sujet. On ne trouve un élément de réponse que dans une seule source, le support d’un webinaire de l’UKSG : « Initial funding (is) provided by participating publishers. » Comme le dit l’adage, « celui qui paie les violons choisit la musique ». Pour les bibliothèques qui cherchent à maximiser les consultations de leurs abonnements, RA21 est une bonne nouvelle. Par contre, les perspectives sont plus incertaines pour celles cherchant à maîtriser leurs abonnements et à consolider des positions dans les négociations tarifaires avec les éditeurs.

Il est temps d’ouvrir le placard pour découvrir le sort que réserve RA21 aux monstres troublant les nuits des éditeurs. La documentation officielle du projet répète à l’envi que les serveurs proxy sont le maillon faible dans la chaîne de sécurité avec laquelle on protège les ayants-droits des publications scientifiques. Sci-Hub et LibGen copient illégalement les publications sur les sites des éditeurs puis stockent les fichiers pour y donner accès gratuitement, à toute la communauté. Pour accéder aux fichiers, Sci-Hub utilise les éléments d’identification des usagers d’un établissement abonné, en passant par les serveurs proxy de l’établissement abonné. RA21 substitue un nouveau protocole d’accès à celui que détourne Sci-Hub, en éliminant les adresses IP qui par nature sont visibles et frauduleusement reproductibles. Jill O’Neill, directrice des contenus chez NISO, rappelle que les établissements ont été « courtoisement » avertis qu’il est de leur responsabilité de ce que des brèches de sécurité ne résultent pas de compte utilisateurs « compromis » si cela doit porter atteinte aux intérêts des éditeurs ou autres fournisseurs de contenus. En effet, il ne reste dans RA21 qu’un maillon de la chaîne, l’identifiant de l’usager, sur lequel vont se focaliser les efforts de sécurisation. Avec la plateforme unique W3F, les éditeurs auraient accès, même sans données personnelles, à une vision globale des flux, grâce à laquelle ils pourraient identifier les flux suspects pour les relier aux établissements qui auront fourni les identifiants personnels. RA21 affirme avoir l’avantage d’améliorer la capacité des bibliothèques à formuler des protocoles de sécurité plus précis et sécurisés pour empêcher les accès frauduleux. Les éditeurs pourront signaler à un établissement si ces comptes présentent des indices d’usages frauduleux, le rappelant à ses engagements contractuels. Lisa Hinchliffe craint que les bibliothèques ne soient obligées de consacrer de plus en plus de temps de leur personnel à la formation et au dépannage des comptes basés sur l’identité. Dans la nouvelle chaîne de l’information scientifique, les établissements universitaires auraient pour fonction de veiller à la fiabilité des LDAP, ses bases de comptes personnels, probablement avec les moyens économisés sur l’administration et la maintenance d’un EZproxy. Avec RA21, les plus grands éditeurs scientifiques espèrent donc couper les vivres aux intermédiaires qui piratent leurs catalogues. RA21 est un Sci-Hub killer. Peut-être est-ce sa fonction principale et au diable toutes les conséquences sur les établissements abonnés. Dans toute guerre, même commerciale, il faut des dommages collatéraux pour que le tableau soit complet.


[2] Responsable des projets liés aux bibliothèques d’Ithaka S+R, une organisation à but non lucratif ayant pour objectif d’aider la communauté universitaire à utiliser les technologies numériques.

En conclusion

RA21 annonce une révolution qui faciliterait l’expérience des usagers mais au final, la technologie utilisée n’est pas fondamentalement innovante. Elle réutilise SAML, un protocole de sécurité déjà intégré aux solutions préexistantes : Shibboleth, OpenAthens. Le fonctionnement et les interfaces devraient être très similaires. Par contre elle substitue à ces solutions consortiales, développées par les universités, une plateforme centralisée sur un modèle de technologie propriétaire. Le contrôle des accès échappera en grande partie aux abonnés, réduisant leurs compétences à la gestion des bases d’identifiants de leurs usagers, sous contrôle des éditeurs. Les bibliothèques peuvent se demander comment vont s’intégrer tous leurs services dans cette nouvelle chaîne de diffusion de l’IST. Les principaux prestataires d’outils de découvertes participant au projet, il serait logique qu’ils intègrent cette nouvelle technologie aux outils de découvertes, résolveurs de liens… voir même aux SGBM qui remplacent nos SIGB. Outre les changements induits dans nos services aux usagers, cela pose la question de la charge des coûts. Dans quelle mesure seraient-ils reportés sur les tarifs d’abonnements que nous supportons comme des charges récurrentes ? Le développement de RA21 mérite toute l’attention des acteurs de la vie universitaire et de leurs tutelles. En Amérique du Nord, l’Association of Research Libraries (ARL) a déjà pris position contre le projet, jugé trop déséquilibré en faveur des éditeurs.

De toute façon RA21 paraît déjà dépassé alors qu’un consortium d’éditeurs développe une autre solution, Get Full Text Research (GetFTR). Son développement sera piloté par un consortium d’éditeurs sans leur syndicat, ni le Niso ou  les intermédiaires de service (ExLibris, OCLC, Ebsco…). GetFTR a les mêmes objectifs que RA21 et entend dépasser les limites qu’il prête à ce dernier. Les éditeurs visent-ils à contrôler toute la chaîne de diffusion de leurs publications et l’ensemble de son environnement numérique ?


décembre 2019
L M M J V S D
« Nov    
 1
2345678
9101112131415
16171819202122
23242526272829
3031  

Archives

Licence

Licence Creative Commons
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.