Archive for the 'Saines lectures' Category

Recherche documentaire et IA : il est temps de mettre à jour notre propre système

Un billet que j’ai trouvé particulièrement éclairant dans cette période où l’IA* est partout, c’est celui-ci : “We’re Good at Search”… Just Not the Kind That the AI era Demands – a Provocation, dans lequel Aaron Tay dit, en substance, que les bibliothécaires ne sont pas subitement devenus des quiches en recherche, mais qu’ils et elles doivent mettre à jour leur « système d’exploitation » pour mieux appréhender les ressources et outils documentaires boostés à l’IA que l’on commence à leur vendre.

Nous vivons désormais dans un monde défini par une terminologie peu familière : recherche en langage naturel, recherche sémantique, « dense embedding », « vector embedding », génération augmentée par récupération, recherche approfondie, recherche agentique. Il ne s’agit pas seulement de mots à la mode, mais de familles d’approches fondamentalement différentes de la recherche d’informations, avec des compromis et des implications différents à mesure que nous allons au-delà de la simple recherche booléenne.

Aaron observe cependant que, quand ils et elles évaluent une ressource, les bibliothécaires ont tendance à se concentrer sur les fonctionnalités « externes » de la ressource, beaucoup plus que sur la pertinence intrinsèque de la recherche : on va s’axer plus sur les contenus, la compatibilité avec les résolveurs de liens, la fourniture de statistiques exploitables (si on est gestionnaire de documentation électronique) ou la présence de filtres, les possibilités de créer des alertes, le langage d’interrogation (si on est formateur.ice), bref on évalue rarement de manière consciente et systématique la qualité du moteur de recherche lui-même. Aaron explique ce biais par le fait que « depuis 15 ou 20 ans, les bases de données académiques fonctionnent toutes fondamentalement de la même manière : indexer le contenu dans un index inversé / rechercher avec des opérateurs booléens / classer avec une variante de TF-IDF ou BM25. »

[Petite parenthèse sémantique : TF-IDF (rien à voir avec les transports en Ile de France), c’est une méthode de pondération des résultats, et BM25 un algorithme de classement (et pas une radio libre) de la famille des sacs de mots, oui moi aussi j’ai appris des choses 🙂 ]

Or l’interrogation en langage naturel et la recherche sémantique bouleversent cette logique : elles permettent de se passer des booléens et des correspondances de mots-clés pour trouver quand même des documents pertinents. Avec l’IA, changement de paradigme : les « pure players » de la recherche s’appuient peu ou prou sur les mêmes sources ouvertes (Semantic scholar, OpenAlex), et ce sont les algorithmes qui font la différence. La limite avec les sources payantes devrait même progressivement s’atténuer : le protocole MCP permet déjà une sorte d’interopérabilité entre outils IA et contenus externes (et donc potentiellement aussi sous abonnement). Du côté des acteurs plus traditionnels du secteur que sont les éditeurs, la plus-value réside toujours dans les contenus sous abonnement. Leur approche reste globalement « propriétaire », certains déployant des outils IA sur leurs contenus et invitant les autres fournisseurs de contenus à rejoindre leur écosystème, et d’autres préférant mettre leurs contenus à la disposition des outils IA. La question est désormais : comment on évalue un algorithme ?

Pour Aaron Tay, il y a là un enjeu majeur de formation à la recherche d’information pour la profession :

Il s’agit notamment de comprendre comment fonctionnent les « embeddings » vectoriels, en quoi la recherche sémantique est différente, comment fonctionne la génération augmentée par récupération (RAG) et comment tester formellement les performances d’un moteur de recherche.

(* Je sais que le terme IA recouvre des techniques bien différentes, entendez ici IA comme IA générative)

[Photo : Troca-troca par Elias Rovielo sur Flickr, CC BY-NC-SA]

NISO RP-49-202X, ou comment expliquer aux éditeurs qu’ils doivent simplifier leurs workflows

La NISO (National Information Standards Organization) publie un projet de recommandation intitulé « Open Access Business Processes (OABP) Recommended Practice » (NISO RP-49-202X), ouvert aux commentaires publics jusqu’au 17 octobre 2025.

Alors que la plupart des workflows ont été initialement conçus pour les modèles par abonnement, ce texte tente de répondre à l’essor des publications en accès ouvert, en proposant :

  • Un glossaire partagé pour clarifier la terminologie,
  • Des spécifications claires de métadonnées afin d’harmoniser l’échange d’informations,
  • Des indications pour le reporting, le suivi financier et la gestion des accords.

L’idée, c’est de faciliter la collaboration entre tous les acteurs du secteur de la publication scientifique, quels que soient leurs modèles, en ajoutant un peu plus de transparence au passage.

Les autrices identifient un certain nombre de lacunes dans les process actuels, notamment :

  • Des normes et des métadonnées insuffisantes : elles soulignent le manque cruel de standards robustes pour le transfert des données entre acteurs à différents stades des workflows, des difficultés pour désambiguïser et vérifier affiliations institutionnelles, les agences de financement et les appels à projets, souvent à cause de champs en texte libre peu structurés. A cela s’ajoute la sous-utilisation des identifiants persistants (PIDs), qui existent pourtant pour les auteurs comme pour les institutions, et le manque de capacité des systèmes à gérer des paiements multi-acteurs, et/ou multi-affiliations. Ces insuffisances compliquent aussi la production de rapports pour évaluer les accords.
  • Une communication imprécise et non/mal définie : les autrices pointent un manque de clarté entre acteurs sur qui communique quoi, quand, comment et à qui dans les workflows, qui aboutit à des réponses parfois contradictoires dans la communication sur les coûts, les licences, les critères d’éligibilité, et les changements dans les portefeuilles de revues. Les éditeurs ne renseignent pas non plus systématiquement toutes les dates importantes (soumission, acceptation, publication), ce qui peut impacter l’éligibilité des articles. Tout cela entraîne confusion et frustration chez les auteurs, notamment lors de la phase de soumission de leurs publications.

Elles proposent pour y remédier, entre autres :

  • La création d’un dictionnaire de données normalisé pour structurer échanges et rapports.
  • L’intégration systématique des identifiants persistants dans tous les workflows, pour améliorer la traçabilité et la désambiguïsation.
  • Une définition claire des responsabilités et des modes de communication pour les différents acteurs à chaque étape des workflows.
  • Le développement d’un cadre modulable, pour s’adapter aux contextes locaux et aux modèles économiques différents.
  • La mise en place de mécanismes pour le suivi de toutes ces transactions, intégrant une meilleure gestion des paiements multi-acteurs.

Le projet se concentre uniquement pour l’instant sur les articles de revues, avec la perspective dans un deuxième temps d’étendre les recommandations aux livres, aux prépublications et aux actes de conférences.

Si vous envisagez de vous lancer dans la documentation électronique ou la science ouverte, ce type de document offre un bon panorama des modèles et des enjeux à l’oeuvre.

[Image : Reflect by xiaofan]

Contourner les embargos

1367763825_d6c71401fb_oJ’avais été intriguée l’an dernier à la lecture de l’article de Josh Bolick, bibliothécaire à l’université du Nebraska, Leveraging Elsevier’s Creative Commons License Requirement to Undermine Embargoes. Dans cet article, l’auteur ne faisait rien moins que démontrer une faille dans la politique de partage des contenus de l’éditeur, permettant de contourner les embargos sur le dépôt des postprints dans des archives ouvertes.

La démonstration étant un peu technique, mais la politique de l’éditeur n’ayant pas été modifiée malgré la publication de l’article, il m’a semblé intéressant de traduire le texte en français, ce que nous avons fait cet été avec Lionel Maurel, et ça donne : Tirer parti des exigences d’Elsevier sur les licences Creative Commons pour contourner les embargos.

Le pitch de l’article est le suivant : dans sa politique de partage, Elsevier fait un distingo entre archive ouverte et site web perso, le dépôt dans une archive ouverte étant soumis à un embargo (pouvant aller jusqu’à 48 mois, quand même : CarnetIST avait dès 2015 pointé les disparités disciplinaires dans leur analyse de la durée des embargos chez Elsevier), alors que la diffusion par les auteurs sur leur site web personnel peut se faire sans embargo, moyennant l’ajout d’une licence CC-BY-NC-ND. Si l’on pousse la logique jusqu’au bout, une fois que l’article est en ligne sur le site web perso avec cette licence, celui-ci devient rediffusable et donc déposable dans une archive ouverte, là aussi sans embargo.

Comme l’auteur le précise, ce dispositif n’est pas fait pour fonctionner à grande échelle, et nécessite un minimum de pédagogie de la part des bibliothécaires ; c’est d’ailleurs surtout un bon prétexte justement pour faire de la pédagogie auprès des chercheurs (sur les licences CC, sur la cession des droits, sur les conditions de diffusion des publications…). Il interroge aussi sur la notion de « site personnel », que l’éditeur oppose au site institutionnel qu’est l’archive ouverte de l’établissement : et si le site perso du chercheur est une page hébergée sur le site du labo ? Ou sa page CV sur HAL ? Il me semble que la frontière étant de plus en plus floue, ce type de clause devrait tôt ou tard disparaître de la politique de partage de l’éditeur.

FAIR data et Open data

14204638437_6fc612f4e3_oSPARC Europe a publié fin décembre 2018 une note d’information sur les données à destination des décideurs, FAIR and Open Data. Je ne suis pas certaine que seuls les décideurs aient besoin de précisions sur ce que sont les données FAIR et les données ouvertes, ou confondent les 2.
D’où ce petit récapitulatif :
* Les données ouvertes (open data) couvrent des contenus librement accessibles qui peuvent être utilisés, modifiés et partagés par n’importe qui pour n’importe quel but. Ces contenus doivent être mis à disposition dans le cadre d’une licence ouverte, et ne doivent pas imposer de restrictions aux réutilisateurs au-delà de l’attribution (CC-BY) et du maintien de conditions de partage à l’identique (CC-BY-SA).
* Les données FAIR en revanche sont des données qui suivent un certain nombre de principes pour être lisibles et utilisables par des humains comme par des machines. L’acronyme FAIR a été traduit par Facile à trouver (Findable), Accessible, Interopérable, Reutilisable.
A chaque concept correspondent 3-4 principes, dont on peut trouver la traduction sur le site de l’INRA.
La note détaille 3 confusions souvent faites à propos des notions d’Open et de FAIR :
* Tout ce qui est FAIR n’est pas censé être Open : des considérations éthiques ou économiques peuvent justifier une restriction de l’accès à des données qui respectent par ailleurs les principes techniques FAIR. Et inversement, on peut diffuser des données ouvertes techniquement inutilisables.
* FAIR c’est mieux qu’Open : je crois que vous l’avez compris, en fait on ne parle pas exactement de la même chose. Bien qu’il y ait des notions communes, autour de l’interopérabilité et de l’accessibilité notamment, ce sont 2 objectifs différents qui sont poursuivis. L’idéal étant de proposer des données à la fois FAIR et Open, évidemment.
* Les données FAIR ne s’appliquent qu’aux sciences de la vie : certes, c’est au sein de la communauté des sciences de la vie que les principes FAIR ont émergé, mais ils ont une portée plus universelle, qui peut intéresser aussi bien les sciences sociales que d’autres sciences « dures ».
Vous trouverez dans la note plusieurs schémas assez parlants, notamment sur l’implémentation de ces concepts dans la gestion des données.
C’est plus clair maintenant ? 🙂

FAIR and Open Data, a briefing for policymakers and senior managers, SPARC Europe, décembre 2018

[Photo : Janneke Staaks]
[Disclaimer : je fais partie du Board de Sparc Europe]

True colors

Dans cet article du JOLIS, « What does ‘green’ open access mean? Tracking twelve years of changes to journal publisher self-archiving policies« , Elisabeth Gadd et Denise Troll Covey ont étudié l’évolution sur 12 ans des politiques des éditeurs en matière d’auto-archivage, référencées sur Sherpa/Romeo. Ce que l’on peut en retenir :5584187526_fe3169c780_o

  • Les couleurs de Sherpa/Romeo ne reflètent plus la diversité des politiques éditoriales en matière d’auto-archivage, qui se sont complexifiées au cours des dernières années.
  • L’attribution de la couleur ne prend pas en compte la totalité des critères entrant dans les politiques des éditeurs, négligeant les embargos, le lieu de dépôt, les conditions annexes.
  • Les restrictions imposées par les éditeurs augmentent : sur le lieu de dépôt (pages perso en hausse notamment), sur la date de dépôt (de plus en plus d’embargos) et sur les conditions à remplir (lien vers le site de l’éditeur, mention de l’éditeur, suppression du pre-print après publication, ajout d’un fee pour sortir de l’embargo ou l’usage du pdf éditeur etc.)
  • Il existe une forte corrélation entre l’introduction d’options OA payantes (gold ou hybride) et l’augmentation des restrictions sur le green OA
  • Les demandes des financeurs, notamment sur les conditions de ré-utilisation, sont en hausse (dépôt sous licences CC spécifiques par exemple)
  • Globalement, on constate une augmentation des revues green (+4%), et une baisse des revues white (défavorables à l’auto-archivage). Mais c’est sans compter sur les restrictions des éditeurs : si l’on se base sur les revues autorisant un OA immédiat, dans une archive institutionnelle ou thématique, sans obligation d’en informer l’éditeur, les revues green baissent de 35%…
  • Paradoxalement, les revues acceptant le dépôt du pdf éditeur sont en augmentation : pour certains éditeurs, le green OA n’est donc pas une menace.5583597507_28c94e9d7f_o

Il y a indéniablement un effet de « greenwashing » : les éditeurs passent pour favorables à l’OA green en affichant l’aval de Sherpa/Romeo (du moment que le dépôt du pre-print et du post-print est autorisé, la revue est classée comme « green », même si des restrictions s’appliquent), alors qu’ils imposent en fait de plus en plus de contraintes au dépôt, ce qui a de quoi décourager les auteurs – et les professionnels de l’IST – qui finissent par ne plus savoir où ils en sont : l’OA gold c’est l’accès immédiat, mais c’est hors de prix, l’OA green c’est pas cher mais c’est compliqué, et il y a des éditeurs white qui autorisent quand même une forme de dépôt…

Les auteurs préconisent donc une révision du système de couleurs de Romeo et la mise en place d’un nouveau système d’évaluation du niveau d’open access des revues, prenant en compte toutes les spécificités de l’accès, sur le modèle de l’OA Spectrum établi par SPARC.

[Photos : NoHoDamon]

Les effets des big deals

« The big deal and the damage done » : dans ce dernier ouvrage, Walt Crawford a étudié les dépenses budgétaires des BU américaines sur la période 2000-2010. Il montre de façon flagrante comment les « big deals », censés au départ aider les bibliothèques à élargir leur offre documentaire électronique pour un surcoût limité, les contraignent désormais à restreindre le reste de leur offre. Quelle que soit la taille de l’établissement, les budgets dédiés aux documents imprimés connaissent une baisse continue, alors que ceux des revues électroniques ne cessent d’augmenter… Pourtant, l’édition continue à produire de nombreux ouvrages chaque année, et les activités de recherche comme d’enseignement continuent à s’appuyer aussi sur les livres et autres documents imprimés, ou sur les revues des petits éditeurs ; seulement, les bibliothèques sont coincées par les « big deals », qui ne leur laissent plus aucune latitude documentaire. Il conclut :
« Si les choses continuent au rythme qu’elles ont connu entre 2000 et 2010, le dommage risque d’être irréparable, et un nombre croissant de bibliothèques risquent de devenir guère plus que des dispositifs de fourniture d’articles subventionnés. »
51754572_9c7dd86fd3_mLe livre est disponible au format ebook ou en POD chez Lulu.com.

Par ailleurs, Andrew Odlyzko s’intéresse aussi à la question dans Open Access, library and publisher competition, and the evolution of general commerce, et son analyse n’est pas non plus très optimiste :
« Les débats sur l’économie de la communication scientifique sont habituellement consacrés à l’Open Access, à l’augmentation du coût des revues, aux profits des éditeurs, aux boycotts. Ceci ne tient pas compte de ce qui semble être un des développements bien plus importants de ce marché. Les éditeurs, grâce aux offres souvent décriées que sont les « big deals », fournissent des accès plus larges et plus égalitaires à la littérature scientifique, ce qui se rapproche d’un véritable Open access. En même temps, ils marginalisent les bibliothèques, et récupèrent une part considérable des ressources dédiées à la communication scientifique. Cela leur permet de continuer à faire des profits, tout en maintenant ce que l’on appelle de puis plusieurs décennies « l’escalade intolérable du prix des revues ». Cela freine également l’expansion de l’Open Access, et conduit vraisemblablement à un oligopole d’éditeurs contrôlant la diffusion [de la recherche scientifique] au moyen de contrats de licence à grande échelle.
Il est intéressant d’étudier le phénomène des « Big deals » pour plusieurs raisons. La façon dont les éditeurs parviennent à diminuer le rôle des bibliothèques est un des indicateurs de l’amplitude et de la vitesse à laquelle les universités sont en train de se transformer. De plus, ces « Big deals » semblent montrer la direction vers laquelle s’oriente le futur de toute l’économie, qui se caractérise par un déclin de la vie privée, une augmentation de la discrimination par les prix, une augmentation de l’opacité des modèles tarifaires, une dépendance croissante au travail peu ou pas payé d’autres acteurs pour générer des bénéfices, et des modèles économiques qui dépendent de l’inertie des consommateurs. »
[photo : Jeff Werner]

OA week : sélection de lectures

vert_ban_add_120x240.jpgCa vous aura peut-être échappé, tant le sujet est finalement assez ignoré en France*, mais c’est la semaine de l’Open Access. Marlene’s corner s’y associe, et vous propose, pour commencer, cette petite sélection de documents consacrés à l’OA :

Open Access Resources, Services, and More par Andrew Waller

Open Access Dissemination Challenges: A Case Study par Young Philip

Open Access (OA) immersion: librarians report from the field par A. Waller et Leah Vanderjagt

Open access e-books par Jennifer Dekker

Open Access. Chapter 6 of Scholarly Communication for Librarians par Heather Morrison

Libre Accès à la recherche scientifique (Open Access) et dépôts institutionnels : contexte et enjeux par Kumiko Vezina

Le coût du libre accès dans le cas du modèle hybride par Caroline Collette

Une plus grande portée pour vos recherches par l’association CARL

L’ « Open Access », pour une réelle liberté de la communication scientifique : état des lieux et problématiques par Christian Gérini

It’s a Repository, it’s a Depository, it’s an Archive…: Open Access, Digital Collections and Value par Jean-Claude Guédon

* à l’exception notable de l’IFREMER, qui est le seul organisme participant à l’OA week en France recensé sur le wiki de l’opération, bravo l’Ifremer !

Bref, de l’Open Access au menu tous les jours cette semaine !

Résultat de votre commande

photo.jpgCa y est, il est arrivé dans ma boîte, le bouquin de Walt Crawford sur les biblioblogs. The corporate librarian nous livre ses premières impressions, que je partage après un premier survol du livre : le travail d’analyse s’appuie sur tout un tas de données chiffrées, la méthodologie employée est bien décrite ; les taux et ratios sont toujours contextualisés. Plus de détails quand j’aurai eu l’occasion de m’y plonger réellement, promis.

OPACs à la loupe

6c6809261a73a8fb0e225550b1e9db46.jpgIdBilingue Blog est le blog (bilingue, donc) de la filière « information documentaire » de la Haute Ecole de Gestion de Genève. On y trouve en ce moment les résultats détaillés d’une enquête très intéressante sur l’utilisation des OPACs ; extraits de la conclusion :
 » […] nous devons avouer que la qualité des données des bibliothèques est leur atout vis à vis des autres sources de données. Le problème actuellement ne provient pas de ces dernières, mais bien du manque d’exploitation de leur potentiel par les moteurs de recherche, et du manque de visibilité que les interfaces leur donnent. »
« Pour terminer ce rapport, nous voudrions aborder le fait que l’organisation des OPACs ne doit plus être réalisée en dépendance stricte aux fabricants de SIGB. Si la gestion interne des données reste l’apanage de ces fabricants pour les grandes bibliothèques, il faut bien remarquer que l’accès aux données et la constitution des OPACs peuvent être réalisées de manière complètement indépendante. Les 3 catalogues étudiés ont pratiquement repris les fonctionnalités de recherches proposées par le fabricant de leur système de gestion. Or nous observons aujourd’hui que le développement web devient de plus en plus facile et que les bibliothécaires peuvent élaborer leur OPAC idéal sans l’aide des fabricants. » Et de citer Scriblio (l’OPAC basé sur WordPress) comme alternative aux systèmes propriétaires.
[photo : dave & bry]

Peter’s mantras

Architectures for Collaboration: Roles and Expectations for Digital Libraries est un article du numéro de mars / avril 2008 d’Educause Review dans lequel Peter Brantley liste ce qu’il pense que les bibliothèques (numériques) doivent faire sous la forme de mantras (en italique c’est moi) :c67b33255578b685ae92794b88b05962.jpg
– Les bibliothèques doivent être accessibles partout – là où vont les utilisateurs
– Les bibliothèques doivent être conçues pour s’améliorer avec l’usage que les gens en font – pour s’enrichir de l’usage qui en est fait
– Les bibliothèques doivent être portables – téléphones, assistants personnels, écrans de multiples tailles : les données doivent pouvoir être consultées quel que soit le support de lecture
– Les bibliothèques doivent pouvoir tenir compte du lieu où sont leurs utilisateurs – elles doivent pouvoir diffuser de l’information locale quand elles en disposent
– Les bibliothèques doivent aider à raconter des histoires – en assistant la diffusion de contenus locaux
– Les bibliothèques doivent aider à apprendre – en étant à l’écoute aussi des étudiants, pas seulement des enseignants
– Les bibliothèques doivent être des outils du changement – la publication prend d’autres formes, que les bibliothèques soutenir et anticiper
– Les bibliothèques doivent offrir des pistes d’exploration – et permettre à leurs utilisateurs de manipuler leurs données et leurs outils comme ils le font avec le reste des informations issues du web
– Les bibliothèques doivent aider à maintenir la mémoire – la conservation est un processus continu
– Les bibliothèques doivent porter la parole des autres – et se faire l’écho des problématiques qui touchent à l’édition, la proprité intellectuelle, la diffusion des idées…
– Les bibliothèques doivent étudier l’art de la guerre – pour pouvoir proposer des alternatives aux solutions commerciales et / ou propriétaires
[photo : j/f/photos]


décembre 2025
L M M J V S D
1234567
891011121314
15161718192021
22232425262728
293031  

Archives

Licence

Licence Creative Commons
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.