AI | Marlène's corner

Un billet que j’ai trouvé particulièrement éclairant dans cette période où l’IA* est partout, c’est celui-ci : “We’re Good at Search”… Just Not the Kind That the AI era Demands – a Provocation, dans lequel Aaron Tay dit, en substance, que les bibliothécaires ne sont pas subitement devenus des quiches en recherche, mais qu’ils et elles doivent mettre à jour leur « système d’exploitation » pour mieux appréhender les ressources et outils documentaires boostés à l’IA que l’on commence à leur vendre.

Nous vivons désormais dans un monde défini par une terminologie peu familière : recherche en langage naturel, recherche sémantique, « dense embedding », « vector embedding », génération augmentée par récupération, recherche approfondie, recherche agentique. Il ne s’agit pas seulement de mots à la mode, mais de familles d’approches fondamentalement différentes de la recherche d’informations, avec des compromis et des implications différents à mesure que nous allons au-delà de la simple recherche booléenne.

Aaron observe cependant que, quand ils et elles évaluent une ressource, les bibliothécaires ont tendance à se concentrer sur les fonctionnalités « externes » de la ressource, beaucoup plus que sur la pertinence intrinsèque de la recherche : on va s’axer plus sur les contenus, la compatibilité avec les résolveurs de liens, la fourniture de statistiques exploitables (si on est gestionnaire de documentation électronique) ou la présence de filtres, les possibilités de créer des alertes, le langage d’interrogation (si on est formateur.ice), bref on évalue rarement de manière consciente et systématique la qualité du moteur de recherche lui-même. Aaron explique ce biais par le fait que « depuis 15 ou 20 ans, les bases de données académiques fonctionnent toutes fondamentalement de la même manière : indexer le contenu dans un index inversé / rechercher avec des opérateurs booléens / classer avec une variante de TF-IDF ou BM25. »

[Petite parenthèse sémantique : TF-IDF (rien à voir avec les transports en Ile de France), c’est une méthode de pondération des résultats, et BM25 un algorithme de classement (et pas une radio libre) de la famille des sacs de mots, oui moi aussi j’ai appris des choses 🙂 ]

Or l’interrogation en langage naturel et la recherche sémantique bouleversent cette logique : elles permettent de se passer des booléens et des correspondances de mots-clés pour trouver quand même des documents pertinents. Avec l’IA, changement de paradigme : les « pure players » de la recherche s’appuient peu ou prou sur les mêmes sources ouvertes (Semantic scholar, OpenAlex), et ce sont les algorithmes qui font la différence. La limite avec les sources payantes devrait même progressivement s’atténuer : le protocole MCP permet déjà une sorte d’interopérabilité entre outils IA et contenus externes (et donc potentiellement aussi sous abonnement). Du côté des acteurs plus traditionnels du secteur que sont les éditeurs, la plus-value réside toujours dans les contenus sous abonnement. Leur approche reste globalement « propriétaire », certains déployant des outils IA sur leurs contenus et invitant les autres fournisseurs de contenus à rejoindre leur écosystème, et d’autres préférant mettre leurs contenus à la disposition des outils IA. La question est désormais : comment on évalue un algorithme ?

Pour Aaron Tay, il y a là un enjeu majeur de formation à la recherche d’information pour la profession :

Il s’agit notamment de comprendre comment fonctionnent les « embeddings » vectoriels, en quoi la recherche sémantique est différente, comment fonctionne la génération augmentée par récupération (RAG) et comment tester formellement les performances d’un moteur de recherche.

(* Je sais que le terme IA recouvre des techniques bien différentes, entendez ici IA comme IA générative)

[Photo : Troca-troca par Elias Rovielo sur Flickr, CC BY-NC-SA]

L	M	M	J	V	S	D
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Marlène's corner

Posts Tagged 'AI'

Recherche documentaire et IA : il est temps de mettre à jour notre propre système

Archives

Tags

Licence