Archive for the 'Chiffres & stats' Category

Sci-Hub : analyse croisée

33297043401_0b87a9eb6c_zBastian Greshake, un doctorant en biologie de l’université de Francfort, a eu l’idée de croiser les données sur les 28 millions de téléchargements effectués sur Sci-Hub en 2015-2016 avec les 62 millions de DOI stockés dans la base , voici quelques-uns des résultats qu’il a pu observer :

  • 35% des articles téléchargés ont moins de 2 ans, ce qui a  tendance à montrer l’inefficacité des embargos imposés par les éditeurs
  • Il y a un effet de longue traîne, avec des articles téléchargés datant d’avant 1900 : « enclosure » du domaine public vendu sous forme de bouquets d’archives ?
  • Moins de 10% des revues constituent plus de 50% des contenus de la base, et moins de 1% des revues représentent plus de 50% des téléchargements d’articles
  • Près de 50% des articles téléchargés proviennent de revues éditées par 3 éditeurs : Elsevier, Springer-Nature et Wiley, avec pour ce dernier une sous-représentation dans les téléchargements compte-tenu de la part de contenus présents dans la base.
  • Forte représentation de la chimie et, dans une moindre mesure, des sciences de l’ingénieur parmi les titres les plus demandés : pour l’auteur c’est à mettre en lien avec le fonctionnement de ces disciplines, pour lesquelles la part de recherche effectuée dans le secteur privé est importante, et pour laquelle on peut supposer plus de difficultés d’accès aux ressources numériques payantes que dans le secteur public.

Source : Looking into Pandora’s box : the content of Sci-hub and its usage

A noter : La diffusion de la liste des 62 millions de DOI contenus dans la base a déjà inspiré quelques développements, comme par exemple cet utilitaire qui permet de voir le pourcentage de couverture sur sci-hub, par revue.
[Photo : Astyan42]

Des métriques pour l’open access

De  la même manière que les usages des revues en open access sont relativement peu étudiés dans les bilans statistiques, l’open access est actuellement assez peu pris en compte dans les différentes mesures de l’activité de publication, qui restent souvent basées sur le volume de citations.

Il serait cependant intéressant, pour faire évoluer les pratiques, de reconnaître l’ouverture des résultats de la recherche comme un avantage, un critère positif à côté d’autres mesures de la qualité du travail de recherche. C’est dans cette optique que David Nichols et Michael Twidale ont réfléchi à différents indicateurs, qu’ils présentent dans l’article Metrics for openness, dont je vous conseille la lecture. Voici quelques-unes de leurs propositions :

  • Practical openness index : le nombre d’articles et de communications en accès ouvert d’un auteur divisé par le nombre d’articles et de communications publiés par cet auteur, l’idée étant de s’approcher le plus de 1 (toute la production de l’auteur en accès ouvert).
  • Effective openness index : celui-ci prend en compte les questions de copyright, qui font qu’un article ne peut pas être « libéré » en OA ; on déduit du nombre total de publications celles dont on est sûr que les conditions de copyright empêchent toute ouverture potentielle.
  • Acce$$ index : ici on mesure le coût d’accès à la production d’un auteur pour un lecteur lambda ; la difficulté est de déterminer le coût d’un article, sachant que celui-ci varie selon le tarif payé par l’établissement auquel le lecteur appartient, et s’il n’appartient pas à une université, quel tarif choisir : le tarif public ? le coût du pay-per-view ? Et comment déterminer le coût d’un chapitre ?
  • Openness cost index : la mesure des coûts pour la mise en accès ouvert des documents prend en compte les APC, mais aussi, et c’est plus difficile à calculer, le temps et les efforts nécessaires pour y arriver : le temps de saisie (celui du chercheur ou celui d’une tierce personne), le temps de recherche de la bonne version à déposer, etc.
  • Illegality index : combien d’articles sont accessibles librement au mépris des règles de copyright ?

Les auteurs rapportent un effet vertueux de ce type de métrique individuelle : l’envie de faire augmenter son score est motivante. La jauge proposée sur dissem.in est un bon exemple de visualisation de ce type de données.

Une des difficultés rapportées par les auteurs pour établir ces métriques réside dans le choix de l’outil de mesure : faut-il considérer l’accès potentiel aux documents (en tant qu’auteur, je sais ce que j’ai produit en OA), ou bien le niveau de « découvertabilité » (discoverability) des documents (quels documents sortent le plus dans les recherches sur Google Scholar, par exemple) ; un document en accès ouvert qui est difficile à trouver est-il vraiment ouvert ?

Les auteurs indiquent qu’il est possible d’appliquer ces ratios au niveau d’une institution : cela me semble encore difficile, on manque de données propres, fiables et exploitables pour pouvoir faire ce type d’analyse à grande échelle, mais l’idée est bonne.

A AMU nous calculons annuellement un indicateur OA (iOA)* pour l’établissement, basé sur le nombre de publiants potentiels et sur le nombre de documents déposés en texte intégral dans HAL AMU, ça donne la formule suivante :

iOA = NBA (nombre de dépôts en texte intégral dans l’archive dans l’année) / NBEC (nombre d’enseignants-chercheurs, d’ATER, de doctorants et de postdocs de l’année)

Bien sûr il pourrait être affiné ou pondéré, complété pour prendre en compte l’OA Gold, etc. – en attendant il nous donne une grande tendance, et c’est déjà pas si mal…

Nichols, D. M., & Twidale, M. B. (2017). Metrics for openness. Journal of the Association for Information Science and Technology, 68(4), 1048–1060. https://doi.org/10.1002/asi.23741

* mis au point par Marin Dacos.

 

Arrêter Science Direct ?

Dans Leaving Elsevier’s big deal, Franco Toni raconte comment la bibliothèque de l’Istituto Superiore di Sanità (ISS) italien, l’équivalent de notre INSERM national, a dû, en raison d’une baisse significative de son budget (-30%), mettre fin en 2010 à son contrat avec Elsevier pour l’accès à Science Direct. Elle a ramené sa liste de revues à 185 titres (contre 343 dans la liste de départ en 2002) au format électronique, et réduit sa dépense chez cet éditeur de 50% (sous la menace d’une suppression totale de tous les abonnements néanmoins). Ce changement a eu des conséquences :
– relativement limitées pour les chercheurs : perte de l’accès aux 2200 titres (mais accès aux archives des années souscrites), mais l’important travail de sélection fait en amont a permis de conserver les titres les plus pertinents pour le plus grand nombre ; ce sont surtout les domaines de recherche spécialisés qui sont pénalisés (les revues avec moins de 100 téléchargements annuels ont été supprimées)
– positives pour l’institution : une baisse des téléchargements de 22% seulement, pas d’augmentation significative des demandes de fourniture de documents. Au passage, l’auteur souligne la gestion approximative de l’éditeur pour la sécurisation de ses propres contenus : les accès ont été supprimés pour la bibliothèque mais sont restés ouverts via le résolveur de liens pendant 6 mois…
– négatives pour le consortium dont la bibliothèque était membre : le manque à gagner à été répercuté sur les autres membres du consortium
Cet exemple illustre une fois encore combien le big deal, censé protéger les bibliothèques des augmentations imprévisibles des éditeurs, s’est retourné contre elles : le poids du chiffre d’affaires historique, tel le boulet des frères Dalton, empêchant tout ajustement des dépenses au contexte budgétaire. Par ailleurs, l’absence d’une liste publique des tarifs, les changements continuels dans la liste des titres disponibles et dans l’organisation des collections font que finalement les bibliothécaires sont incapable d’évaluer le coût réel de ce qu’ils achètent.
L’auteur conclut que ce modèle tarifaire ne doit plus servir de référence dans les négociations, qu’il faut trouver de nouveaux modèles, plus adaptables à l’activité des institutions ; pour lui un de ces modèles devrait porter sur une sélection de titres par discipline, et prendre en compte des indicateurs comme les statistiques d’usage et le coût à l’article. Je suis plutôt dubitative sur ce type d’indicateurs : voir à ce propos les réflexions toujours d’actualité de Dominique Rouger…

[Photo : Môsieur J]

Temps de veille

Resourceshelf rapporte les résultats d’une enquête menée par l’Université de Göteborg sur les activités de recherche d’information et de veille de différents groupes professionnels (des infirmières, des enseignants et des bibliothécaires ont été observés) :

« Les bibliothécaires diffèrent des enseignants et des infirmières en cela que la recherche d’information est essentielle à leur profession. Cependant, comme les enseignants, les bibliothécaires interrogés ont répondu n’avoir jamais été formés à la veille. Le temps de travail dédiée aux activités telles que la consultation de la littérature professionnelle est rare dans les 3 groupes étudiés, et ceci bien que les bibliothécaires puissent bénéficier d’un accès à une information considérable sur leur lieu de travail. »

A peu près au même moment est sortie la dernière enquête sur les bibliothécaires universitaires menée par le Primary Research Group ; elle s’est penchée cette fois sur leur usage des blogs, de la littérature professionnelle, des conférences et leur participation associative. Voici les quelques résultats disponibles en ligne gratuitement (merci encore à Resourceshelf – le rapport complet coûte 85$ !) :

– les professionnels consacrent en moyenne 22,26 minutes par jour à la lecture de la presse professionnelle au format papier (31 minutes pour les plus de 60 ans)

– les moins de 30 passent 19 minutes quotidiennes à la consultation des blogs professionnels

– les listes de diffusion continuent à intéresser surtout ceux qui ont entre 10 et 20 ans d’expérience (qui déclarent y consacrer 23,12 minutes par jour en moyenne)

– 72% des sondés font partie d’une association professionnelle

– les professionnels chargés du service public sont ceux qui assistent le moins à des conférences

Disons que ça fait, papier + électronique compris, à peu près 2 heures hebdomadaires de veille : ça vous paraît beaucoup ? Peu ? Vous y passez combien de temps, à cette veille, vous ?

[photo : quinn.anya]

Impressions de Lille

J’ai assisté les 26 et 27/11/2009 à la 2ème édition du colloque international EPEF (Évaluation des périodiques électroniques dans le réseau universitaire français : approche comparative par les usages). La thématique de cette année était « Ressources électroniques académiques : mesures et usages« . Je ne ferai pas de compte-rendu ici, parce que des actes très complets seront publiés au printemps 2010. Et parce que tous les supports de présentation seront disponibles en ligne (et traduits même, pour les interventions en anglais). Je me contenterai d’un focus sur quelques points qui m’ont paru intéressants :

– A propos des mesures d’usage : qu’est-ce qu’on comptabilise réellement ? Des articles, des téléchargements ? Ni l’un ni l’autre, pour Dominique Rouger (Université Jean Monnet, Saint-Etienne), qui préfère parler de SFTAR (Successful Full-Text Access Requests). Il propose en outre une manière originale de former l’ensemble des personnels d’une BU à l’utilisation des ressources électroniques, en leur demandant d’interroger une revue en ligne par jour. Ce qui a pour corollaire l’augmentation des statistiques d’usage et devrait donc entraîner une baisse proportionnelle des coûts à l’article – ce qui n’est pas vraiment le cas, car toutes les requêtes ne se valent pas (il distingue les requêtes académiques, les requêtes pédagogiques et les requêtes de manipulation), et tout ce qui est comptabilisé n’est pas pertinent.

– A la bibliothèque de l’Université de Wageningen, aux Pays-Bas, Marco Van Weller établit un coût prévisionnel des revues en fonction des coûts et statistiques d’usage de l’année précédente (vous trouverez les formules mathématiques dans son diaporama) ; comme bon nombre de BU, il n’a guère de marge de manoeuvre pour faire évoluer sa politique documentaire : 90% de son budget pour les ressources électroniques étant consacré à des bouquets, seuls les 10% restants peuvent faire l’objet d’ajustements.

– Il a pas mal été question de l’usage des archives ouvertes et des ressources libres, avec 2 questionnements un peu différents :

* Comment le mesurer l’usage des AO, sachant que les utilisateurs sont de plus en plus nomades, et que le site de la bibliothèque est loin d’être leur point d’accès privilégié ? La solution passe apparemment par la création d’un identifiant unique (comme le DOI existant pour les articles du secteur commercial) pour la littérature grise. [A noter également, sur la question des rapports entre AO et bibliométrie, l’approche qui consiste, comme c’est le cas à l’Université de Wageningen, à utiliser l’AO comme source de l’analyse bibliométrique, avec la conséquence non négligeable qu’un affichage plus visible de l’activité de recherche sur le web motive fortement le dépôt par les chercheurs.]

* Comment promouvoir l’usage des revues en open access (OA) auprès des communautés scientifiques ? L’étude menée par Revues.org montre des résultats symétriquement opposés en terme de public touché par Revues.org et Cairn (les étudiants consultent Cairn, Revues.org touche plus les étudiants avancés et les chercheurs). Il y a vraisemblablement un lien avec le fait que Cairn, payé par les bibliothèques qui s’y abonnent, bénéficie d’une promotion que n’a pas Revues.org, en libre accès. Car politique documentaire et libre accès, cela ne va pas de soi : il me semble avoir déjà évoqué ici le désintérêt des bibliothécaires pour ce qui se passe sur le web en dehors du site de la bibliothèque en général, cela semble se confirmer. Cela dit, les revues en OA comme les archives ouvertes, si elles sont en accès libre, ne sont pas pour autant « gratuites » (il y a toujours quelqu’un qui paye) : il y aura donc forcément un jour ou l’autre à évaluer leur intérêt pour leurs financeurs (les universités, les organismes de recherche et autres acteurs institutionnels). D’où l’importance de leur promotion et de la mesure de leur usage. Est-ce aux bibliothèques d’assurer cette promotion ? Cela ne semble pas encore acquis dans les pratiques de politique documentaire actuelles.

Ce ne sont que quelques-uns des thèmes abordés aux cours de ces journées très intéressantes – et très denses -, je mettrai le lien vers les interventions dès qu’elles seront disponibles, en espérant que les actes seront peut-être sous forme numérique ? On ne sait jamais…

[photos : marlened, Gideon Burton]

<UPDATE>Les supports des différentes présentations sont en ligne sur le site de l’EPEF.</UPDATE>

Du changement dans l’Ere

9fd3afd02f9c1fae4f28a79c3c42d99a.jpgDes fois, quand on fait des suggestions au Ministère, elles sont prises en compte (bon, d’accord, surtout quand on est nombreux à faire remonter les mêmes choses, ça aide). C’est ce que je me suis dit alors que je m’apprêtais à faire mon petit pensum de rentrée, à savoir remplir l’Enquête sur les Ressources Electroniques. Prononcée E.R.E., « éré » ou encore « ère » (l’appellation n’est pas normalisée, pfff… je plaisante), cette enquête annuelle permet à la Sous-Direction des Bibliothèques et de l’Information Scientifique, ainsi qu’aux établissements de l’enseignement supérieur (puisqu’une partie des résultats sont publiés sur le site de la SDBIS), de savoir quelles ressources en ligne sont disponibles, pour quels montants, selon quelles conditions d’achat (individuel ou mutualisé).

Cette année, ô surprise, il ne faut plus renvoyer des classeurs excel tout moches, mais remplir des formulaires en ligne tout moches, et, miracle, les ressources faisant l’objet d’une négociation au sein du consortium Couperin sont préremplies, ce qui fait gagner un temps énorme, donne l’impression de travailler enfin au 21ème siècle, et doit sérieusement simplifier la vie de la personne chargée du traitement ultérieur des données. Bon, le serveur est régulièrement saturé, et le système de visualisation des réponses saisies fonctionne de manière quelque peu aléatoire, mais nom d’un chien, quel progrès !!! Bravo les gars (et les filles), et merci de nous faire gagner du temps !
(Maintenant il va falloir faire pareil pour l’ESGBU ;-))
[photo : (nutmeg)]

Statistiques de ce blog

3e4841402c19819371aabca1f23b8879.jpgMon hébergeur me permet de consulter mes statistiques mensuelles, et de les mouliner comme je veux après.

Vous avez ci-joint le nombre de visites (= les « hits »), le nombre de visiteurs uniques et le nombre moyen de visites par jour (on ne voit pas bien, mais ça fait dans les 260 en moyenne).

Tout ceci pour consulter 344 billets et 341 commentaires produits depuis janvier 2006.


juillet 2017
L M M J V S D
« Juin    
 12
3456789
10111213141516
17181920212223
24252627282930
31  

Archives

Licence

Licence Creative Commons
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.