Sci-Hub : analyse croisée

33297043401_0b87a9eb6c_zBastian Greshake, un doctorant en biologie de l’université de Francfort, a eu l’idée de croiser les données sur les 28 millions de téléchargements effectués sur Sci-Hub en 2015-2016 avec les 62 millions de DOI stockés dans la base , voici quelques-uns des résultats qu’il a pu observer :

  • 35% des articles téléchargés ont moins de 2 ans, ce qui a  tendance à montrer l’inefficacité des embargos imposés par les éditeurs
  • Il y a un effet de longue traîne, avec des articles téléchargés datant d’avant 1900 : « enclosure » du domaine public vendu sous forme de bouquets d’archives ?
  • Moins de 10% des revues constituent plus de 50% des contenus de la base, et moins de 1% des revues représentent plus de 50% des téléchargements d’articles
  • Près de 50% des articles téléchargés proviennent de revues éditées par 3 éditeurs : Elsevier, Springer-Nature et Wiley, avec pour ce dernier une sous-représentation dans les téléchargements compte-tenu de la part de contenus présents dans la base.
  • Forte représentation de la chimie et, dans une moindre mesure, des sciences de l’ingénieur parmi les titres les plus demandés : pour l’auteur c’est à mettre en lien avec le fonctionnement de ces disciplines, pour lesquelles la part de recherche effectuée dans le secteur privé est importante, et pour laquelle on peut supposer plus de difficultés d’accès aux ressources numériques payantes que dans le secteur public.

Source : Looking into Pandora’s box : the content of Sci-hub and its usage

A noter : La diffusion de la liste des 62 millions de DOI contenus dans la base a déjà inspiré quelques développements, comme par exemple cet utilitaire qui permet de voir le pourcentage de couverture sur sci-hub, par revue.
[Photo : Astyan42]

Demandes de retrait de l’APA : ça ne passe pas

Choc dans la communauté des psychologues cette semaine :
14414514303_7f2ed6880f_ml’American Psychological Association, l’APA, qui a lancé il y a quelques mois un projet pilote visant « à repérer et à supprimer les articles des revues de l’APA illégalement diffusés en ligne », a envoyé à ses auteurs des demandes de retrait des articles qu’ils avaient eux-mêmes mis en ligne, sur leurs sites web personnels ou sur des sites institutionnels.

Légalement, l’APA a tout à fait le droit de faire ce type de demande aux auteurs, puisqu’elle détient tous les droits sur les articles. En terme de relations publiques et d’image vis à vis des auteurs cependant, cette opération s’est avérée plutôt néfaste : de nombreux auteurs ont exprimé leur mécontentement sur les réseaux sociaux, obligeant l’APA a rectifier le tir dans un communiqué de presse indiquant qu’elle allait concentrer ses efforts sur les sites de partage pirates, et que le dépôt dans les archives ouvertes ou sur les sites non-commerciaux cadrait bien avec sa politique en faveur du partage de la science – car à la base, l’APA est bien référencé dans Sherpa/Romeo comme un éditeur « green ».

Cette mauvaise opération de relations publiques a paradoxalement un effet positif : la polémique a ainsi (re)mis sous les yeux des chercheurs, qui ont tendance à les ignorer, les questions liées à la cession de leur droits aux éditeurs, et leur a rappelé qu’ils gardaient leurs droits sur leurs versions auteur, et pouvaient les déposer sur des archives ouvertes ou des seveurs de pre-prints, comme PsyArXiv par exemple.

Parmi les commentaires sur cette affaire, il est fait à plusieurs reprises référence à initiative PsyOA qui promeut, comme ses consoeurs de la Fair Open Access Alliance, les principes FAIR : transparence de la gouvernance des revues, maintien des droits aux auteurs, publication en OA avec une licence explicite, pas de publication conditionnée au paiement de frais, et si frais de diffusion il y a, ceux-ci doivent être bas, transparents et proportionnels à l’activité réelle de publication.

Sources :
Authors peeved by APA’s article takedown pilot par Aggie Mika in The Scientist
APA starts monitoring unauthorized internet posting of published articles sur Scinoptica
Is the APA tying to take your science down ? chez Alex Holcombe
[Photo : APA 2014 par George Reyes]

Des métriques pour l’open access

De  la même manière que les usages des revues en open access sont relativement peu étudiés dans les bilans statistiques, l’open access est actuellement assez peu pris en compte dans les différentes mesures de l’activité de publication, qui restent souvent basées sur le volume de citations.

Il serait cependant intéressant, pour faire évoluer les pratiques, de reconnaître l’ouverture des résultats de la recherche comme un avantage, un critère positif à côté d’autres mesures de la qualité du travail de recherche. C’est dans cette optique que David Nichols et Michael Twidale ont réfléchi à différents indicateurs, qu’ils présentent dans l’article Metrics for openness, dont je vous conseille la lecture. Voici quelques-unes de leurs propositions :

  • Practical openness index : le nombre d’articles et de communications en accès ouvert d’un auteur divisé par le nombre d’articles et de communications publiés par cet auteur, l’idée étant de s’approcher le plus de 1 (toute la production de l’auteur en accès ouvert).
  • Effective openness index : celui-ci prend en compte les questions de copyright, qui font qu’un article ne peut pas être « libéré » en OA ; on déduit du nombre total de publications celles dont on est sûr que les conditions de copyright empêchent toute ouverture potentielle.
  • Acce$$ index : ici on mesure le coût d’accès à la production d’un auteur pour un lecteur lambda ; la difficulté est de déterminer le coût d’un article, sachant que celui-ci varie selon le tarif payé par l’établissement auquel le lecteur appartient, et s’il n’appartient pas à une université, quel tarif choisir : le tarif public ? le coût du pay-per-view ? Et comment déterminer le coût d’un chapitre ?
  • Openness cost index : la mesure des coûts pour la mise en accès ouvert des documents prend en compte les APC, mais aussi, et c’est plus difficile à calculer, le temps et les efforts nécessaires pour y arriver : le temps de saisie (celui du chercheur ou celui d’une tierce personne), le temps de recherche de la bonne version à déposer, etc.
  • Illegality index : combien d’articles sont accessibles librement au mépris des règles de copyright ?

Les auteurs rapportent un effet vertueux de ce type de métrique individuelle : l’envie de faire augmenter son score est motivante. La jauge proposée sur dissem.in est un bon exemple de visualisation de ce type de données.

Une des difficultés rapportées par les auteurs pour établir ces métriques réside dans le choix de l’outil de mesure : faut-il considérer l’accès potentiel aux documents (en tant qu’auteur, je sais ce que j’ai produit en OA), ou bien le niveau de « découvertabilité » (discoverability) des documents (quels documents sortent le plus dans les recherches sur Google Scholar, par exemple) ; un document en accès ouvert qui est difficile à trouver est-il vraiment ouvert ?

Les auteurs indiquent qu’il est possible d’appliquer ces ratios au niveau d’une institution : cela me semble encore difficile, on manque de données propres, fiables et exploitables pour pouvoir faire ce type d’analyse à grande échelle, mais l’idée est bonne.

A AMU nous calculons annuellement un indicateur OA (iOA)* pour l’établissement, basé sur le nombre de publiants potentiels et sur le nombre de documents déposés en texte intégral dans HAL AMU, ça donne la formule suivante :

iOA = NBA (nombre de dépôts en texte intégral dans l’archive dans l’année) / NBEC (nombre d’enseignants-chercheurs, d’ATER, de doctorants et de postdocs de l’année)

Bien sûr il pourrait être affiné ou pondéré, complété pour prendre en compte l’OA Gold, etc. – en attendant il nous donne une grande tendance, et c’est déjà pas si mal…

Nichols, D. M., & Twidale, M. B. (2017). Metrics for openness. Journal of the Association for Information Science and Technology, 68(4), 1048–1060. https://doi.org/10.1002/asi.23741

* mis au point par Marin Dacos.

 

Le marché du mardi n°49

Parce qu’il existe des fans du « marché du mardi », en voici une nouvelle édition, plus light (quoi que) :

Preprints stuff
Complémentarité renforcée entre l’American Society for Microbiology (ASM) et le serveur de preprints Biorxiv : une mention « accepté pour publication » figure désormais sur tous les preprints acceptés pour diffusion dans les 4 revues OA de l’éditeur.

Revues stuff
La fondation MathOA propose d’accompagner les revues de mathématiques qui souhaitent passer au modèle OA, dans le respect des principes d’un open access équitable (« fair open access« ), à savoir une gouvernance transparente, le maintien du copyright aux auteurs, la diffusion avec une licence OA, des frais de publication non obligatoires, et, s’il y a lieu, d’un montant raisonnable, proportionnel aux coûts réels.

Après la disparition de la liste noire de Jeffrey Beall (Cameron Neylon explique très bien que les listes noires ne sont pas gérables, pas fiables, et pas éthiques), on va voir arriver des listes blanches spécialisées : ça commence avec la Greenlist qui couvre les revues d’urologie.

Où publier en open access dans le domaine de la chimie en 2017 ? Ce billet dresse une liste des différentes options, en mentionnant le tarif public des APC quand il y en a, ainsi que le mode de peer review (ouvert ou fermé).

Ca peut servir : une liste des remises sur les APC proposées par certains éditeurs – intéressant aussi de voir comment les bibliothèques diffusent l’information à leurs communautés (pour ceux que ça intéresse : à AMU nous stockons l’info sur le libguide open access et communiquons via la newsletter interne et les listes de diffusion).

Numérisation stuff
De la numérisation grand public : envoyez vos livres papier à 1$scan , on vous les renverra au format numérique, pour un coût de 1 dollar les 100 pages. Ils se chargent même de recycler le papier…

De la numérisation pour les pros : la Digital library federation met à disposition de la communauté ce calculateur, pour évaluer le coût d’un projet de numérisation.

Ebooks stuff
Bon à savoir : chez JSTOR il y a aussi des ebooks en open access, et même des éditions récentes.

Les pre-prints en 10 points

4069417645_570914e701_zUn pre-print est une contribution scientifique non validée par les pairs, qui peut être destinée à la publication (mais ce n’est pas une obligation). Les initiatives autour des pre-prints se multiplient ; Philip Bourne, Jessica Polka, Ronald Vale et Robert Kiley présentent en 10 points l’intérêt des pre-prints aujourd’hui :

Les pre-prints accélèrent la diffusion des connaissances : ils permettent de s’affranchir des délais longs de la publication (comptez en moyenne 9 mois entre la soumission et la publication d’un article dans une revue).

Les pre-prints rendent possible une science ouverte (« open science ») et améliorent la communication scientifique : ils ne sont pas soumis aux contraintes du copyright et leur consultation n’est pas restreinte, ils peuvent être fouillés par des programmes informatiques.

Les pre-prints fournissent du contenu scientifique qui serait perdu sans cela : un sujet qui n’a pas trouvé son public au moment où il a été traité, les travaux d’un étudiant ayant changé d’établissement, des résultats négatifs : ces contenus ne seront pas forcément publiés dans une revue, ils peuvent néanmoins servir à la communauté. « Oui mais ils ne sont pas validés ! » – certes, mais ni plus ni moins que les échanges dans les congrès, ou les blogs scientifiques…

Les pre-prints ne sont pas synonymes de mauvaise qualité : ce sont des contributions diffusées publiquement, qui peuvent être citées, et mettent en jeu la réputation de leurs auteurs, qui ont donc tout intérêt à diffuser des contenus de qualité – c’est en tout cas ce que l’on constate sur arxiv et biorxiv.

Les pre-prints permettent une évaluation rapide des résultats controversés : leur diffusion publique permet la discussion, le repérage des erreurs, la correction des données. Les NIH ont ainsi pu obtenir une vision très complète et très documentée de résultats controversés.

Les pre-prints n’empêchent pas forcément la publication : au vu de cette liste des politiques éditoriales concernant les pre-prints, on constate que peu d’éditeurs refusent des contributions au motif qu’elles ont déjà été déposées sur un serveur de pre-prints. La tendance est même plutôt à l’ouverture aux pre-prints, avec le développement de passerelles entre les serveurs de pre-prints et les outils de soumission aux revues, et d’epi-revues.

Les pre-prints ne mènent pas au plagiat : l’exemple d’arxiv montre que la communauté s’autorégule : des comportements plagiaires ne sont pas tolérés.

Les pre-prints permettent d’enregistrer la priorité : les contenus sont horodatés et publics, garantissant la paternité de leur auteur et leur antériorité dès leur dépôt, ce que ne permettent pas les revues, en raison de la validation par les pairs encore le plus souvent « fermée » et des délais de publication.

Les pre-prints peuvent appuyer les demandes de financement et l’avancement de carrière : les délais de publication sont un handicap, mieux vaut un dossier de financement avec des pre-prints disponibles en texte intégral immédiatement, c’est en tout cas ce qu’indique le fait que les organismes de financement, qui incluent de plus en plus l’intégration des pre-prints dans leurs politiques de subventionnement de la recherche. Concernant l’avancement, on peut imaginer qu’un pre-print assumé par son auteur aurait autant de poids que d’autres publications dans le processus d’évaluation.

Les pre-prints s’adaptent aux usages de leurs communautés : biorxiv par exemple n’accepte pas les papiers comportant des données sur des sujets humains, qui posent des questions d’ordre éthique, juridique et social.

Ten simple rules for considering preprints, disponible sur PEERJ Preprints.

N’enterrez pas les archives ouvertes !

22644657642_80f8c7ae73_zDans ce billet de juillet dernier, « Let IR RIP » (en gros, « Ci-gisent les archives ouvertes institutionnelles »), Eric Van de Velde explique pourquoi, pour lui, les AO sont finies (il se concentre sur les AO d’établissements) :

  • Manque d’enthousiasme des enseignants-chercheurs : ils déposent par obligation, par par choix – on ne peut pas parler d’adhésion à l’OA
  • La gestion au niveau local des AO est déconnectée du fonctionnement plus global des communautés scientifiques
  • Les droits de réutilisation des contenus sont trop restrictifs pour pouvoir permettre une recherche fédérée efficace
  • Les AO ne sont pas suffisamment utilisées comme des outils de recherche (ie comme source de contenus) pour qu’une communauté d’utilisateurs permette d’en améliorer la qualité et les fonctionnalités
  • Le coût de la gestion des AO est disproportionné par rapport aux fonctionnalités limitées qu’elles proposent
  • La logique institutionnelle des AO n’épouse pas la logique de carrière des enseignants-chercheurs
  • Il manque aux AO une couche d’interactivité sociale pour stimuler les échanges entre enseignants-chercheurs
  • Les services autour des AO (type réseaux académiques) sont développés en dehors des institutions, et doivent trouver des modèles de financement alternatifs parfois contestés

Pour l’auteur, les AO ne sont pas la seule manifestation du green OA : les archives personnelles (« personal repositories »), les archives disciplinaires ou centralisées (il cite Arxiv et Pubmed) et les réseaux sociaux académiques sont d’autres véhicules de la voie verte.
22390839653_18d7c28799_zJe ne suis pas d’accord avec la totalité de l’argumentaire, dont certains éléments ne sont pas spécifiquement liés aux AO locales (la faible adhésion, les droits, les usages), ni avec sa conclusion : je vois mal comment un chercheur qui n’est pas motivé pour déposer un article dans une AO aurait subitement les capacités, l’envie et le temps de mettre en place son archive perso – et quelle belle opportunité de service à développer pour les acteurs privés ! -, et j’ai l’impression que la visibilité se travaille plus au niveau du laboratoire que du chercheur, en tout cas c’est ce que je perçois dans les échanges au sein de mon institution. On a aussi déjà dit ailleurs que les réseaux sociaux, ce ne sont pas des AO (et inversement), et le récent passage d’Academia a un modèle premium le confirme. Sur les 2 derniers griefs : il me semble que l’intérêt des AO locales est bien de pouvoir développer des services personnalisés pour sa communauté (après ils gagneraient peut-être à être mutualisés et rendus plus visibles, mais c’est une autre histoire), et un des moyens pour avoir des fonctionnalités sociales ne serait-il pas plutôt de développer des connecteurs avec les réseaux existants, au lieu de réinventer la roue ?

[Photos : Martine, Frédéric Bisson]

Sci-Hub

Sci-hub est un site web créée en 2011 par Alexandra Elbakyan, une étudiante kazakh ayant alors du mal à accéder aux articles dont elle avait besoin pour sa thèse. Le site, qui se définit clairement comme pirate, donne accès à plus de 47 millions d’articles scientifiques, en toute illégalité.
A l’heure actuelle, on estime qu’un article est partagé 11 fois en moyenne, principalement par email : Sci-Hub n’a rien inventé, mais il a industrialisé le processus.

Comment ça marche ?
5241380268_a4229953c2_mDepuis l’interface de Sci-Hub, l’utilisateur rentre l’identifiant d’un article (son DOI, son PMID), son url ou des termes de recherche. Sci-Hub va d’abord chercher si l’article est présent dans LibGen, un autre site pirate de stockage d’articles scientifiques, qui héberge aussi des livres et des BD.
Si ce n’est pas le cas, le système va se connecter à des sites d’universités pour récupérer l’article, en utilisant les identifiants d’étudiants ou d’enseignants-chercheurs de ces établissements. Ces identifiants sont soit donnés de plein accord par les utilisateurs, soit achetés par Sci-Hub : il y a bien un marché des identifiants…
On estime l’activité sur le site à plus de 200 000 téléchargements par jour.

Qui utilise Sci-hub ?
Une enquête menée par la revue Science en avril 2016 s’est intéressée aux usages de Sci-Hub ; elle a donné une forte exposition à ce service jusque là plus ou moins confidentiel.

L’enquête montre que, si ce sont bien les pays en voie de développement qui sont les plus gros utilisateurs du service (Iran, Inde et Chine en tête), un bon quart des usages émane des Etats-Unis et des pays d’Europe de Ouest, censés être correctement desservis en ressources en ligne.
Au delà de la problématiques de l’accès, il semble donc que la facilité d’utilisation du service entre en ligne de compte pour ces usagers : d’une part le système est simple à utiliser, et d’autre part on y trouve tout sur place, ce qui permet un gain de temps appréciable.
De fait, 37 % des répondants affirment avoir eu recours à Sci-Hub bien qu’ils bénéficient par ailleurs d’un accès aux ressources consultées.
L’université d’Utrecht a pu analyser les usages probables de ses chercheurs sur Sci-Hub : 75 % des consultations concernent des ressources disponibles via la BU (60 %) ou en open access (15%).

Légalité et éthique
Le système n’est pas légal : la créatrice du site est poursuivie aux Etats-Unis par l’éditeur Elsevier pour violation de copyright et piratage ; l’éditeur estime les usages de Sci-Hub à 5 % du total des téléchargements légaux, tous éditeurs confondus.
Pour sa défense, A. Elbakyan s’appuie sur l’article 27 de la Déclaration universelle des droits de l’homme, qui pose que «Toute personne a le droit de prendre part librement à la vie culturelle de la communauté, de jouir des arts et de participer au progrès scientifique et aux bienfaits qui en résultent. »
La justice américaine a rendu un verdict en sa défaveur, et demandé à ce que le site soit fermé : A. Elbakyan n’étant pas localisée sur le sol américain, elle échappe pour l’instant aux poursuites ; le site est resté fermé pendant une quinzaine de jours en novembre 2015, et a pu rouvrir à une autre adresse assez rapidement.

Malgré l’illégalité avérée de ce système, il bénéficie cependant de la sympathie d’une partie de la communauté des chercheurs, utilisateurs ou non du site : pour 88 % des répondants à l’enquête de Science, pirater des articles scientifiques n’est pas répréhensible.
Plusieurs arguments viennent étayer ce « capital sympathie » : le système actuel de diffusion des résultats de la recherche ralentit la diffusion de la science, la restreint et empêche son exploitation scientifique (par la fouille de données notamment) ; le cadre légal actuel est inadapté aux besoins et usages permis par le numérique ; le coût de l’accès reste un problème pour de nombreux pays ; la valeur ajoutée des « grands » éditeurs est remise en question…

Position des éditeurs
8466937657_c9c834feef_mLes éditeurs condamnent bien entendu globalement les pratiques de Sci-Hub. Sans surprise, ce sont des articles des « big 5 » qui sont le plus téléchargés : Elsevier, Springer-Nature, ACS, Wiley, Taylor&Francis. Les enjeux ne sont cependant pas les mêmes pour ces éditeurs commerciaux et pour les sociétés savantes, qui éditent bien moins de titres et dont les abonnements constituent la principale ressource de revenu.
Plusieurs représentants d’éditeurs critiquent « l’approbation silencieuse » constatée chez certains bibliothécaires et/ou défenseurs de l’open access, et préfèreraient une franche condamnation des « bibliothèques pirates ».
Pour l’instant le soufflé semble retombé, mais il est possible que les éditeurs réagissent avec une réponse technique dans un futur plus ou moins proche : renforcement des mesures d’authentification dans les établissements, quotas de téléchargements imposés, voire suppression de la mise à disposition des documents au format pdf – probablement au final une complexification des systèmes d’accès documentaire des BU…

Positions des bibliothèques
Les bibliothécaires sont dans une position délicate : d’un côté Sci-Hub semble répondre en partie au problème de l’accès à l’information scientifique, mais d’un autre cela se fait au mépris de toutes les règles du droit d’auteur, ce qui n’est pas défendable dans le contexte actuel.
Par ailleurs, Sci-Hub s’appuie sur les bibliothèques à leur insu, tout en sapant leur intérêt (l’utilisateur n’a pas conscience que ce sont les établissements qui fournissent, certes malgré eux, les accès : la bibliothèque n’apparaît nulle part dans le dispositif), et leur crédit (pour les éditeurs, Sci-Hub prospère parce que les bibliothèques ne parviennent pas à mettre en place des systèmes d’authentification performants).
6263541898_724d37bbb7_mCoincées entre des coûts toujours croissants et des budgets stables dans le meilleurs des cas, la tentation est grande pour les bibliothèques de considérer Sci-Hub comme une alternative pour couvrir des besoins documentaires à moindre frais, voire pour remplacer certaines ressources qu’elles ne peuvent plus financer. Mais, si on pousse le raisonnement jusqu’au bout, et que les bibliothèques finissent par supprimer leurs abonnements, d’une part Sci-Hub n’aura plus accès à grand-chose, et d’autre part les éditeurs finiront par faire faillite : on explose le système, mais pour le remplacer par quoi ? Pas sûr qu’on ait une réponse pour l’instant…

Menace pour l’open access ?
Bien que Sci-Hub affiche sur son site son soutien à l’open access, on ne peut pas dire que son activité bénéficie particulièrement au libre accès : l’illégalité du procédé incite plus les éditeurs à attaquer en justice qu’à faire évoluer leurs modèles économiques. En terme d’image, alors que le mouvement de l’open access a encore du mal a se sortir de l’amalgame avec les éditeurs prédateurs, ou avec le modèle de l’auteur-payeur, le fait d’être associé avec un site pirate ne facilite pas la tâche des promoteurs de l’OA auprès des chercheurs…
Sur le fond, Sci-Hub ne résoud pas les problèmes : les éditeurs ne changent pas leurs modèles, le système d’évaluation de la recherche ne change pas (maintien du facteur d’impact), le droit d’auteur n’évolue pas (les auteurs continuent à céder leurs droits sur leurs publications). Or c’est sur tous ces points que le mouvement de l’open access entend agir, pour arriver à un changement culturel profond dans les communautés scientifiques, à une science ouverte.

Plus qu’une menace, Sci-Hub est peut être plutôt à voir comme une opportunité pour les bibliothécaires de se re-positionner dans le paysage de l’open access, en renforçant leur rôle de médiateurs et de promoteurs d’un véritable open access, respectueux des droits de toutes les parties, pérenne et citable.

[Photos : françois.sorrentino, Laurent Henschen, Christian Gonzales]


juin 2017
L M M J V S D
« Avr    
 1234
567891011
12131415161718
19202122232425
2627282930  

Archives

Licence

Licence Creative Commons
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.