Archive for the 'Numérisation' Category

1923 et après

« L’analyse indique que les collections de livres imprimés édités aux Etats-Unis présentes dans Worldcat sont plutôt importantes : 15,5 millions de livres. Pratiquement les 2 tiers – les livres édités après 1963 – ont une forte probabilité d’être sous droits ; moins de 15% – ceux publiés avant 1923 – font vraisemblablement partie du domaine public, et le reste – les livres édités entre 1923 et 1963 – est potentiellement sous droits, si ceux-ci ont été renouvelés. Tout ce qui a été édité après 1923 représente 80% (=12,6 millions) des livres imprimés aux Etats-Unis présents dans Worldcat. Il est difficile de prédire le nombre d’oeuvres orphelines parmi ceux-ci, mais même une petite partie représenterait, en chiffres absolus, une masse considérable d’ouvrages, et demanderait un effort conséquent pour rechercher et clarifier les droits d’auteur. Une étude, basée sur l’examen d’un échantillon, estime le coût pour l’obtention des autorisations de numérisation et d’accès à 200$ par ouvrage. »

Extrait de la conclusion de l’article Beyond 1923 : Characteristics of Potentially In-copyright Print Books in Library Collections, par Brian Lavoie and Lorcan Dempsey d’OCLC dans le numéro de novembre de DLIB.

[Photo : New-York Public Library]

La LOC sur Flickr : bilan positif

2163800850_69784c5e9b_m.jpgLa Bibliothèque du Congrès vient de sortir un rapport sur son expérience de diffusion de ses fonds iconographiques sur Flickr. Le bilan qu’il dessine s’avère assez positif : les 3000 photos de départ ont généré en 9 mois plus de 10 millions de connexions, 7166 commentaires et plus de 67000 tags. 79% des photos ont été sélectionnées comme favorites par les utilisateurs de Flickr. Ce qui me semble intéressant, c’est qu’il y a eu une véritable interaction entre la bibliothèque et le site de partage de photos :
2163493250_5057ec80bf_m.jpg– Les licences CC proposées par Flickr ne convenaient pas à la plupart des photos, il y a eu un travail en commun pour aboutir à une nouvelle licence, « No known copyright restrictions » (Aucune retriction de copyright connue)

– Dans la foulée, Flickr a choisi d’étendre l’initiative à d’autres institutions culturelles demandeuses, et ajouté le projet Flickr Commons (Flickr Organismes publics) à son offre

– Côté bibliothèque, l’engouement du public pour le projet a permis d’enrichir les notices du catalogue (plus de 500 à ce jour) de précisions géographiques ou circonstancielles pour de nombreuses photos, et à Flickr de devenir une source de référence pour les catalogueurs.

– La communication autour du projet, largement relayée par la blogosphère et les média traditionnels, a boosté les statistiques des interfaces « officielles » de consultation des images sur le site de la bibliothèque (+ de 60% au premier semestre).

Le rapport préconise de poursuivre le projet, non plus à titre d’expérience, mais comme service officiel, et d’explorer d’autres outils et services du web 2.0.

En résumé, tout ça c’est plutôt une bonne idée, qui n’a pas coûté grand chose à la bibliothèque : un compte Flickr Pro ($24,95), et une charge de travail estimée à un seul ETP, réparti sur une équipe de 7 personnes.
[photos : Library of COngress, bien sûr]

POD dans ta BU

0cb5701964a76cc0c6ae28bb779e410a.jpgAprès les distributeurs de livres dans les lieux publics, voici la machine à faire les livres dans la bibliothèque : les bibliothèques de l’université du Michigan viennent de s’équiper de cet appareil qui imprime à la demande (POD = Print On Demand) les ouvrages du domaine public qui ont été numérisés (et pour cette université ce n’est pas rien : 2 millions d’ouvrages à ce jour). En moins d’une dizaine de minutes, on obtient un ouvrage relié pour un coût de 10$. On peut voir l’Expresso Book Machine, c’est son nom, en action dans cette vidéo. On demand books, la société qui le commercialise, l’a implanté dans plusieurs librairies et bibliothèques publiques, mais c’est à priori une première en BU. Ce qui ouvre des perspectives intéressantes pour les bibliothèques en matière de partenariats : avec les pressses d’université (pourquoi ne pas sous-traiter avec la BU plutôt qu’avec un prestataire privé ?), avec les enseignants (des cours complets « personnalisés »), avec des petits éditeurs (une fois les droits négociés).

Le blog DLTJ a une fiche technique bien plus complète.
[photo : kitgraphics]

Zotero commons

8dca70c9e0dfebda425ab1b79f39baa5.jpgZotero est, pour faire simple, une extension qui permet de gérer des références bibliographiques depuis le navigateur Firefox (pour plus d’explications, allez voir les gars de l’Urfist, ils sont fans de Zotero). Le Center for history and new media de l’Université George Mason, qui en est à l’initiative, vient d’annoncer un partenariat avec l’Internet Archive, baptisé Zotero Commons. Il s’agit de permettre aux chercheurs, via Zotero, de déposer dans l’Internet Archive, de divers documents : des documents qu’ils auront numérisés, ou bien des documents produits nativement au format numérique ; le stockage et l’OCRisation étant effectués sur les serveurs de l’IA.
Beau projet, qui pose toutefois question sur les relations entre cette archive centralisée et les éventuelles archives institutionnelles locales (tiens, ça me rappelle quelquechose) ; le projet se situant dans un environnement complètement open source, on peut cependant raisonnablement imaginer le développement ultérieur de connecteurs vers les archives locales. Autre écueil, souligné sur son blog Library 2.0 : an academic’s perspective par Laura Cohen, qui regrette que les bibliothèques ne soient pas associées au projet : Zotero Commons : who needs libraries ?. En effet, cet article d’Inside higher education qu’elle commente, affirme que « les projets de numérisation des vastes fonds des bibliothèques ne manquent pas d’ambition, mais les modes d’accès aux documents, ainsi que les questions de copyright sont 2 facteurs qui ont freiné le développement d’archives en ligne. » Cette initiative serait un moyen de « court-circuiter » (to bypass) les bibliothèques, en faisant circuler les documents directement entre chercheurs (tiens, ça me rappelle quelquechose).

C’est en tout cas l’occasion de s’interroger sur le rôle des bibliothèques dans le paysage des Archives Ouvertes, qui doivent encore gagner en légitimité dans la communication scientifique « directe », ainsi que sur leur place dans les institutions universitaires : le fait qu’elles ne soient même pas consultées (et encore moins impliquées) sur les aspects de numérisation en dit long sur la façon dont elles sont perçues par les acteurs (institutionnels, chercheurs) de ce type de projets.
[Photo : Thirteen letters photography]

Footnote

a756eb8f0a22fffb34e5e1d0b955eb0d.jpgVu chez Resourceshelf, Footnote, un site qui propose à la consultation des documents numérisés (plus de 14 millions, à un rythme de 2 millions par an revendiqués sur le blog de la société). Cette société a conclu un accord avec la National Archives and Records Administration – NARA (les archives gouvernementales US) pour organiser la numérisation et la diffusion de quelques 4,5 millions de documents : l’essentiel des contenus est accessible à distance sur abonnement ou gratuitement dans les locaux de l’institution ; au bout de 5 ans toutes les images seront disponibles sur le site web de la NARA. Une sélection de collections est disponibles en libre accès, dont American milestone documents (les documents essentiels de l’histoire américaine) ou Pennsylvania archives (l’histoire et les données d’état civil de la Pennsylvanie).

Ce qui est bien aussi, ce sont les fonctionnalités qui ont été développées autour des contenus : une fois enregistré, l’utilisateur peut annoter les images, les commenter, partager ses recherches & réflexions avec les autres membres de la communauté… Les contenus sont plutôt constitués de documents officiels, mais Footnote propose ses services à toute personne ou société intéressée par la numérisation de ses fonds. Non, je ne sais pas quels sont les tarifs ;-))
[crédit photo : merfam]

Copier-coller dans GBS

26f945f60ae2eeb6a53680392afaf334.jpgUn post d’Inside Google book search annonce la possibilité d’accéder à la version texte des documents du domaine public scannés par Google, ce qui permet, accessoirement, d’en récupérer tout ou partie par un simple copier coller. L’initiative est bonne – le post souligne l’intérêt de la fonction en termes d’accessibilité, notamment – et j’ai testé pour vous, comme l’avait fait Eric avant moi, sur Le manuel du libraire et de l’amateur de livres, 1814, voilà ce que ça donne :
« […]de là, les fautes sans nombre qui se sont glissées dans no.1
Dictionnaires historiques, dans nos Biographies, et jusque dans de¡ traités spéciaux de Bibliographie, où elles sonl presque impardonnables.

Ainsi la Bibliographie inslruclive de Guillaume-François de Bure.

publiée de 1763 à 1768, en 7 vol. ш-8. est encore le seul livre de sor

genre qui doive tenir une place dans les bibliothèques, et auquel leí

amateurs puissent recourir avec quelque confiance. Cependant ce!

ouvrage lui-même, si justemenleslimé, el qui suppose dans son auteui

une connaissance étendue du sujel qu’il a traité, cet ouvrage, compost

depuis près d’un demi-siècle, comme on vient de le voir, n’est pa¡

aujourd’hui au courant de la science; car, sans parler des ouvrage:

excellons et des éditions magnifiques qui ont paru depuis cette époque .

rt que par conséquent l’auleur de la Bibliographie n’a pu connaître.  »

Je ne suis pas convaincue par la qualité du résultat, mais peut-être est-ce normal comme transcription quand un document est OCRisé ? Si quelqu’un sait, merci de nous en faire profiter via les commentaires.

[crédit photo : TheGrok]

Les entretiens de la BnF (3)

« Gérer une collection numérique » était le sujet des interventions de la 3ème session.
medium_214356748_2a22f3f617_m.jpgUte Schwens – Présentation de Nestor et Kopal
Nestor est un réseau d’expertise sur la conservation numérique qui mène un travail de veille sur tous ses aspects. Son objectif est d’accroître la visibilité des questions de conservation pérenne auprès des politiques.
Kopal a pour objectif le développement d’une archive numérique. C’est un partenariat entre la bibliothèque nationale allemande et la BU de Göttingen + des sociétés privées (IBM), qui travaille de façon que la solution mise au point soit transmissible et réutilisable (tout est en open source).

Au niveau des contenus, il a été choisi de démarrer avec les thèses (55 000 documents) en 2006, puis avec l’archive des revues électroniques de Springer et des cédéroms/dvd.
Les défis sont la gestion de documents numériques très lourds (mode image), la mise en place d’un plan de conservation (avec un registre international des formats), la sensibilisation des auteurs aux questions de conservation.

Questions / Réponses
Q : la conservation des périodiques prend elle aussi la gestion des accès aux archives ?
R : Oui, il y a des accords avec les éditeurs pour des accès sur tous la sites de la BN, cela fait partie des conditions du dépôt légal.

Thierry Claerr, DLL nous a présenté un état des projets de numérisation en cours dans les bibliothèques municipales basé sur les réponses d’une vingtaine de BM à une enquête de la DLL.medium_321317737_93b4fe8608_m.jpg
On observe que les situations sont assez diverses, tant au niveau des conditions techniques que financières ou organisationnelles. Les interrogations majeures portent sur les supports (cedéroms, serveurs de stockage), on est bien dans une logique de conservation plutôt que de diffusion : seulement 45% des fonds numérisés sont accessibles en ligne. Malgré cela, les conditions de conservation ne sont pas toujours respectées. Les petites BM sont plus démunies au niveau équipement.

Les entretiens de la BnF (1)

medium_317366633_6afd7514d9_o.jpg J’ai assisté les 7 et 8 décembre dernier aux Entretiens de la BnF qui avaient pour thème « Numérique et bibliothèques : le deuxième choc« . J’ai pioché dans mes notes les passages les + intéressants ; a priori toutes les présentations seront disponibles sur le site de la BnF dans les jours qui viennent.

Introduction des journées, par le Président de la BnF
JNJ, en grande forme, a rappelé la détermination de la BnF à répondre au défi du numérique, en situant son action dans le cadre européen (elle fait partie du groupe de travail sur les contenus de la CENL, la conférence des bibliothèques nationales européennes). Un groupe de travail au sein de l’institution a abouti à la création d’une maquette de ce que pourrait être la future bibliothèque numérique européenne.

[Europeana, c’est son nom de code, nous a finalement été montrée à la fin des journées : ça faisait plus étalage de fonctionnalités qu’outil pensé pour l’utilisateur, mais bon, visiblement il s’agissait de montrer que oui, madame, à la BnF on peut faire du 2.0. Alors on a vu du fenêtrage repositionnable, des tags et des nuages de tags, un espace personnalisé, des clusters, de la navigation dans la Dewey à coup d’AJAX, du partage de données en groupe… Bon, même si ça manquait forcément de rss 😉 quand même, le résultat n’est pas mal du tout ! Le Sudoc n’était déjà pas très vaillant, là il est propulsé à des années lumières au fin fond du web 0.95…]
Mais, JNJ l’a rappelé, l’objectif n’est pas de mettre la BnF au coeur du dispositif, mais bien de partager le travail avec les autres partenaires européens. A propos de la collaboration avec les acteurs de la chaîne du livre (gestion des droits d’auteurs) : la réflexion sur les droits est en cours avec le SNE, notamment pour élaborer un modèle financier qui satisfasse tout le monde.
L’Etat soutien financièrement le projet, à hauteur de 10 millions d’euros et 12 postes supplémentaires en 2007, qui permettront entre autres la réalisation de 2 marchés de numérisation de 30 000 et 100 000 ouvrages. En évitant adroitement de citer celui-dont-on-ne-doit-pas-prononcer-le-nom, JNJ a réaffirmé que les partenariats avec les entreprises étaient les bienvenus, tant qu’ils restaient dans le cadre du mécenat 🙂

Livres électroniques, livres en ligne et un peu de Google

medium_126395703_4a41d3bd51.jpgLes présentations de la 3ème journée sur le livre électronique organisée par Couperin sont en ligne sur le site du consortium, ainsi que le rapport sur l’utilisation des livres électroniques en BU.

Par ailleurs, Gary Price profite d’un post sur la critique de Google Book Search de Peter Jacso pour rappeler que plein de livres électroniques sont accessibles librement sur internet ; j’ai relevé notamment l’initiative d’ebrary, fournisseur commercial, qui met à disposition gratuitement une partie de sa collection (environ 20 000 titres), ainsi que la sous-rubrique « Directories and other collections » qui liste nombre d’autres sources de livres en ligne.

Enfin, j’allais oublier, Karen Coyle nous rappelle que Google Book Search n’est pas une solution d’archivage pour les bibliothèques participant au projet, et ce pour plusieurs raisons :

– GBS utilise un système d’OCR de qualité médiocre

– les bibliothèques ne numériseront pas la totalité de leurs collections

– le contrôle qualité est lui aussi assez médiocre

– la version téléchargée est parfois différente de la version en ligne

Bref une version complémentaire peut-être, une version de conservation sûrement pas.


Mai 2024
L M M J V S D
 12345
6789101112
13141516171819
20212223242526
2728293031  

Archives

Licence

Licence Creative Commons
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.