Copier-coller dans GBS

26f945f60ae2eeb6a53680392afaf334.jpgUn post d’Inside Google book search annonce la possibilité d’accéder à la version texte des documents du domaine public scannés par Google, ce qui permet, accessoirement, d’en récupérer tout ou partie par un simple copier coller. L’initiative est bonne – le post souligne l’intérêt de la fonction en termes d’accessibilité, notamment – et j’ai testé pour vous, comme l’avait fait Eric avant moi, sur Le manuel du libraire et de l’amateur de livres, 1814, voilà ce que ça donne :
« […]de là, les fautes sans nombre qui se sont glissées dans no.1
Dictionnaires historiques, dans nos Biographies, et jusque dans de¡ traités spéciaux de Bibliographie, où elles sonl presque impardonnables.

Ainsi la Bibliographie inslruclive de Guillaume-François de Bure.

publiée de 1763 à 1768, en 7 vol. ш-8. est encore le seul livre de sor

genre qui doive tenir une place dans les bibliothèques, et auquel leí

amateurs puissent recourir avec quelque confiance. Cependant ce!

ouvrage lui-même, si justemenleslimé, el qui suppose dans son auteui

une connaissance étendue du sujel qu’il a traité, cet ouvrage, compost

depuis près d’un demi-siècle, comme on vient de le voir, n’est pa¡

aujourd’hui au courant de la science; car, sans parler des ouvrage:

excellons et des éditions magnifiques qui ont paru depuis cette époque .

rt que par conséquent l’auleur de la Bibliographie n’a pu connaître.  »

Je ne suis pas convaincue par la qualité du résultat, mais peut-être est-ce normal comme transcription quand un document est OCRisé ? Si quelqu’un sait, merci de nous en faire profiter via les commentaires.

[crédit photo : TheGrok]

Advertisements

2 Responses to “Copier-coller dans GBS”


  1. 1 PabloG 24/07/2007 à 00:00

    Ah, que je suis content de voir le géant subir les mêmes affres que le reste des mortelles (oui j’imagine aussi que c’est du provisoire et que la puissance de calcul linguistique lui permettra un jour réparer les erreurs par comparaison statistique… il faut du temps pour qu’un enfant apprenne à parler correctement)

    N’empêche, cette problématique a été bien mieux prise en considération par les gens de l’autre camp et pour qui j’ai un peu plus de sympathie (Internet Archive et Open Library http://www.openlibrary.org) et qui ont eu l’une des idées les plus géniales depuis l’arrivée du web : utiliser la capacité cognitive humaine gaspillée partout dans la resolution des CAPTCHAs (Completely Automated Turing Test To Tell Computers and Humans Apart) qui sont ces petites images contenant des caractères un peu brouillés qui servent à protéger certains sites des requêtes en masse faites par des machines (spam, splog, force brute…) pour en faire quelque chose de très joli et utile à l’humanité : corriger l’OCR défectueux des livres!!!

    Alors voici un peu de pub : pour participer à cette belle trouvaille (qui n’est pas de Google pour une fois) rien de plus simple que d’installer reCAPTCHA sur votre site ou votre blog : http://recaptcha.net/

  2. 2 Mercury 17/07/2007 à 00:00

    Après examen des images des dix premières pages de l’ouvrage, je vous confirme qu’obtenir de bon résultats d’OCR sur ce type de documents est hors de portée de l’offre logicielle du moment. En vrac, les problèmes sont :

    – les taches

    – les casses, graisses, polices, etc. hétérogènes dans un même paragraphe

    – le fait que les pages n’aient pas été numérisées de manière destructive (en massicotant la reliure), ce qui produit un effet de courbure et des données manquantes du côté intérieur des feuilles

    – la faible proportion de mots courants, obstacle à la reconnaissance par dictionnaire

    Bref, compte tenu du matériau de base, l’un dans l’autre, je trouve le résultat tout à fait décent.

    Question pour question : quelqu’un saurait-il quel moteur OCR utilise Google ? Abby FineReader ? Tesseract ? Autre ?


Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s




juillet 2007
L M M J V S D
« Juin   Août »
 1
2345678
9101112131415
16171819202122
23242526272829
3031  

Archives

Licence

Licence Creative Commons
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 3.0 France.

%d blogueurs aiment cette page :