Un post d’Inside Google book search annonce la possibilité d’accéder à la version texte des documents du domaine public scannés par Google, ce qui permet, accessoirement, d’en récupérer tout ou partie par un simple copier coller. L’initiative est bonne – le post souligne l’intérêt de la fonction en termes d’accessibilité, notamment – et j’ai testé pour vous, comme l’avait fait Eric avant moi, sur Le manuel du libraire et de l’amateur de livres, 1814, voilà ce que ça donne :
« […]de là, les fautes sans nombre qui se sont glissées dans no.1
Dictionnaires historiques, dans nos Biographies, et jusque dans de¡ traités spéciaux de Bibliographie, où elles sonl presque impardonnables.
Ainsi la Bibliographie inslruclive de Guillaume-François de Bure.
publiée de 1763 à 1768, en 7 vol. ш-8. est encore le seul livre de sor
genre qui doive tenir une place dans les bibliothèques, et auquel leí
amateurs puissent recourir avec quelque confiance. Cependant ce!
ouvrage lui-même, si justemenleslimé, el qui suppose dans son auteui
une connaissance étendue du sujel qu’il a traité, cet ouvrage, compost
depuis près d’un demi-siècle, comme on vient de le voir, n’est pa¡
aujourd’hui au courant de la science; car, sans parler des ouvrage:
excellons et des éditions magnifiques qui ont paru depuis cette époque .
rt que par conséquent l’auleur de la Bibliographie n’a pu connaître. »
Je ne suis pas convaincue par la qualité du résultat, mais peut-être est-ce normal comme transcription quand un document est OCRisé ? Si quelqu’un sait, merci de nous en faire profiter via les commentaires.
[crédit photo : TheGrok]
Ah, que je suis content de voir le géant subir les mêmes affres que le reste des mortelles (oui j’imagine aussi que c’est du provisoire et que la puissance de calcul linguistique lui permettra un jour réparer les erreurs par comparaison statistique… il faut du temps pour qu’un enfant apprenne à parler correctement)
N’empêche, cette problématique a été bien mieux prise en considération par les gens de l’autre camp et pour qui j’ai un peu plus de sympathie (Internet Archive et Open Library http://www.openlibrary.org) et qui ont eu l’une des idées les plus géniales depuis l’arrivée du web : utiliser la capacité cognitive humaine gaspillée partout dans la resolution des CAPTCHAs (Completely Automated Turing Test To Tell Computers and Humans Apart) qui sont ces petites images contenant des caractères un peu brouillés qui servent à protéger certains sites des requêtes en masse faites par des machines (spam, splog, force brute…) pour en faire quelque chose de très joli et utile à l’humanité : corriger l’OCR défectueux des livres!!!
Alors voici un peu de pub : pour participer à cette belle trouvaille (qui n’est pas de Google pour une fois) rien de plus simple que d’installer reCAPTCHA sur votre site ou votre blog : http://recaptcha.net/
Après examen des images des dix premières pages de l’ouvrage, je vous confirme qu’obtenir de bon résultats d’OCR sur ce type de documents est hors de portée de l’offre logicielle du moment. En vrac, les problèmes sont :
– les taches
– les casses, graisses, polices, etc. hétérogènes dans un même paragraphe
– le fait que les pages n’aient pas été numérisées de manière destructive (en massicotant la reliure), ce qui produit un effet de courbure et des données manquantes du côté intérieur des feuilles
– la faible proportion de mots courants, obstacle à la reconnaissance par dictionnaire
Bref, compte tenu du matériau de base, l’un dans l’autre, je trouve le résultat tout à fait décent.
Question pour question : quelqu’un saurait-il quel moteur OCR utilise Google ? Abby FineReader ? Tesseract ? Autre ?