Des Racines et des Êtres

Blog généalogique de Raphaël Piéchaud

Google Books : en scanné dans le texte

Et si vos ancêtres avaient laissé des traces dans la production écrite des siècles passés ? Vous savez qu’ils n’étaient pas auteurs ou journalistes. D’accord. Mais peut-être ont-ils eu, au niveau national ou plus sûrement à un niveau local, une activité politique, économique, scientifique, militante ou autre encore, tout à fait susceptible de se retrouver citée dans une publication. On vous a peut-être évoqué un jour tel ouvrage obscur et introuvable qui parlait de votre famille ou d’un de vos aïeux. Alors pourquoi ne pas les chercher maintenant ces livres qui parlent de vos ancêtres ?

A priori ce n’est pas évident. Vous n’êtes même pas sûr de l’existence de tels ouvrages et en connaissez encore moins les titres ou auteurs. Pas de souci comme dirait Ophélie, j’ai tout prévu : dans le cas qui nous préoccupe, si vous n’avez pas connaissance d’un ouvrage mentionnant l’un de vos ancêtres, c’est probablement parce que son nom n’y est présent qu’enfoui au beau milieu de la page 525 (ou 526, pourquoi pas). Ce qui sauve le brave quidam prêt à faire de la spéléogénéalogie au fond d’une bibliothèque géante, c’est l’existence de quelques bases de données qui appliquent désormais aux livres ce qu’on l’on a parfaitement assimilé pour les pages web : la recherche plein texte.

C’est le cas de Google Books [1] (officiellement Google Recherche de livres) sur lequel nous allons nous pencher aujourd’hui. Le principe est simple : Google a passé des partenariats avec des bibliothèques, essentiellement nord-américaines (vous saisissez déjà les limites ?), pour scanner certains ouvrages. Ils pratiquent ensuite ce qu’on appelle l’OCR, Optical Character Recognition (soit reconnaissance optique de caractère en frenchy) que vous connaissez peut-être si vous avez un scanneur : c’est un module qui transforme un document écrit scanné en un texte modifiable, pour peu qu’il s’agisse d’un document imprimé proprement.

Une fois scannés, ces livres sont ajoutés dans le moteur de recherche Google Books, permettant ainsi de lancer une recherche sur un mot du texte du livre. Il devient ainsi possible de retrouver, sans beaucoup d’efforts, des ouvrages qui citent un nom de famille qui vous intéresse. Il est vrai qu’il vaut mieux qu’il s’agisse d’un nom de famille peu commun. Si vous comptez chercher un « Dupont » ou un « Martin » dans Google Books j’ai bien peur que vous ne vous en sortiez pas. Et là pas de solution, sorry ! Si par hasard vous cherchez un nom de famille plus rare (voyons… Montesquieu par exemple ?) vous aurez plus de chances de tomber sur des résultats pertinents.

Vous êtes donc sur la page d’accueil de Google Books qui se présente comme un moteur de recherche classique, ce qu’il est presque. Vous tapez votre requête : Montesquieu tout court si vous cherchez toute la famille, ou bien une formule un peu plus complexe si vous cherchez un personnage en particulier, par exemple Jean-Pierre Montesquieu : "Jean-Pierre Montesquieu" OR "Montesquieu Jean-Pierre". Cette requête vous permettra de parer aux deux cas de figure (le prénom placé avant ou après le nom) et de ne pas louper des documents (n’oubliez pas les guillemets) [2].

Si tout se passe bien vous allez voir apparaître une page de résultats. Je vous explique les différentes offres de Google avant de vous laisser vous amuser avec cet outil. Car tout n’est pas forcément gratuit ni en libre accès. Chaque résultat de la recherche oscille entre 4 possibilités de consultation :
- Si vous n’avez aucune chance, tapez 1, vous obtenez un désertique « Aucun aperçu disponible«  : vous ne saurez même pas à quelle occasion le livre cite le nom recherché. Vous repérerez facilement ces résultats, ce sont les seuls à ne pas afficher de miniature de la couverture du bouquin.
- « Affichage d’extraits » est déjà un peu plus intéressant mais extrêmement limité : vous ne pourrez contempler qu’un bandeau de page, équivalent à 5 lignes et demi au milieu duquel est censé trôner le nom recherché. Le logiciel n’étant pas encore tout à fait au point (version Beta), il arrive souvent que le mot n’apparaisse même pas dans l’extrait…
- « Aperçu limité » est on ne peut plus rassurant. Vous aurez droit à certaines pages de l’ouvrage mais pas toutes. Si vous tombez bien vous pourrez visionner les pages qui citent le nom recherché. Sinon, vous tombez mal.
- Enfin le Graal : « Affichage du livre en entier« . Sortez les flûtes à champagne, vous êtes tombé sur un ouvrage libre de droit ou tombé dans le domaine publique. Il est tout entier à vous.

En fait, l’impossibilité de tout consulter en ligne est tout à fait compréhensible et peut parfois être résolue si vous avez proche de vous une bibliothèque bien fournie (type BnF). Oui la Généalogie est affaire de chance autant que d’inégalités devant les structures culturelles. N’oubliez pas non plus que Google Books ne référence pas tous les livres du monde. C’est un aperçu totalement aléatoire de la production éditoriale, qui plus est bien plus centré sur la culture anglo-saxonne que la française.

Les limites de Google Books sont aussi d’ordre technique. Des petits bugs qui empêchent de voir l’extrait réellement pertinent aux défauts de transcription inhérents à l’océrisation et qui peuvent transformer un « e » en « o », un « ç » en « g », etc… Ce qui peut du c0up v0u5 écarter de n0mbroux rosultat5…

À venir sur ce blog : un topo sur Gallica (le Google Books de la Bibliothèque Nationale de France) et un autre sur Europeana, le petit frère, toujours fourni par la BNF.

  1. Sur la page d’accueil de Google, cliquez sur « plus » ». Vous tombez sur une liste des outils Google. Dans la colonne de gauche, cliquez sur « Recherche de livres » (c’est classé alphabétiquement) et vous y êtes ! []
  2. Je vous conseille néanmoins de lancer aussi une recherche sur le nom seul, afin de ne pas rater des pages qui citent par exemple un « J-P Montesquieu ». []

Poursuivez votre lecture

Avant, j’avais écrit :
Après, j’ai écrit :

3 commentaires

  1. Europeana : présentation (#1)

    D’une certaine façon, Europeana tient à la fois de Gallica (voir les articles sur ce blog ici, ici et là) et de Google Books (voir l’article sur ce blog ici)…

  2. Gallica : les ouvrages pour les généalogistes (#3)

    Centrée sur les ouvrages des siècles passés, Gallica ne peut donc qu’intéresser les généalogistes à travers divers domaines : généalogies imprimées, dictionnaires biographiques, armorieux, cartes anciennes, revues et journaux ainsi que toutes…

  3. Gallica : la bibliothèque numérique (#1)

    Gallica (service de la Bibliothèque nationale de France) se définit comme une bibliothèque numérique, accessible gratuitement par Internet. Sa vocation est donc différente de Google Books (cf. article précédent) qui se présente plutôt comme un…

Publier un commentaire à propos de cet article