Grâce à cet outil, on peut désormais effectuer des recherches dans un corpus qui va en s'élargissant quotidiennement d'ouvrages en langues européennes comme s'ils disposaient d'un index commun.
Il permet de repérer des occurrences qui seraient restées autrement ignorées.
Contrairement à ce que l'on croit, ces recherches incluent les ouvrages récents, excellent moyen de découvrir les chercheurs qui ont publié des travaux incluant cette occurrence. Encore faut-il que l'occurrence soit suffisamment sélective.
Si vous recherchez un personnage peu connu au nom rare, par exemple, William Henri Waddington, c'est parfait. En revanche, les noms connus posent des problèmes difficiles à résoudre autrement que par des filtres qui forcément vont exclure des résultats, par exemple le France (le paquebot).
Un des grands obstacles à l'utilisation de Google Books en dehors des Etats-Unis est le stupide principe de précaution du site qui interdit la lecture des ouvrages libres de droits postérieurs à environ 1840.
Le seul moyen de contourner cette interdiction est de passer par des sites d'anonymat comme The Cloak qui peuvent apporter une aide ponctuelle. Pour un usage plus important il faut payer.
Samedi dernier, le quotidien Libération a publié un dossier sur ce sujet dont voici des extraits.
Monopole
Par LAURENT JOFFRIN
Par LAURENT JOFFRIN
Qui a peur du grand méchant Google ? Pas les milliers - les millions ? - de lecteurs qui peuvent désormais accéder gratuitement au fonds des grandes bibliothèques mondiales par un simple clic. A l’inverse de ce que pensaient certains grincheux de la technologie, la numérisation du savoir planétaire représente un immense progrès, qui dépasse tout ce qu’ont pu imaginer les prophètes les plus optimistes de la démocratisation de la culture. Pourtant, cette avancée inouïe pose de redoutables questions. Tel un Speedy Gonzales de l’écrit, Google a pris dans ce domaine une avance irréversible. L’excellent Jean-Noël Jeanneney, ancien directeur de la Bibliothèque nationale de France, l’a vu le premier : la multinationale est en passe d’acquérir sur la diffusion des livres du passé - et bientôt du présent - une sorte de quasi-monopole, dont elle est décidée à faire argent sans trop s’embarrasser d’égards pour les auteurs ou de souci pour les obligations de service public.
Garants du patrimoine culturel de l’humanité, les Etats se sont fait doubler comme des bleus par les gamins du Net.
Il est encore temps de réagir : la numérisation des livres n’est pas si coûteuse qu’elle soit hors de portée des budgets nationaux. Encore faut-il se dégager de l’auguste lenteur des administrations culturelles.
Plutôt que de crier haro sur le Google, les partisans du pluralisme doivent surtout houspiller l’Etat. A l’heure du numérique, lui aussi doit changer de rythme. Faute de quoi il verra ses prérogatives se craqueler comme un vieux grimoire oublié.
La Bibliothèque de France va-t-elle confier à Google le soin de numériser une partie de ses collections ? L’hypothèse est envisagée au sein de l’établissement public. Cinq ans après l’annonce du programme Google Books visant à numériser les documents des plus grandes bibliothèques du monde, le moteur de recherche américain s’affirme comme l’unique opérateur de ce nouveau partage des connaissances. Un monopole qui inquiète. Revue des enjeux.
Où en est le chantier de la numérisation des livres ?
Lancée en décembre 2004 avec cinq grandes bibliothèques partenaires, alors toutes anglo-saxonnes, la bibliothèque virtuelle de Google est, à ce jour et de très loin, la plus avancée au monde. Elle représente un index global d’environ 10 millions de livres numérisés : 1,5 million d’ouvrages tombés dans le domaine public et issus de 29 grandes bibliothèques mondiales, 1,8 million d’œuvres «soumises» volontairement par 25 000 éditeurs surtout professionnels ou universitaires et environ 7 millions de documents principalement issus de bibliothèques américaines. Protégés par le droit d’auteur et numérisés sans autorisation préalable de leurs ayants droit, ces derniers voient leur consultation limitée à leur index et à de courts extraits. Cela devrait changer rapidement si la justice américaine valide, à l’automne, l’accord négocié par Google en 2008 avec les éditeurs américains. Estimé entre 150 et 200 millions de dollars (100 à 140 millions d’euros) sur une durée d’environ dix ans (10 dollars, ou 7 euros, par livre), l’investissement de Google vise à numériser «rapidement» entre 15 et 20 millions d’ouvrages sur les quelques dizaines de millions déjà publiés dans le monde. Face à Google, le principal projet alternatif a pour nom Europeana. Un prototype de la future bibliothèque numérique européenne dont le véritable lancement est annoncé en 2010. Il regroupe déjà 4 millions de documents en 26 langues et regroupe une cinquantaine de partenaires, pas seulement européens. Des livres mais également des tableaux, partitions, bandes sonores et audiovisuelles dont plus de la moitié ont été fournis par la Bibliothèque nationale de France (projet Gallica) et l’Institut national de l’audiovisuel.
Pourquoi avoir peur de Google ?
On vous offre une maison mais le chemin pour y accéder ne vous appartient pas. Le promoteur vous promet la main sur le cœur qu’il n’y installera jamais de péage, tout juste envisage-t-il d’y mettre quelques panneaux publicitaires. Acceptez-vous le marché ? C’est un peu la question à laquelle doivent répondre aujourd’hui les plus grandes bibliothèques du monde. Elles récupèrent pour elles tous les documents numérisés par Google et elles ont le droit de les utiliser à leur guise. En échange, le moteur récupère l’exclusivité sur l’indexation du contenu. Or, si la numérisation du patrimoine écrit mondial à des fins de conservation et de mémoire est un enjeu majeur, l’accès aux connaissances sous ce nouveau format l’est tout autant. Dans le mouvement d’humeur contre Google, on retrouve ainsi la problématique de la presse avec l’hégémonie de Google News dans le secteur de la recherche sur l’actualité. Dans ce cas, Google se rémunère sur les chemins d’accès. Le fait que Google tire des revenus de son système de recherche n’est pas scandaleux en soi. C’est la dérive monopolistique qui inquiète. Lorsque tout est potentiellement accessible en ligne, la façon d’accéder à l’information est au moins aussi importante que l’information elle-même. Et lorsque ce pouvoir est concentré dans les mains d’une seule entreprise, c’est forcément un problème. Même si cette dernière a pour slogan «Don’t be evil» («Ne sois pas diabolique»).
Pourquoi Google s’investit-il autant sur le sujet ?
La plus grande crainte de Google aujourd’hui : perdre sa place de leader incontournable au profit d’un concurrent, voire d’un nouveau venu. Cela semble inconcevable, mais il faut se souvenir qu’avant Google il existait des gros moteurs de recherche, comme Altavista. Et qu’en quelques mois l’arrivant a pris l’ascendant sur ses aînés, grâce à la sobriété de son interface, sa rapidité et la pertinence de ses résultats. Même si on a du mal à l’imaginer, Google n’est pas intouchable. Et il le sait. Le tout est donc de ne pas se reposer sur ses lauriers. Google maîtrise aujourd’hui la gestion de l’information disponible au format numérique (même s’il fait évoluer continuellement ses processus d’indexation), mais il reste tout ce que l’humanité a produit depuis des siècles. La préoccupation de Google n’est pas tant la rentabilité du processus (même si, à long terme, il devrait s’y retrouver), mais le fait de rester le lieu privilégié de la recherche. Et donc de ne pas laisser tout un pan du contenu indexable à un autre que lui. En assumant le coût de la numérisation des livres, Google s’assure que son petit chemin restera le passage obligé pour la majorité des internautes pour les cinq ou dix ans à venir. Et ça, ça n’a tout simplement pas de prix.
Quelles sont les alternatives à Google ?
Il n’y en a pas. A ce jour et en huit années, la BNF n’a réussi à numériser «que» 800 000 documents, dont 300 000 seulement en mode texte sur les 13 millions d’ouvrages que représentent ses collections. D’où l’annonce par Denis Bruckmann, le directeur des collections de la BNF, à la mi-août dans la Tribune, de négociations en cours avec Google afin d’accélérer ce rythme et de pallier au coût extrêmement élevé de la numérisation. Selon Denis Bruckmann, il faudrait entre «50 et 80 millions d’euros» (entre 0,12 et 0,74 euro par page) pour numériser les seuls fonds de la IIIe République alors que l’Etat n’octroie au projet Gallica que 8 millions d’euros par an, via le Centre national du livre - dont 3 ne sont pas utilisés !
Un argument financier jugé dérisoire par l’ancien président de la BNF Jean-Noël Jeanneney, farouche opposant aux ambitions universelles de Google. «Quand bien même la somme indispensable serait de quelques dizaines de millions d’euros sur quelques années, écrit Jean-Noël Jeanneney, par rapport à d’autres dépenses, celle-ci mérite que la nation la consente.»
Par la voix de sa commissaire à la Société de l’information, Viviane Reding, la Commission européenne recommande au contraire la mise en place de partenariats avec le secteur privé - et donc avec Google - afin de pouvoir multiplier par 15 le nombre de documents numérisés dans l’Union. Le nouveau ministre de la Culture, Frédéric Mitterrand, s’est pour sa part «hâté de faire savoir qu’il gardait les mains libres» et a souligné, le 19 août, qu’«aucune option ne saurait être privilégiée en l’état actuel des réflexions en cours». Il s’agit, a-t-il affirmé, «d’inscrire la numérisation du patrimoine culturel de l’Etat dans une stratégie globale». Reste à savoir si elle sera Google-compatible ou pas.
Le glouton élargit sa «mission»
Google numérise tous azimuts et cherche à se poser, d’ici quelques années, en premier libraire de la Toile.
Par CHRISTOPHE ALIX
«Organiser les informations à l’échelle mondiale dans le but de les rendre accessibles et utiles à tous.» La célèbre «mission» de Google aura amené, en dix ans à peine d’existence, le moteur de recherche à s’investir dans un nombre d’activités tel qu’il sera bientôt difficile de toutes les recenser. Afin de remplir à bien cette «mission», le géant de l’Internet repousse jour après jour ses limites.
Nouvelle incarnation de la multinationale tentaculaire, Google n’a de cesse d’étendre sa gloutonnerie d’indexation à l’ensemble du patrimoine informationnel de l’humanité. Rien d’étonnant donc à ce que l’américain s’intéresse à tous les livres publiés, comme il s’intéresse à tous les blogs en activité, toutes les vidéos postées sur la Toile ou encore tous les podcasts à écouter en ligne.
«Herculéenne».Nourriture noble par excellence, le livre aura d’ailleurs été la première incursion du site en dehors de son champ traditionnel d’activité avec le lancement de son projet de bibliothèque virtuelle en 2004. Une tâche «herculéenne» - comme la définit la commissaire européenne à la Société de l’information, Viviane Reding - financée par les milliards de bénéfices publicitaires qu’enregistre Google.
Cinq ans après le début de ce colossal chantier, près de 10 millions d’ouvrages ont déjà été numérisés. Ils sont accessibles aux internautes de 124 pays, en 40 langues, via une «plateforme» unique, le service «Google recherche de livres». On y trouve pêle-mêle des chefs-d’œuvre de la littérature tombés depuis belle lurette dans le domaine public et issus de prestigieuses bibliothèques mondiales, comme Oxford ou la New York Public Library. Et des ouvrages d’obscurs éditeurs qui ont confié à Google la numérisation de leurs titres.
Contrepartie. Principal avantage pour les centaines de bibliothèques et les 25 000 éditeurs qui ont transmis leur fonds à Google : le service est entièrement gratuit et n’empêche pas ces partenaires d’exploiter librement leurs œuvres numérisées. En contrepartie, Google ne demande «que» l’exclusivité de l’indexation des ouvrages sur la Toile - c’est-à-dire la possibilité d’y accéder - afin d’exclure de ce marché d’autres moteurs de recherche.
Google affirme également respecter pleinement la volonté des ayants droit - quand ils existent - et des éditeurs, lorsque ces derniers souhaitent s’exclure des résultats de recherche. Mais les ouvrages numérisés restent bien là, en attendant que la situation se débloque, leur consultation se limitant alors à quelques courts extraits.
Après trois ans de conflit avec les éditeurs américains, furieux de la numérisation de millions d’œuvres par Google sans autorisation, la situation est en train de se débloquer. Contre paiement d’un dédommagement de 125 millions de dollars (environ 85 millions d’euros) et à condition que la justice américaine valide le deal, Google sera bientôt autorisé à vendre directement leurs ouvrages en ligne, deux tiers des revenus allant à l’éditeur et un tiers au site.
Après s’être d’abord habilement cantonné au rôle de premier bibliothécaire de la Toile, Google pourrait demain devenir le premier des libraires de l’Internet. Au grand dam du leader Amazon, qui voit le géant du Net débouler sur ses plates-bandes. C’est peu de dire que Google aimerait refaire le même coup en Europe, où l’essentiel des éditeurs le boudent.
Lyon transfère son fonds
La bibliothèque municipale a passé un accord avec Google en 2008.
Par BRUNO ICHER
En ce moment, dans la périphérie de Lyon, s’achève le chantier des nouveaux locaux de Google. C’est dans cet endroit tenu secret que seront numérisés, dans les six ans à venir, les 500 000 documents (sur les 3,7 millions de son fonds) que la bibliothèque municipale de Lyon a confiés à la firme américaine. «Nous avons inscrit dans le cahier des charges que leurs locaux devaient se trouver dans un lieu à moins de 50 kilomètres de Lyon, dit Patrick Bazin, directeur de la bibliothèque, pour limiter les risques liés au transport des livres et afin de pouvoir faire des contrôles inopinés d’un coup de voiture.»
A la main. L’accord qui unit Google à la bibliothèque de Lyon a été signé en juillet 2008. «A notre initiative, précise Patrick Bazin. Nous avons lancé un appel d’offres en novembre 2006 pour numériser une partie de nos collections et, sur les 52 dossiers retirés, Google a été le seul finalement à déposer sa candidature.» Il faut dire que les termes de l’appel d’offres précisaient que le travail, extrêmement délicat puisque tous les ouvrages sont scannés à la main, ne devrait rien coûter à la bibliothèque de Lyon. Charge au prestataire, en l’occurrence Google, de trouver le moyen de gagner de l’argent dans l’opération.
Toujours selon les termes du cahier des charges, le moteur de recherche s’est engagé à transformer en fichiers numériques une importante partie des documents de la deuxième bibliothèque de France, après la BNF. Ces fichiers seront consultables gratuitement, sur le moteur de recherche et sur le site de la bibliothèque, où ils pourront même être téléchargés à raison d’un document à la fois. «Ce sont les termes du contrat, reprend Bazin, ils effectuent les travaux de numérisation et ils font la mise en ligne sur notre site afin que nous puissions réaliser notre propre bibliothèque numérique.»
Garantie. Seule contrainte, la bibliothèque s’est engagée à ne pas vendre les fichiers, par exemple à un autre moteur de recherche, au cours des quinze ans qui suivront leur mise en ligne. Dernier point, la mise en ligne de ces ouvrages sur le site de la bibliothèque garantit, à long terme, son accès gratuit. «Même si nous ajoutons, dans l’avenir, des contenus à valeur ajoutée.»
Cet accord semble parfaitement satisfaire Patrick Bazin. «Dans les années 90, l’accès à la connaissance a commencé à intéresser la sphère économique, ce qui n’était pas le cas auparavant. On s’est rendu compte que la révolution numérique allait s’accompagner de changements d’échelles et de hiérarchies dans le partage des savoirs, mais aussi que cette implication de l’économie allait en permettre son développement. C’est ce qui se passe en ce moment. Et il n’y a pas de temps à perdre. Il faut que toutes les bibliothèques numérisent leurs collections.»
«Aujourd’hui, tout fait mémoire»
Emmanuel Hoog, directeur de l’Institut national de l’audiovisuel :
Par EDOUARD LAUNET
Emmanuel Hoog est président de l’INA (Institut national de l’audiovisuel) et auteur d’un essai - Mémoire année zéro, au Seuil - à paraître le 10 septembre.
Peut-on, doit-on se passer de Google ?
Faire migrer les savoirs inventés dans le monde de l’analogique vers celui du numérique est nécessaire pour des raisons de survie et d’accès. Le problème est aujourd’hui économique. A juste titre, une entreprise privée comme Google demandera des contreparties, voudra maximiser ses profits. Pour cela, il lui faudra le maximum de contenus exclusifs pour générer le maximum de trafic et les liens commerciaux qui vont avec. Cette exclusivité est-elle acceptable ? A quelles conditions ? Par ailleurs, l’accès à des collections publiques est-elle compatible avec de telles demandes ?
Vous alertez sur un chamboulement des repères dû au passage au numérique…
Nos sociétés traversent une crise identitaire majeure. Les souvenirs, puis la mémoire et enfin l’histoire offraient jusqu’à récemment un continuum de sens, générateur de repères permettant à chacun de se situer au sein d’une communauté. Aujourd’hui, le numérique nous a tous transformés en producteurs de mémoire. Et Internet en diffuseurs prolixes de celle-ci.
Désormais, chaque communauté revendique le droit d’écrire sa propre histoire et de la faire connaître à une très grande échelle. Le récent débat sur les lois mémorielles témoigne de ce bouleversement. Sur Internet, l’accès à l’histoire se fait à travers les moteurs de recherche. Les critères de sélection des réponses sont-ils transparents ? Non. Il est urgent d’organiser de grandes universités numériques où les critères d’accès au savoir seront fondés sur une logique de service public.
Vous prévoyez une «bulle mémorielle» ?
La crise identitaire suscite une demande excessive de mémoire par rapport à l’offre. Tout fait mémoire. Le culte du passé est devenu une véritable religion laïque. A l’instar de la monnaie, la mauvaise chasse la bonne, et les institutions patrimoniales (musées, bibliothèques…) et académiques peinent à satisfaire ce besoin de repères. Le risque d’implosion ou d’explosion est réel. Il peut conduire paradoxalement à une déculturation massive. A quoi sert d’apprendre, donc de mémoriser, si la machine se souvient de tout ? A quoi sert de hiérarchiser nos savoirs puisque les savoirs ne valent que par le rang de classement que leur donne un moteur de recherche ?
Quel impact cette course à la numérisation peut-elle avoir sur notre mémoire collective ?
Nos sociétés peuvent-elles encore générer du collectif ? La réponse dépasse le seul domaine d’Internet. Mais cet outil de démocratisation de l’accès au savoir cultive avant tout l’individualisme, et les sites communautaires l’esprit grégaire. A bien des égards, cet espace mérite d’être organisé, urbanisé, cultivé et régulé. A cette condition, peut-être, il pourra être lui aussi un lieu de mémoire, où la collectivité nationale pourra s’identifier, où un nouveau chapitre du roman national pourra s’écrire. Aujourd’hui, les moteurs et les pirates ont pris de l’avance sur les Etats. Rien n’est irréversible.