Histoire du Projet Gutenberg

Sommaire

Le premier livre numérique date du 4 juillet 1971. Il s’agit de l’eText #1 du Projet Gutenberg, un projet visionnaire lancé par Michael Hart pour créer des versions électroniques gratuites d’oeuvres littéraires et les diffuser dans le monde entier. Au 16e siècle, Gutenberg avait permis à chacun d’avoir des livres imprimés pour un prix relativement modique. Au 21e siècle, le Projet Gutenberg permettrait à chacun d’avoir une bibliothèque numérique gratuite. Ce projet trouve un second souffle et un rayonnement international avec l’apparition du web en 1990, puis la création de Distributed Proofreaders en 2000 pour partager la relecture des livres entre des centaines de volontaires. En 2010, le Projet Gutenberg compte plus de 33.000 ebooks de grande qualité ainsi que des dizaines de milliers de téléchargements par jour. Il dispose de sites web aux États-Unis, en Australie, en Europe et au Canada, avec 40 sites miroirs répartis sur toute la planète.

Gestation

Quels furent les tous débuts du projet? Alors étudiant à l’Université de l’Illinois (États-Unis), Michael Hart se voit attribuer quelques millions de dollars de «temps machine» dans le laboratoire informatique de son université.

Le 4 juillet 1971, jour de la fête nationale, il saisit The United States Declaration of Independence (Déclaration de l’indépendance des États-Unis) sur le clavier de son ordinateur, en caractères majuscules, puisque les caractères minuscules n’existent pas encore. Le texte électronique représente 5 Ko (kilo-octets). L’envoi d’un fichier de 5 Ko à la centaine de personnes utilisant le pré-internet de l’époque aurait fait imploser celui-ci, la bande passante étant infime. Michael diffuse donc un message indiquant où le texte est stocké – sans lien hypertexte toutefois, puisque le web ne voit le jour que vingt ans après – suite à quoi le fichier est téléchargé par six personnes. Le Projet Gutenberg est né.

Dans la foulée, Michael décide de consacrer l’énorme crédit-temps mis à sa disposition à la recherche des oeuvres littéraires disponibles dans les bibliothèques et à la numérisation de celles-ci. Au lieu d’être un ensemble de pages reliées, le livre sera un texte électronique pouvant être déroulé en continu.

Peu après, Michael définit la mission du Projet Gutenberg: mettre à la disposition de tous gratuitement, par voie électronique, le plus grand nombre possible d’oeuvres littéraires.

Après avoir saisi The United States Declaration of Independence (Déclaration de l’indépendance des États-Unis, signée le 4 juillet 1776) en 1971, Michael poursuit ses efforts en 1972 en saisissant The United States Bill of Rights (Déclaration des droits des États-Unis). Ce texte comprend les dix premiers amendements ajoutés en 1789 à la Constitution des États-Unis (qui date elle-même de 1787), et définissant les droits individuels des citoyens et les pouvoirs

respectifs du gouvernement fédéral et des États. En 1973, un volontaire saisit The United States Constitution (Constitution des États-Unis) dans son entier.

L’internet, qui était encore embryonnaire en 1971, débute véritablement en 1974, suite à la création du protocole TCP/IP (Transmission Control Protocol / Internet Protocol).

D’année en année, la capacité de la disquette augmente régulièrement – le disque dur n’existe pas encore -, si bien qu’il est possible d’envisager des fichiers de plus en plus volumineux. Des volontaires entreprennent la numérisation de La Bible, composée elle-même de plusieurs livres pouvant être traités séparément et occuper chacun un fichier différent.

Michael Hart débute la saisie des oeuvres complètes de Shakespeare, avec l’aide de volontaires, une pièce de théâtre après l’autre, avec un fichier pour chaque pièce. Cette version n’est d’ailleurs jamais mise en ligne, du fait d’une loi plus contraignante sur le copyright entrée en vigueur dans l’intervalle, et qui vise non pas le texte de Shakespeare, tombé depuis longtemps dans le domaine public, mais les commentaires et notes de l’édition correspondante. D’autres éditions annotées appartenant au domaine public sont mises en ligne quelques années plus tard.

De 10 à 1.000 ebooks

En août 1989, le Projet Gutenberg met en ligne l’eBook #10, The King James Bible, une bible publiée pour la première fois en 1611 et dont la version la plus connue date de 1769. L’ensemble des fichiers de l’Ancien Testament et du Nouveau Testament représente 5 Mo (méga-octets).

En 1990, les internautes sont au nombre de 250.000, et le standard en vigueur est la disquette de 360 Ko. En janvier 1991, Michael Hart saisit Alice’s Adventures in Wonderland (Alice au pays des merveilles, 1865) de Lewis Carroll. En juillet de la même année, il saisit Peter Pan (1904) de James M. Barrie. Ces deux classiques de la littérature enfantine tiennent chacun sur une disquette standard.

Arrive ensuite le web, opérationnel en 1991. Le premier navigateur, Mosaic, apparaît en novembre 1993. Lorsque l’utilisation du web se généralise, il devient plus facile de faire circuler les textes électroniques et de recruter des volontaires.

Le Projet Gutenberg rode sa méthode de travail, avec la numérisation d’un texte par mois en 1991, deux textes par mois en 1992, quatre textes par mois en 1993 et huit textes par mois en 1994.

En janvier 1994, le Projet Gutenberg met en ligne l’eBook #100, The Complete Works of William Shakespeare (Les oeuvres complètes de William Shakespeare). Shakespeare écrivit l’essentiel de son oeuvre entre 1590 et 1613.

La production continue ensuite d’augmenter, avec une moyenne de 16 nouveaux titres par mois en 1995 et 32 nouveaux titres par mois en 1996.

Comme on le voit, entre 1991 et 1996, la production double chaque année. Tout en continuant de numériser des livres, Michael coordonne désormais le travail de dizaines de volontaires.

En 1997, la production est toujours de 32 nouveaux titres par mois. En juin 1997, le Projet Gutenberg met en ligne The Merry Adventures of Robin Hood (Les aventures de Robin des Bois, 1883) de Howard Pyle. En août 1997, il met en ligne l’eBook #1000, La Divina Commedia (La Divine Comédie, 1321) de Dante Alighieri, dans sa langue d’origine, en italien.

À l’époque, le Projet Gutenberg s’articule en trois grands secteurs: (a) «Light Literature» (littérature de divertissement), qui inclut par exemple Alice’s Adventures in Wonderland, Peter Pan ou Aesop’s Fables (Fables d’Ésope); (b) «Heavy Literature» (littérature «sérieuse»), qui inclut par exemple La Bible, les oeuvres de Shakespeare ou Moby Dick; (c) «Reference Literature» (littérature de référence), composée d’encyclopédies et de dictionnaires, par exemple le Roget’s Thesaurus. Un classement par rubriques plus détaillé remplacera par la suite ces trois secteurs.

Le Projet Gutenberg se veut universel, aussi bien pour les oeuvres choisies que pour le public visé, le but étant de mettre la littérature à la disposition de tous, en dépassant largement le public habituel des étudiants et des enseignants. Le secteur consacré à la littérature de divertissement est destiné à amener devant l’écran un public très divers, par exemple des enfants et leurs grands-parents recherchant le texte électronique de Peter Pan après avoir vu le film Hook, ou recherchant la version électronique d’Alice au pays des merveilles après avoir regardé l’adaptation filmée à la télévision, ou recherchant l’origine d’une citation littéraire après avoir vu un épisode de Star Trek. Pratiquement tous les épisodes de Star Trek citent des livres ayant leur correspondant numérique dans le Projet Gutenberg.

L’objectif est donc que le public, qu’il soit familier ou non avec le livre imprimé, puisse facilement retrouver des textes entendus dans des conversations, des films, des musiques, ou alors lus dans d’autres livres, journaux et magazines.

Les textes électroniques (appelés “etexts” ou “ebooks”) sont stockés de la manière la plus simple possible, au format ASCII (American Standard Code for Information Interchange), pour que ces textes puissent être lus sans problème quels que soient la plateforme et le logiciel utilisés. Des lettres capitales remplacent les termes en italique, en gras et soulignés de la version imprimée. Les fichiers électroniques prennent peu de place et peuvent être facilement téléchargés. La recherche textuelle est tout aussi simple. Il suffit d’utiliser la fonction «rechercher» présente dans n’importe quel logiciel.

Michael Hart écrit en août 1998 lors d’un entretien par courriel: «Nous considérons le texte électronique comme un nouveau médium, sans véritable relation avec le papier. Le seul point commun est que nous diffusons les mêmes oeuvres, mais je ne vois pas comment le papier peut concurrencer le texte électronique une fois que les gens y sont habitués, particulièrement dans les établissements d’enseignement. (…) Mon projet est de mettre 10.000 textes électroniques sur l’internet. [NDLR: Ce sera chose faite en octobre 2003.] Si je pouvais avoir des subventions importantes, j’aimerais aller jusqu’à un million et étendre aussi le nombre de nos usagers potentiels de 1,x% à 10% de la population mondiale, ce qui représenterait la diffusion de 1.000 fois un milliard de textes électroniques, au lieu d’un milliard seulement.»

De 1.000 à 10.000 ebooks

Entre 1998 et 2000, la moyenne est constante, avec 36 nouveaux titres par mois. En mai 1999, les collections comptent 2.000 livres numériques. L’eBook #2000 est Don Quijote (Don Quichotte, 1605) de Cervantes, dans sa langue d’origine, en espagnol.

Disponible en décembre 2000, l’eBook #3000 est le troisième volume de À l’ombre des jeunes filles en fleurs (1919) de Marcel Proust, dans sa langue d’origine, en français. La moyenne passe à 104 livres par mois en 2001.

Le Project Gutenberg Australia voir le jour en août 2001.

Mis en ligne en octobre 2001, l’eBook #4000 est The French Immortals Series (Collection de textes d’Immortels français), dans sa traduction anglaise. Publié à Paris en 1905 par la Maison Mazarin, ce livre rassemble plusieurs fictions d’écrivains couronnés par l’Académie française, comme Émile Souvestre, Pierre Loti, Hector Malot, Charles de Bernard, Alphonse Daudet, etc.

Disponible en avril 2002, l’eBook #5000 est The Notebooks of Leonardo da Vinci (Les Carnets de Léonard de Vinci), des carnets datant du début du 16e siècle et traduits de l’italien vers l’anglais. Ces carnets ont constamment été dans le Top 100 des livres téléchargés depuis leur mise en ligne.

En 1991, Michael Hart avait choisi de numériser Alice’s Adventures in Wonderland et Peter Pan parce que, dans l’un et l’autre cas, leur version numérisée tenait sur une disquette de 360 Ko, le standard de l’époque. Quinze ans plus tard, en 2002, on dispose de disquettes de 1,44 Mo et on peut aisément compresser les fichiers en les zippant. Un fichier standard peut désormais comporter trois millions de caractères, plus qu’il n’en faut pour un livre de taille moyenne, puisqu’un roman de 300 pages numérisé au format ASCII représente un méga-octet. Un livre volumineux tient sur deux fichiers ASCII, téléchargeables tels quels ou en version zippée.

Cinquante heures environ sont nécessaires pour sélectionner un livre de taille moyenne, vérifier qu’il est bien du domaine public, le scanner, le corriger, le formater et le mettre en page.

Quelques numéros de livres sont réservés pour l’avenir, par exemple le numéro 1984 (eBook #1984) pour le roman éponyme de George Orwell, publié en 1949, et qui est donc loin d’être tombé dans le domaine public.

Au printemps 2002, les collections représentent le quart des oeuvres du domaine public en accès libre sur le web, recensées de manière pratiquement exhaustive par l’Internet Public Library (IPL), un beau résultat dû au patient travail de milliers de volontaires actifs dans de nombreux pays. En 2002, la production est   de 203 nouveaux titres par mois.

En novembre 2002, le Projet Gutenberg met en ligne les 75 fichiers du Human Genome Project (Projet du génome humain, à savoir le séquençage du génome humain), ceci peu de temps après sa parution initiale en février 2001, puisqu’il appartient d’emblée au domaine public. Chaque fichier se chiffre en dizaines sinon en centaines de méga-octets.

1.000 livres en août 1997, 2.000 livres en mai 1999, 3.000 livres en décembre 2000, 4.000 livres en octobre 2001, 5.000 livres en avril 2002, 10.000 livres en octobre 2003. L’eBook #10000 est The Magna Carta, qui fut le premier texte constitutionnel anglais, signé en 1215.

Entre avril 2002 et octobre 2003, les collections doublent, passant de 5.000 à 10.000 livres en dix-huit mois. La moyenne mensuelle est de 348 nouveaux titres en 2003.

Cette croissance rapide est due à l’activité de Distributed Proofreaders (DP), un site conçu en 2000 par Charles Franks pour permettre la correction partagée des livres entre de nombreux volontaires. Les volontaires choisissent un livre en cours de traitement pour relire et corriger une page donnée. Chacun travaille à son propre rythme. A titre indicatif, il est conseillé de relire une page par jour. C’est peu de temps sur une journée, et c’est beaucoup pour le projet.

En août 2003, un CD Best of Gutenberg est disponible avec une sélection de 600 ebooks. En décembre 2003, date à laquelle le Projet Gutenberg fête ses 10.000 ebooks, la quasi-totalité de ceux-ci (9.400 ebooks) est gravée sur un DVD. CD et DVD sont envoyés gratuitement à qui en fait la demande. Libre ensuite à chacun de faire autant de copies que possible et de les distribuer autour de soi dans des écoles et des bibliothèques.

En septembre 2003, le Projet Gutenberg lance le Projet Gutenberg Audio eBooks, une collection de livres audio (lus par l’être humain), ainsi que le Sheet Music Subproject (Sous-projet pour les partitions musicales), une collection rassemblant des partitions musicales et des enregistrements musicaux. Un autre sous-projet rassemble des images fixes et animées.

De 10.000 à 20.000 ebooks

En décembre 2003, les collections approchent les 11.000 ebooks. Plusieurs formats sont désormais présents, par exemple les formats HTML, XML et RTF, le format principal – et obligatoire – restant l’ASCII. Le tout représente 46.000 fichiers, soit une capacité totale de 110 Go (giga-octets). Le 13 février 2004, date de la conférence de Michael Hart au siège de l’UNESCO à Paris, les collections comprennent très exactement 11.340 ebooks dans 25 langues. En mai 2004, les 12.500 ebooks disponibles représentent 100.000 fichiers dans une vingtaine de formats, soit une capacité totale de 135 Go, destinée à doubler chaque année avec l’ajout d’environ 300 ebooks par mois (338 ebooks en 2004).

Parallèlement, le Project Gutenberg Consortia Center (PGCC), qui avait été lancé en 1997 pour rassembler des collections de livres numériques déjà existantes et provenant de sources diverses, est officiellement affilié au Projet Gutenberg en 2003.

Le Projet Gutenberg Europe est lancé en janvier 2004 à l’instigation du Projet Rastko, basé à Belgrade, en Serbie. Distributed Proofreaders Europe débute la production de livres numériques à la même date, avec cent livres disponibles en avril 2005. Les livres sont en plusieurs langues pour refléter la diversité linguistique prévalant en Europe.

En janvier 2005, le Projet Gutenberg met en ligne l’eBook #15000, The Life of Reason (La vie de raison, 1906) de George Santayana.

En juin 2005, le nombre de livres s’élève à 16.000. Si 25 langues seulement étaient présentes en février 2004, 42 langues sont représentées en juin 2005, dont le sanscrit et les langues mayas.

Le Project Gutenberg Australia (lancé en août 2001) fête ses 500 livres en juillet 2005.

Un nouveau secteur, dénommé Project Gutenberg PrePrints, est lancé en janvier 2006 pour accueillir de nouveaux documents suffisamment intéressants pour être mis en ligne, mais ne pouvant être intégrés aux collections du Projet Gutenberg sans traitement ultérieur par des volontaires, pour diverses raisons: collections incomplètes, qualité insuffisante, conversion souhaitée dans un autre format, etc. Les PrePrints comprennent 379 ebooks en décembre 2006, et 2.020 ebooks en février 2009.

En décembre 2006, le Projet Gutenberg franchit la barre des 20.000 livres. L’eBook #20000 est un livre audio, Twenty Thousand Leagues Under the Sea, version anglaise du roman Vingt mille lieues sous les mers (1869) de Jules Verne. La moyenne est de 345 nouveaux titres par mois en 2006.

S’il a fallu 32 ans et deux mois, de juillet 1971 à octobre 2003, pour numériser les 10.000 premiers livres, il n’aura fallu que trois ans et deux mois, d’octobre 2003 à décembre 2006, pour numériser les 10.000 livres suivants.

À la même date, le Project Gutenberg Australia approche les 1.500 livres (c’est chose faite en avril 2007) et le Projet Gutenberg Europe compte 400 livres.

En décembre 2006, on compte 50 langues. Les dix langues comprenant plus de cinquante livres sont l’anglais (17.377 livres le 16 décembre 2006), le français (966 livres), l’allemand (412 livres), le finnois (344 livres), le hollandais (244 livres), l’espagnol (140 livres), l’italien (102 livres), le chinois (69 livres), le portugais (68 livres) et le tagalog (51 livres).

De 20.000 à 30.000 ebooks

Project Gutenberg News, le blog officiel du Projet Gutenberg, débute en novembre 2006 à l’instigation de Mike Cook. Ce blog complète les lettres d’information (hebdomadaire et mensuelle) existant depuis nombre d’années. Le blog offre par exemple les statistiques de production hebdomadaires, mensuelles et annuelles depuis 2001.

La production hebdomadaire est de 24 livres en 2001, 47 livres en 2002, 79 livres en 2003, 78 livres en 2004, 58 livres en 2005 et 80 livres en 2006.

La production mensuelle est de 104 livres en 2001, 203 livres en 2002, 348 livres en 2003, 338 livres en 2004, 252 livres en 2005 et 345 livres en 2006.

La production annuelle est de 1.244 livres en 2001, 2.432 livres en 2002, 4.176 livres en 2003, 4.058 livres en 2004, 3.019 livres en 2005 et 4.141 livres en 2006.

Le Projet Gutenberg Canada (PGC) voit le jour le 1er juillet 2007, le jour de la fête nationale, à l’instigation de Michael Shepard et David Jones. Il est suivi de Distributed Proofreaders Canada (DPC), avec une production qui débute en décembre 2007. Les cent premiers livres sont disponibles en mars 2008, en anglais, en français et en italien.

Le Projet Gutenberg compte 25.000 livres en avril 2008. L’eBook #25000 est English Book Collectors (Collectionneurs de livres anglais, 1902) de William Younger Fletcher.

Le Projet Gutenberg Europe atteint les 500 livres en octobre 2008.

Le Projet Gutenberg comptabilise 30.000 livres en octobre 2009. L’eBook #30000 est The Bird Book (Le livre des oiseaux, 1915), de Chester Albert Reed.

30.000 ebooks et plus

Principale source des livres du Projet Gutenberg, Distributed Proofreaders (DP) fête son dixième anniversaire en octobre 2010, avec plus de 18.000 livres patiemment numérisés, relus et corrigés pendant dix ans par plusieurs milliers de volontaires.

Le Projet Gutenberg propose plus de 33.000 ebooks de grande qualité en décembre 2010, dans divers formats pour lecture sur ordinateur, PDA, téléphone mobile, smartphone et tablette.

Copyright © 2010 Marie Lebert

If you liked this post, say thanks by sharing it.