La fondation Internet Archive, créée en octobre 1996 par l'Américain Brewster Kahle, a posé les bases mondiales de l'archivage du web, qui vient donc de fêter son vingtième anniversaire. Rencontre avec Valérie Schafer, chargée de recherche à l’Institut des sciences de la communication (ISCC, CNRS/ParisSorbonne/UPMC) et coordinatrice du projet Web90 - Patrimoine, Mémoires et Histoire du Web dans les années 1990.
2016 marque le vingtième anniversaire de l'archivage d'internet. Que représente cet archivage en chiffres ?
Nous célébrons un double événement : les vingt ans d’Internet Archive, fondation étatsunienne qui s’est donnée pour mission d’archiver le Web mondial, et les dix ans du dépôt légal du Web en France. Les archives du Web sont déjà pléthoriques: 510 milliards de pages pour Internet Archive. Mais il faut y ajouter toutes les pages archivées par les institutions nationales dans le monde ! Pour vous donner une idée, chaque année la Bibliothèque nationale de France fait une collecte annuelle de près de 4,5 millions de sites. Quant à l’Institut national de l’audiovisuel, en plus de son archivage de sites Web, sa collection de tweets liés au monde de l’audiovisuel atteint les 400 millions.
Qui procède à cette collecte et de quelle façon : exhaustive ou ciblée ?
En France, l’Ina s’est vu confier la conservation de contenus qui relèvent de l’audiovisuel. La BnF prend en charge « le reste ». Celui-ci ne se limite pas au .fr, mais vise aussi le .re ou des contenus produits par des Français ou des auteurs domiciliés en France, dont les adresses sont en .com, .org., etc. J’ai évoqué les 4,5 millions de sites collectés par la BnF chaque année. La collecte de masse ne permet de les garder qu’une fois par an. Cependant, il y a des collectes plus régulières sur 20 000 sites, parfois journalières, par exemple pour les sites de presse. L’Ina a un périmètre plus restreint (environ 11 000 sites) et effectue des collectes plus régulières.
Dans tous les cas l’archivage n’est pas exhaustif et les sites ne sont souvent archivés qu’à quelques clics de profondeur. Mais à défaut d’être exhaustives ces collectes se veulent représentatives.
Où peut-on consulter ces archives ?
Les collections d’Internet Archive sont en ligne, consultables via la Wayback Machine. C’est le cas aussi du Portugal avec arquivo.pt. Pour la France, il faut se rendre dans les enceintes de la BnF, ou encore dans certaines bibliothèques en région. C’est une des contraintes du dépôt légal, mais en retour ce cadre fournit aussi quelques libertés : à ce titre la BnF collecte par exemple les contenus du site du journal Le Monde qui comporte des robots.txt, un protocole d’exclusion destiné aux robots d’archivage, alors qu’Internet Archive ne les archive pas.
A noter : En France, c'est dans les serveurs de la bibliothèque nationale François-Mitterrand que reposent les centaines de téraoctets d'archives du web français. A l'occasion du vingtième anniversaire de l'archivage du web, la BNF et l'Ina organisent les 22 et 23 novembre 2016 une journée professionnelle avec le concours de l'équipe ANR Web90, partenaire du projet Corpus et de l'université Paris Lumière : Il était une fois dans le web : 20 ans d'archives de l'internet en France.
En cadeau, Archimag vous propose de (re)découvrir son site internet tel qu'il était en août 2000, grâce à la Wayback Machine :