Publicité

Archivage du web : 510 milliards de pages sur Internet Archive !

  • BNF-web-histoire.jpg

    internet
    Chaque année la Bibliothèque nationale de France fait une collecte annuelle de près de 4,5 millions de sites. (CC0 Public Domain)
  • La fondation Internet Archive, créée en octobre 1996 par l'Américain Brewster Kahle, a posé les bases mondiales de l'archivage du web, qui vient donc de fêter son vingtième anniversaire. Rencontre avec Valérie Schafer, chargée de recherche à l’Institut des sciences de la communication (ISCC, CNRS/ParisSorbonne/UPMC) et coordinatrice du projet Web90 - Patrimoine, Mémoires et Histoire du Web dans les années 1990.

    Valerie-Schafer2016 marque le vingtième anniversaire de l'archivage d'internet. Que représente cet archivage en chiffres ?

    Nous célébrons un double événement : les vingt ans d’Internet Archive, fondation étatsunienne qui s’est donnée pour mission d’archiver le Web mondial, et les dix ans du dépôt légal du Web en France. Les archives du Web sont déjà pléthoriques: 510 milliards de pages pour Internet Archive. Mais il faut y ajouter toutes les pages archivées par les institutions nationales dans le monde ! Pour vous donner une idée, chaque année la Bibliothèque nationale de France fait une collecte annuelle de près de 4,5 millions de sites. Quant à l’Institut national de l’audiovisuel, en plus de son archivage de sites Web, sa collection de tweets liés au monde de l’audiovisuel atteint les 400 millions.

    Suggestion pour vous
    Archivage Physique et Numérique
    Pérennisez votre capital informationnel et gérez vos archives physiques et numériques via la plateforme hybride d’un prestataire certifié NF342 et NF461

    Qui procède à cette collecte et de quelle façon : exhaustive ou ciblée ?

    En France, l’Ina s’est vu confier la conservation de contenus qui relèvent de l’audiovisuel. La BnF prend en charge « le reste ». Celui-ci ne se limite pas au .fr, mais vise aussi le .re ou des contenus produits par des Français ou des auteurs domiciliés en France, dont les adresses sont en .com, .org., etc. J’ai évoqué les 4,5 millions de sites collectés par la BnF chaque année. La collecte de masse ne permet de les garder qu’une fois par an. Cependant, il y a des collectes plus régulières sur 20 000 sites, parfois journalières, par exemple pour les sites de presse. L’Ina a un périmètre plus restreint (environ 11 000 sites) et effectue des collectes plus régulières.
    Dans tous les cas l’archivage n’est pas exhaustif et les sites ne sont souvent archivés qu’à quelques clics de profondeur. Mais à défaut d’être exhaustives ces collectes se veulent représentatives.

    Où peut-on consulter ces archives ?

    Les collections d’Internet Archive sont en ligne, consultables via la Wayback Machine. C’est le cas aussi du Portugal avec arquivo.pt. Pour la France, il faut se rendre dans les enceintes de la BnF, ou encore dans certaines bibliothèques en région. C’est une des contraintes du dépôt légal, mais en retour ce cadre fournit aussi quelques libertés : à ce titre la BnF collecte par exemple les contenus du site du journal Le Monde qui comporte des robots.txt, un protocole d’exclusion destiné aux robots d’archivage, alors qu’Internet Archive ne les archive pas.

    A noter : En France, c'est dans les serveurs de la bibliothèque nationale François-Mitterrand que reposent les centaines de téraoctets d'archives du web français. A l'occasion du vingtième anniversaire de l'archivage du web, la BNF et l'Ina organisent les 22 et 23 novembre 2016 une journée professionnelle avec le concours de l'équipe ANR Web90, partenaire du projet Corpus et de l'université Paris Lumière : Il était une fois dans le web : 20 ans d'archives de l'internet en France

    En cadeau, Archimag vous propose de (re)découvrir son site internet tel qu'il était en août 2000, grâce à la Wayback Machine :

    Archimag_2000

    À lire sur Archimag
    Les podcasts d'Archimag
    Gilles Pécout a été nommé à la présidence de la Bibliothèque nationale de France au printemps dernier. Au micro de Bruno Texier, pour les podcasts d'Archimag, le nouveau président présente les grandes lignes de son programme à la tête de l'institution, notamment l'apport de l'IA dans le développement de nouveaux services.
    Publicité

    Serda Formations Archives 2025

    Indispensable

    Bannière BDD.gif