Publicité

Archivage du web : la BnF a collecté 6 milliards d'URL en 2023

  • archivage_web_bnf.jpg

    Archivage-web-BnF-collecte-6-milliards-URL-2023
    La BnF a procédé à deux "collectes d'urgence" de plateformes ayant fermé à l’été 2023 (Freepik Premium / Faceslab)
  • En charge du dépôt du web depuis 2002, la Bibliothèque nationale de France a déjà archivé 2 pétaoctets de données.

    L'année 2023 aura été particulièrement prolifique pour l'archivage du web français. 6 milliards d'URL ont été collectées par la Bibliothèque nationale de France qui est en charge du dépôt légal du web français depuis 2002. En plus de vingt ans de collecte, ce sont 2 000 téraoctets de données (2 pétaoctets) qui ont été archivés.

    Le millésime 2023 est marqué par deux "collectes d'urgence"  de plateformes ayant fermé à l’été 2023 : les skyblogs et les pages personnelles Orange. A elles seules, ces deux gisements représentent un volume de 1,9 milliard d’URL. Elles s'ajoutent aux collectes ciblées réalisées par la BnF qui ont permis de sauvegarder 4,4 milliards d'URL.

    Assurer la meilleure représentativité possible du web français

    "La BnF réalise des « moissonnages » de l’internet français une fois par an lors de sa collecte annuelle, mais aussi plus régulièrement à l’occasion de collectes ciblées, en lien avec les collections thématiques et spécialisées de ses départements ou avec l’actualité nationale et internationale (guerre en Ukraine, échéances électorales, Jeux olympiques...)" explique la Bibliothèque nationale de France. Objectif : assurer la meilleure représentativité possible du web français.

    Parmi les sites moissonnés figurent également certains réseaux sociaux (YouTube, Instagram, TikTok) et les podcasts. En revanche, le passage de Twitter à X rend désormais impossible sa collecte par les robots de la BnF.

    L'année 2024 sera marquée par de nouvelles collectes ciblées portant notamment sur les Jeux olympiques et les élections européennes.

    Afin de respecter le droit de la propriété intellectuelle, les contenus archivés ne sont pas accessibles en ligne. Ils peuvent cependant être consultés sur des postes informatiques situés à la BnF ainsi que dans plusieurs dizaines de bibliothèques partenaires en région et en outre-mer.

    Sur le même thème : Archives du web : les conseils de Sophie Gebeil aux historiens et aux chercheurs     

    À lire sur Archimag
    Les podcasts d'Archimag
    Le Syndicat intercommunal d'énergies de Maine-et-Loire (SIÉML) s’est lancé dans un grand projet d’archivage électronique en 2023. L’opportunité de réduire l’impact carbone tout en optimisant les processus est apparue au cours du projet. Agnès Arendo, archiviste et déléguée à la protection des données du SIÉML, revient sur la mise en route et les grandes étapes de ce chantier.
    Publicité

    Serda Formations Archives 2023

    Indispensable

    Bannière BDD.gif