Les Archives d'Arolsen (Allemagne) conservent l'un des plus importants fonds d'archives consacrés aux persécutions nazies. Ce centre de documentation détient des données sur près de 17,5 millions de personnes et a été inscrit au Registre Mémoire du monde de l’Unesco en 2013. Son patrimoine archivistique couvre trois thématiques : les documents créés par la bureaucratie nazie ; les documents émanant d’autorités publiques sur l’affectation des travailleurs forcés ; les dossiers établis par les Alliés sur l’entretien et les soins des personnes déplacées après 1945.
Mais l'exploitation de tels volumes documentaires ressemble à un parcours du combattant : "traduire, lire, transcrire, cataloguer et valider ces documents à la main pourrait prendre des décennies" explique la société de conseil Accenture ; "chaque document est indexé indépendamment par trois bénévoles et, si les entrées ne correspondent pas, un employé des archives d'Arolsen vérifie leur exactitude. En effet, il faut parfois jusqu'à quatre personnes pour indexer et valider quatre documents en une heure."
160 documents en une heure
Face à ce défi, une équipe de bénévoles d'Accenture a développé un programme d'intelligence artificielle qui combine la reconnaissance optique des caractères et la technologie d'apprentissage automatique. Cette IA est en mesure d'indexer des documents dont l'extraction est particulièrement difficile et fastidieuse pour les humains : listes de prisonniers et de transferts comportant des dizaines de rangées, registres de camps de concentration et de documents de recherche, etc.
Selon Accenture, quatre bénévoles peuvent désormais valider environ 160 documents en une heure, soit une productivité multipliée par 40.
Supervision humaine
Pour autant, les promoteurs de cette IA restent prudents : "la supervision humaine du processus reste importante, non seulement pour garantir l'exactitude des données, mais aussi pour permettre à l'intelligence artificielle d'apprendre. En examinant et en corrigeant les informations, les volontaires "apprennent" à la solution à reconnaître les caractères d'écriture et les abréviations typiques de l'époque. Grâce à leurs contributions, l'IA a progressivement amélioré sa précision de 10 % dans le champ de formulaire "nom de famille de la mère". Pour le champ "religion", l'IA fonctionne désormais à 99 % de confiance."
Sur le même thème : Quand les archives font appel à l'intelligence artificielle