"Une avancée importante dans la façon dont nous structurons, réutilisons et préservons le contenu en PDF", c'est ainsi que la PDF Association vient de présenter une nouvelle spécification sur l'interopérabilité du PDF. Après dix années de développement au sein de la PDF Association, la nouvelle spécification, conçue pour fonctionner avec PDF 2.0 (ISO 32000-2), ouvre des perspectives inédites pour les archivistes et les professionnels de l’information.
Elle vise notamment à améliorer l’accessibilité et l’interopérabilité entre les plateformes et les outils travaillant avec du contenu PDF. Elle permet également la prise en charge d’une extraction de métadonnées.
Entrainement des grands modèles de langage
Selon la PDF Association, de nombreux cas d'utilisation sont proposés par la nouvelle spécification :
- l’accessibilité des fichiers PDF 2.0 ;
- le réagencement du contenu (par exemple, pour une mise en page réactive sur les appareils mobiles) ;
- la dérivation vers d’autres formats, y compris HTML ;
- la structuration interopérable de contenu non structuré ;
- l’extraction de contenu et de données (par exemple, copier-coller) ;
- la sélection, l’annotation et la rédaction ;
- l’amélioration de la recherche ;
- le suivi des modifications ;
- l’édition aller-retour (par exemple, traitement de texte → PDF → traitement de texte).
Enfin, à l'heure où l'IA générative a besoin d'accéder à des millions de documents, cette nouvelle spécification facilite l’ouverture des contenus pour les entrainements des grands modèles de langage (LLM).
Fondée en 2006 en Allemagne, la PDF Association promeut l'utilisation des normes internationales liées à la technologie PDF.