Découvrez Le Push du Veilleur, la newsletter thématique gratuite d'Archimag dédiée aux professionnels de la veille et de la documentation !
De nombreux professionnels de l’information font usage des bases de données documentaires, qui permettent de gérer et d’organiser de grandes collections de documents et leurs métadonnées associées. Articles de recherche, rapports, fiches techniques, documentations normatives, livres, fichiers multimédias…
Ces bases permettent de réaliser des recherches, de trier et de stocker de l’information. Elles peuvent être déployées en interne, au sein d’une organisation, ou de manière publique comme les sites Cairn ou encore Theses.fr et Europresse.
Quels types de documents faut-il inclure, quelles sont les informations clés à répertorier et quelles sont les fonctionnalités à intégrer pour faire de la recherche ? La création d’une base de données documentaire demande une phase de préparation en fonction de son objectif.
Comprendre comment l’information y est structurée permet non seulement de mieux appréhender sa conception, mais aussi son utilisation.
Le cœur des bases de données fait généralement appel à un système de gestion de base de données (SGBD). Son objectif est de veiller à la cohérence des données (gestion des doublons, maillage entre les informations…), à la possibilité de les partager et à leur sécurité.
Lire aussi : Professionnels de l’information et de la documentation: l'ADBS présente son nouveau référentiel métiers
Ce type de solution permettra ensuite d’interroger, de manipuler, d’assurer la maintenance ou l’enrichissement des données. Il existe ainsi différents types de modèles de SGBD.
Le modèle textuel
Comme son nom l’indique, le modèle textuel (appelé aussi "fichier plat") s’adapte bien aux bases textuelles. Structurée dans une table unique (c’est-à-dire un tableau dans lequel l’ensemble des données sont organisées), chaque ligne (aussi appelée "enregistrement") représente un document. Et chaque colonne comprend des champs préalablement définis (auteur, date, description…).
Ici, les recherches se font à partir des index construits sur la base de ces champs. Ces derniers doivent donc être nécessairement instruits pour être trouvables et peuvent d’ailleurs contenir plusieurs occurrences. Quelques éditeurs proposent ce type de SGBD, comme Lucidea avec Inmagic DB/TextWorks.
Le modèle relationnel
Le modèle relationnel est très répandu et constitue la tête pensante de nombreuses bases de données documentaires ou encore de systèmes intégrés de gestion de bibliothèque (SIGB). À la différence du modèle textuel, celui-ci permet de stocker et d’accéder à des données liées entre elles sur la base d’un concept mathématique de relation.
Les différentes données sont structurées dans des tables, des lignes et des colonnes. Ces derniers contiennent une occurrence (contrairement au modèle textuel). Le langage SQL (Structured Query Language) permet d’écrire et d’interroger les données.
Si le modèle ne se base pas sur une logique d’index, le SQL offre la possibilité de traiter et de rechercher de l’information de manière plus complexe. Sur le marché, il existe différents SGBD relationnels, à l’image des solutions d’Oracle, MySQL, CloudSQL…
Lire aussi : Persée franchit le cap du million de documents en accès libre
La famille NoSQL
Avec l’arrivée de nouveaux langages, du multimédia et d’autres évolutions technologiques, une voie s’est peu à peu démocratisée pour la création de bases de données : les familles NoSQL. Ces modèles répondent aux besoins de stockage, d’historisation et de recherche sur de très grands volumes de données.
De manière générale, ces systèmes ne font pas appel à la logique de table pour permettre une meilleure évolutivité. Par ailleurs, le langage utilisé pour réaliser des requêtes diffère en fonction du système, proposant ainsi plusieurs choix d’architecture de données.
Dans ces conditions, il peut être difficile de migrer une base. Il existe quatre grandes familles de systèmes NoSQL : les bases orientées colonnes, documents, clé/valeur et graphes. Les systèmes HBase, Neo4j, CosmosDB et BigTable font partie de cette mouvance.