Article réservé aux abonnés Archimag.com

Les outils du data management : du stockage à l'analyse de la donnée

  • 7-outils-data-management-optimal.jpg

    « Un bon croquis vaut mieux qu’un long discours ». Cette maxime attribuée à Napoléon Bonaparte résume à elle seule l’intérêt des outils de datavisualisation (Freepik).
  • Le data management couvre un périmètre allant du stockage de la donnée à son analyse en passant par sa transformation et son unification. À chacune de ces problématiques correspond une famille d’outils, même si certains d’entre eux répondent fonctionnellement à plusieurs d’entre elles. 

    archimag_377_magazine.pngenlightenedCET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N°377

    Au sommaire : 

    - Dossier : data gouvernance : prenez le pouvoir sur vos données !
    Méthode : les 7 points clés de la data gouvernance
    - Les outils pour un data management : du stockage à l'analyse de la donnée
    Conseil Départemental du 64 : valoriser la donnée pour une meilleure stratégie data

     mail Découvrez Le Brief de l'IT, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des data, de l'IT, de la digitalisation et de la transformation numérique !


    Les services cloud comme AWS, Google Cloud et Microsoft Azure révolutionnent la gestion des données, offrant des outils pour stocker, analyser et exploiter les informations de manière centralisée. Associées à des technologies comme les ETL, les systèmes de gestion des données de référence (MDM) et les outils de datavisualisation, ces plateformes facilitent une prise de décision plus rapide et éclairée, tout en répondant aux besoins croissants d'innovation et de sécurité.

    Lire aussi : Data mesh : quel est réellement l’intérêt de cette approche ?

    Les services cloud

    Des services d’hébergement dans le cloud (data warehouse cloud) reposent sur une plateforme qui propose à la fois le stockage et la gestion de vos données. Sur ce principe, et dans une logique d’écosystème, certains d’entre eux permettent aux organisations de collecter et d’exploiter leurs données, ceci avec l’ambition d’une vision organisationnelle globale. Amazon et Google sont les acteurs historiques de ce marché.

    • Amazon

    Amazon Web Services (AWS) possède une bibliothèque d’outils particulièrement bien garnie (plus de 1 300 références). Aux responsables data connaissant leurs besoins de sélectionner ceux qui leur sont nécessaires. Ils pourront en particulier se tourner vers : Amazon Simple Storage Service (Amazon S3), service de stockage adapté par exemple pour les lacs de données ; AWS Glue, qui intègre, prépare et gère les données dans un catalogue centralisé ; Amazon Athena, service de requêtes pour l’analyse de données dans Amazon S3 ; Amazon Redshift, solution de data warehouse ; ou encore Amazon Quicksight, solution d’informatique décisionnelle (BI) fournissant tableaux de bord et datavisualisation…

    • Google

    La plateforme Google Cloud est riche en outils data, notamment : BigQuery (plateforme pour connecter toutes les données), Cloud BigTable (stockage et accès aux données), Cloud Pub/Sub (analyse de flux et ingestion de données) et Cloud Data Transfer (transfert de données entre systèmes de stockage), Analytics (analyse de données et informatique décisionnelle), Looker Studio (datavisualisation), etc.

    • Microsoft

    Azure, la plateforme de cloud computing de Microsoft, offre un large choix de services. Parmi eux : Stockage Blob Azure (stockage de données non structurées), Purview (famille de solutions pour gérer et régir les données locales, multiclouds et SaaS), Azure Data Explorer (analyse de données), etc.

    • Panoply

    Panoply (SQream) consiste en un data warehouse avec : connexion aux sources et recueil de données, traitement, stockage, accès, interrogation, dashboards (tout en ayant des connecteurs pour les outils de BI).
    Bien sûr, l’ensemble de ces plateformes mettent en avant machine learning (ML) et intelligence artificielle (IA) — comme d’ailleurs nombre d’outils présentés ici —, à l’appui de solutions ou en tant que telles. Citons par exemple Vertex AI, chez Google, dédié à l’entraînement et au déploiement de modèles de ML et d’applications d’IA.
    En outre, certaines plateformes (industry cloud platforms) sont conçues pour des domaines spécifiques comme l’énergie, l’agriculture, la finance ou l’assurance.

    Lire aussi : L’IA générative pour les professionnels : les défis et les enjeux à relever

    Les outils d’intégration data

    Les outils d’intégration data ou ETL (pour extraire/extract, transformer/transform et charger/load) mettent en place les mécanismes reliant les sources de données au data warehouse. Concrètement, ils extraient les données brutes, les agrègent, les nettoient, éliminent les doublons, les filtrent, les enrichissent, révisent leur format… selon des règles métiers et les chargent dans l’entrepôt de données sur lequel s’appuieront les outils de BI.
    Les outils ETL sont légion : Airflow (open source), Astera, Blendo, Cloudera, CloverDX, Databricks, Dataddo, Fivetran, Hevo, Informatica Powercenter (on-premise), Intergrate.io, Lobster, Matillion, Microsoft (SQL Server SSIS, on-premise, et Azure Data Factory, ADF), Pentaho, Scriptella (open source), Skyvia, Stitch Data (Qlik), Talend (open source), etc.

    • les outils de master data management

    Les outils de master data management (MDM) ou de gestion des données de référence (GDR) permettent, grâce à une base de données centralisée, de stocker, gérer et diffuser en temps réel ce type de données au sein d’une organisation. Le MDM — qui fait en quelque sorte la somme des données du product information management (Pim, informations produits), du digital asset management (Dam, ressources numériques) et du content management system (CMS) — centralise les données en un unique fichier maître pour faciliter leur partage de façon sécurisée et tracée entre les collaborateurs et les services. De plus, il facilite la réalisation de rapports et d’audits de conformité (RGPD…).

    Quelques outils de MDM : Adverity, Ataccama, Bizagi, Boomi, Collibra, DataRocket, Grepsr, IBM, Informatica, Infosolve Technologies, K2View, Magnitude, NetWeaver (SAP), Pimcore, Profisee, Reltio, Rulex, Semarchy, Stibo Systems, SyncForce, Tibco, Zema, etc.

    Lire aussi : Data management : entrez dans le game avec le nouveau supplément Archimag

    Les outils de data catalog

    Un data catalog est une sorte de dictionnaire en ligne de métadonnées. Pour chaque donnée, on connaît sa définition, sa structure, sa source, sa qualité, son utilisation dédiée, sa procédure et son contexte. Le data catalog précise les règles de traitement des données, permet de les cartographier et de visualiser leur cycle de vie. Il indique leur origine, les modifications apportées, les équipes qui les ont transformées et les bases de données où elles se trouvent.

    Outil de démocratisation de la donnée ne réclamant aucune compétence technique particulière, le data catalog est collaboratif et destiné à tous les métiers. On ne peut pas modifier une donnée directement dans le catalogue : pour ce faire, il faut revenir à sa base d’origine. Les principales fonctionnalités d’un data catalog sont : moteur de recherche, data lineage (visualisation de l’ensemble du cycle de vie de la donnée), collaboratif (évaluer un ensemble de données, le commenter, le partager), registre des métadonnées (description business, métier de chaque élément).

    Quelques outils de data catalog : Alation, Amundsen (open source), Atlan, CastorDoc, Clan (open source), DataGalaxy, Data.world, Dawizz (Blueway), Magda (open source), Secoda, SelectStar, Stemma (Teradata), Tableau, Zeenea, etc.

    Lire aussi : Maximiser la valeur des données avec les solutions de Data Catalog

    Les outils de datavisualisation

    Comment présenter aux métiers et aux utilisateurs finaux les données analysées voulues ? Réponse : avec les dashboards conçus par les outils de datavisualisation (dataviz). Le premier intérêt d’une dataviz est de porter une méthode ou une modélisation globale des données à servir aux utilisateurs pour transmettre rapidement une information essentielle. En hausse ou en baisse ? Dans le vert ou dans le rouge ? La datavisualisation s’appuie sur des traits, des symboles et des couleurs. Une représentation graphique de données essentielles apporte une lecture immédiate, non pas technique, mais métier. On perçoit une tendance, on est surpris par un chiffre, on s’interroge sur une corrélation. En même temps, l’image du dashboard est vite mémorisée.

    À sa manière, un dashboard raconte une histoire bien plus facile à retenir que des résultats d’une analyse froide. Le storytelling du tableau de bord consiste à créer un récit convaincant autour de données et d’indicateurs clés de performance (KPI). Il illustre les performances de l’entreprise et ses perspectives tout en orientant et engageant les utilisateurs. Attention cependant, la visualisation demande une interprétation : on ne passe pas automatiquement de la donnée à la décision.

    Il existe différents types de visualisation qui, le cas échéant, peuvent être assemblés au sein du même dashboard : le tableau, le graphique, l’histogramme, le camembert, le nuage de points ou de bulles, le compartimentage, la carte, la chronologie, l’arborescence hiérarchique…

    Quelques outils de dataviz : Databox, DigDash, Domo, FusionCharts, Infogram, iRods (open source), Monday.com, Power BI (Microsoft), Qlik, SAS, SAP, Sisense, Spotfire, Tableau, etc.

    À lire sur Archimag
    Les podcasts d'Archimag
    Rencontre avec Stéphane Roder, le fondateur du cabinet AI Builders, spécialisé dans le conseil en intelligence artificielle. Également professeur à l’Essec, il est aussi l’auteur de l’ouvrage "Guide pratique de l’intelligence artificielle dans l’entreprise" (Éditions Eyrolles). Pour lui, "l’intelligence artificielle apparaît comme une révolution pour l’industrie au même titre que l’a été l’électricité après la vapeur".
    Publicité

    Serda Formations Data 2023