CET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N°377
Au sommaire :
- Dossier : data gouvernance : prenez le pouvoir sur vos données !
- Méthode : les 7 points clés de la data gouvernance
- Les outils pour un data management : du stockage à l'analyse de la donnée
- Conseil Départemental du 64 : valoriser la donnée pour une meilleure stratégie data
Découvrez Le Brief de l'IT, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des data, de l'IT, de la digitalisation et de la transformation numérique !
Les services cloud comme AWS, Google Cloud et Microsoft Azure révolutionnent la gestion des données, offrant des outils pour stocker, analyser et exploiter les informations de manière centralisée. Associées à des technologies comme les ETL, les systèmes de gestion des données de référence (MDM) et les outils de datavisualisation, ces plateformes facilitent une prise de décision plus rapide et éclairée, tout en répondant aux besoins croissants d'innovation et de sécurité.
Lire aussi : Data mesh : quel est réellement l’intérêt de cette approche ?
Les services cloud
Des services d’hébergement dans le cloud (data warehouse cloud) reposent sur une plateforme qui propose à la fois le stockage et la gestion de vos données. Sur ce principe, et dans une logique d’écosystème, certains d’entre eux permettent aux organisations de collecter et d’exploiter leurs données, ceci avec l’ambition d’une vision organisationnelle globale. Amazon et Google sont les acteurs historiques de ce marché.
- Amazon
Amazon Web Services (AWS) possède une bibliothèque d’outils particulièrement bien garnie (plus de 1 300 références). Aux responsables data connaissant leurs besoins de sélectionner ceux qui leur sont nécessaires. Ils pourront en particulier se tourner vers : Amazon Simple Storage Service (Amazon S3), service de stockage adapté par exemple pour les lacs de données ; AWS Glue, qui intègre, prépare et gère les données dans un catalogue centralisé ; Amazon Athena, service de requêtes pour l’analyse de données dans Amazon S3 ; Amazon Redshift, solution de data warehouse ; ou encore Amazon Quicksight, solution d’informatique décisionnelle (BI) fournissant tableaux de bord et datavisualisation…
La plateforme Google Cloud est riche en outils data, notamment : BigQuery (plateforme pour connecter toutes les données), Cloud BigTable (stockage et accès aux données), Cloud Pub/Sub (analyse de flux et ingestion de données) et Cloud Data Transfer (transfert de données entre systèmes de stockage), Analytics (analyse de données et informatique décisionnelle), Looker Studio (datavisualisation), etc.
- Microsoft
Azure, la plateforme de cloud computing de Microsoft, offre un large choix de services. Parmi eux : Stockage Blob Azure (stockage de données non structurées), Purview (famille de solutions pour gérer et régir les données locales, multiclouds et SaaS), Azure Data Explorer (analyse de données), etc.
- Panoply
Panoply (SQream) consiste en un data warehouse avec : connexion aux sources et recueil de données, traitement, stockage, accès, interrogation, dashboards (tout en ayant des connecteurs pour les outils de BI).
Bien sûr, l’ensemble de ces plateformes mettent en avant machine learning (ML) et intelligence artificielle (IA) — comme d’ailleurs nombre d’outils présentés ici —, à l’appui de solutions ou en tant que telles. Citons par exemple Vertex AI, chez Google, dédié à l’entraînement et au déploiement de modèles de ML et d’applications d’IA.
En outre, certaines plateformes (industry cloud platforms) sont conçues pour des domaines spécifiques comme l’énergie, l’agriculture, la finance ou l’assurance.
Lire aussi : L’IA générative pour les professionnels : les défis et les enjeux à relever
Les outils d’intégration data
Les outils d’intégration data ou ETL (pour extraire/extract, transformer/transform et charger/load) mettent en place les mécanismes reliant les sources de données au data warehouse. Concrètement, ils extraient les données brutes, les agrègent, les nettoient, éliminent les doublons, les filtrent, les enrichissent, révisent leur format… selon des règles métiers et les chargent dans l’entrepôt de données sur lequel s’appuieront les outils de BI.
Les outils ETL sont légion : Airflow (open source), Astera, Blendo, Cloudera, CloverDX, Databricks, Dataddo, Fivetran, Hevo, Informatica Powercenter (on-premise), Intergrate.io, Lobster, Matillion, Microsoft (SQL Server SSIS, on-premise, et Azure Data Factory, ADF), Pentaho, Scriptella (open source), Skyvia, Stitch Data (Qlik), Talend (open source), etc.
- les outils de master data management
Les outils de master data management (MDM) ou de gestion des données de référence (GDR) permettent, grâce à une base de données centralisée, de stocker, gérer et diffuser en temps réel ce type de données au sein d’une organisation. Le MDM — qui fait en quelque sorte la somme des données du product information management (Pim, informations produits), du digital asset management (Dam, ressources numériques) et du content management system (CMS) — centralise les données en un unique fichier maître pour faciliter leur partage de façon sécurisée et tracée entre les collaborateurs et les services. De plus, il facilite la réalisation de rapports et d’audits de conformité (RGPD…).
Quelques outils de MDM : Adverity, Ataccama, Bizagi, Boomi, Collibra, DataRocket, Grepsr, IBM, Informatica, Infosolve Technologies, K2View, Magnitude, NetWeaver (SAP), Pimcore, Profisee, Reltio, Rulex, Semarchy, Stibo Systems, SyncForce, Tibco, Zema, etc.
Lire aussi : Data management : entrez dans le game avec le nouveau supplément Archimag
Les outils de data catalog
Un data catalog est une sorte de dictionnaire en ligne de métadonnées. Pour chaque donnée, on connaît sa définition, sa structure, sa source, sa qualité, son utilisation dédiée, sa procédure et son contexte. Le data catalog précise les règles de traitement des données, permet de les cartographier et de visualiser leur cycle de vie. Il indique leur origine, les modifications apportées, les équipes qui les ont transformées et les bases de données où elles se trouvent.
Outil de démocratisation de la donnée ne réclamant aucune compétence technique particulière, le data catalog est collaboratif et destiné à tous les métiers. On ne peut pas modifier une donnée directement dans le catalogue : pour ce faire, il faut revenir à sa base d’origine. Les principales fonctionnalités d’un data catalog sont : moteur de recherche, data lineage (visualisation de l’ensemble du cycle de vie de la donnée), collaboratif (évaluer un ensemble de données, le commenter, le partager), registre des métadonnées (description business, métier de chaque élément).
Quelques outils de data catalog : Alation, Amundsen (open source), Atlan, CastorDoc, Clan (open source), DataGalaxy, Data.world, Dawizz (Blueway), Magda (open source), Secoda, SelectStar, Stemma (Teradata), Tableau, Zeenea, etc.
Lire aussi : Maximiser la valeur des données avec les solutions de Data Catalog
Les outils de datavisualisation
Comment présenter aux métiers et aux utilisateurs finaux les données analysées voulues ? Réponse : avec les dashboards conçus par les outils de datavisualisation (dataviz). Le premier intérêt d’une dataviz est de porter une méthode ou une modélisation globale des données à servir aux utilisateurs pour transmettre rapidement une information essentielle. En hausse ou en baisse ? Dans le vert ou dans le rouge ? La datavisualisation s’appuie sur des traits, des symboles et des couleurs. Une représentation graphique de données essentielles apporte une lecture immédiate, non pas technique, mais métier. On perçoit une tendance, on est surpris par un chiffre, on s’interroge sur une corrélation. En même temps, l’image du dashboard est vite mémorisée.
À sa manière, un dashboard raconte une histoire bien plus facile à retenir que des résultats d’une analyse froide. Le storytelling du tableau de bord consiste à créer un récit convaincant autour de données et d’indicateurs clés de performance (KPI). Il illustre les performances de l’entreprise et ses perspectives tout en orientant et engageant les utilisateurs. Attention cependant, la visualisation demande une interprétation : on ne passe pas automatiquement de la donnée à la décision.
Il existe différents types de visualisation qui, le cas échéant, peuvent être assemblés au sein du même dashboard : le tableau, le graphique, l’histogramme, le camembert, le nuage de points ou de bulles, le compartimentage, la carte, la chronologie, l’arborescence hiérarchique…
Quelques outils de dataviz : Databox, DigDash, Domo, FusionCharts, Infogram, iRods (open source), Monday.com, Power BI (Microsoft), Qlik, SAS, SAP, Sisense, Spotfire, Tableau, etc.