Article réservé aux abonnés Archimag.com

DataOps : la data entre de bonnes mains

  • dataops-data-entre-bonnes-mains.jpg

    methode-dataops-avis-conseils-experts
    Le DataOps est une méthode qui s’appuie sur le principe de l’agilité, privilégiant planification adaptative, développement évolutif, livraison précoce et amélioration continue, et qui revêt une dimension collaborative. (Freepik)
  • DataOps : le terme réunit les équipes data et les équipes opérationnelles. Le mot d’ordre pour les unes et pour les autres est de travailler ensemble pour que les cas d’usage soient déployés au mieux et rapportent de la valeur. Méthode et avis d’experts.

    am_383_couv.jpgenlightened CET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N°383 : Transformation digitale : les méthodes et outils pour réussir sa gestion de projet

    mail Découvrez Le Brief de l'IT, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des archives et du patrimoine !


    Avec le DataOps, il s’agit de prendre en main l’ensemble du cycle de vie des données, de leur prétraitement au reporting. C’est une méthode qui s’appuie sur le principe de l’agilité, privilégiant planification adaptative, développement évolutif, livraison précoce et amélioration continue, et qui revêt une dimension collaborative. Elle invite les équipes d’analyse des données ("data") et celles des opérations informatiques ("ops") à travailler ensemble.

    On peut dérouler la méthode DataOps selon ses grandes lignes. En amont, l’organisation définit un cas d’usage basé sur l’exploration des données et l’expérimentation. C’est ici un travail d’analyste. Cela conduit à un prototype que l’on expérimente. Le prototype suppose que l’on a analysé et préparé les données et il se concrétise en un processus exécutable. S’il répond aux attentes, on peut alors le mettre en production.
    Au-delà de cette approche un peu théorique, la pratique apporte d’autres éclairages au DataOps.

    Lire aussi : La gouvernance de l’information numérique face aux défis de 2025

    Pour Pierre Clapier, ingénieur avant-vente chez BMC Software, qui commercialise des "solutions logicielles pour l’entreprise digitale autonome", le DataOps est d’abord une question d’organisation. Rémi Turpaud, architecte data chez Teradata, éditeur de plateforme cloud analytique pour la gestion de la donnée et les processus analytiques, complète en disant qu’il permet de décomposer le problème complexe de la data en sous-problèmes. De plus, il favorise l’automatisation.

    Automatisation ?

    Les pipelines de données sont complexes et interconnectés (un pipeline est une série d’étapes de traitement visant à préparer les données pour l’analyse). Pour casser cette complexité, on fractionne ces pipelines (Teradata parle "d’architecture en couches"). On leur donne de la logique, on observe les "patterns" (ensemble de données ayant une forme reconnaissable) qui reviennent, puis l’on essaie d’automatiser ces morceaux.

    Peut s’ajouter une contrainte de service level agreement (SLA), soit un engagement à fournir le service dans un certain délai. Pas évident lorsque des centaines de milliers de traitements s’opèrent au quotidien. Il est donc nécessaire d’historiciser les temps d’exécution pour identifier les dérives ; si tel traitement prend 20 % de temps de plus que d’habitude malgré un engagement de SLA, alors il y a un risque : il faut trouver le moyen d’accélérer ou de passer outre.

    Qui est à la manœuvre ?

    BMC Software préconise d’adopter une vision centralisée de toutes les équipes. Schématiquement, avec le DataOps, on a deux types d’équipes :

    • d’une part, les équipes data, avec leur budget, leurs outils. Ce sont des profils très techniques avec des data scientists, des data engineers. Ils trouvent la donnée, y accèdent, la manipulent, la restituent, travaillent les codes, développent des algorithmes, pour la prédiction, la maintenance prédictive, la classification… Ils sont au service des métiers qui définissent des cas d’usage. C’est le pôle producteur-consommateur ;
    • d’autre part, les équipes de production informatique. Elles gèrent le quotidien, s’assurent du bon fonctionnement des applicatifs de la société. Sans elles, si le système s’arrête, il ne se passe plus rien. C’est le pôle IT, plateforme, bibliothèque de fonctionnalités ("framework").

    Lire aussi : Protection des données en entreprise : quelle stratégie à l'ère de l'IA ?

    Pour les différents observateurs, le problème n’est pas tant l’explosion des données que l’explosion des cas d’usage et de la demande de données. Pour y faire face, Rémi Turpaud estime qu’il faut décentraliser la gestion de la donnée vers les métiers, et c’est à l’IT (le data architect, le platform owner qui gère tout ce qui concerne les applications informatiques) d’équiper les domaines métiers pour leur permettre d’innover, de construire leurs projets et produits data.

    Pour un fonctionnement fluide au sein de l’entreprise, il faut synchroniser la donnée, puisque les métiers la partagent. Ainsi, pour Rémi Turpaud, "fondamentalement, la fonction de la donnée c’est la collaboration". Et le framework DataOps couvre toute la chaîne pour que les différents processus collaborent. Ainsi, tout le monde travaille sur le même ensemble technologique pour construire les différents pipelines et exploiter au quotidien.

    Peut-on parler de plateforme DataOps ?

    Parler du DataOps comme d’une plateforme prenant en charge la data de A à Z, de la captation au traitement et à l’utilisation ne serait pas exact. Chez BMC Software, on préfère s’en tenir au terme de pipeline de données. Pour sa part, Teradata propose une plateforme de données, analytique et collaborative, tandis que le DataOps reste une méthodologie et un ensemble de fonctionnalités de cette plateforme. "On peut parler de fonctionnalités DataOps", estime Rémi Turpaud.

    Peu d’entreprises IT se sont construites sur le créneau du DataOps, analyse Rémi Turpaud, qui cite DataKitchen, Alteryx… Pour les autres, le DataOps a été intégré dans les produits dominants. On pense à Informatica, BMC Software ou Talend, par exemple, ou à d’autres acteurs issus de l’open source, comme DBT, Airflow, Airbyte. Toutes les plateformes de gestion de données, dont Teradata, ont simplement intégré la philosophie ou les fonctionnalités DataOps. Et les entreprises elles-mêmes l’ont intégré à leurs process, par le biais d’intégration open source.

    "Je ne vois pas de grand leader du DataOps ; à mes yeux, c’est quelque chose qui a été intégré", résume l’expert. Ni même Microsoft Azure, Google Cloud Platform (GCP) ou Amazon Web Services (AWS), ces trois grands fournisseurs cloud auraient l’ensemble des services de gestion de la donnée dans leur catalogue ? Rémi Turpaud insiste : "il leur reste du chemin à parcourir, campant encore sur l’esprit infrastructure et s’étendant peu à peu vers du service, mais ils ne sont pas encore force de proposition en fonctionnalités DataOps".

    De plus, le problème est stratégique : mieux vaut garder sa solution DataOps indépendante de celle de déploiement et ne pas enfermer son code applicatif avec l’infrastructure. Et ainsi garder la possibilité de migrer pour passer d’un fournisseur d’infrastructure à un autre.

    Lire aussi : La donnée : quel statut juridique ?

    Ce que l’on en dit dans les entreprises

    À sa manière, le Règlement général sur la protection des données (RGPD) aura été un promoteur du DataOps ! Il est en effet l’un des vecteurs qui amènent les entreprises à se pencher sur la donnée et la gouvernance. Elles s’aperçoivent que la donnée est partout et réclame de s’organiser… Peu à peu, le chief technology officer (CTO) et le chief data officer (CDO) comprennent que "leur job n’est pas de construire pour le business, mais d’équiper le business pour construire", selon Rémi Turpaud.

    "Beaucoup d’organisations sont encore dans le prototypage", observe Pierre Clapier. "Mais de plus en plus arrivent à se lancer en production". Au final, l’analyste peut décrire un processus de traitement de données et appuyer sur un bouton pour générer, déployer et exécuter du code, puis il peut valider ses résultats. Il pousse ensuite cela vers l’équipe plateforme, qui va à son tour vérifier que cela s’intègre à l’ensemble et va pouvoir fusionner cette nouvelle branche avec la plateforme de production.

    Le résultat peut être spectaculaire. Il n’est pas rare de passer de six mois à quelques semaines pour livrer un produit de données complexe, ceci grâce à l’automatisation des processus. Chez BMC Software, Pierre Clapier aime évoquer son client Domino Pizza, qui s’est lancé dans le data management depuis 2007. Avec 3 000 data pipelines en gestion (approvisionnement, ressources humaines, ventes, commandes…), cela semble lui réussir, puisqu’il atteint les 20 000 restaurants et 17,5 milliards de dollars de chiffre d’affaires. Ce qui lui permet d’affirmer : "nous sommes devenus une entreprise technologique qui livre des pizzas".

    À lire sur Archimag
    Les podcasts d'Archimag
    Intelligence artificielle, cloud, cybersécurité, fraude documentaire, data, facture électronique, numérique responsable, désinformation... Quels seront les grands thèmes de l’année 2025 ? Pour lancer cette série de podcasts dédiée à la 31e édition du salon Documation, Clémence Jost, rédactrice en chef du magazine Archimag, vous invite à découvrir les huit tendances majeures qui façonneront l’année à venir.

    Serda Formations Data 2023