Dark data : ne pas les gérer constitue un risque majeur !

Le 12/06/2024 Eric Le Ven

dark_data.jpg

Les enjeux de protection des données sont d’autant plus importants que le Big Data a tendance à regrouper une multitude d’informations qui peuvent permettre des recoupements révélant des informations qui se voulaient confidentielles.

Toutes les entreprises se retrouvent un jour ou l’autre confrontées à ce problème : celui du vrac numérique et des dark data. Á savoir, tous ces fichiers, données et documents hétérogènes, organisés de manière anarchique, dont personne ne connaît la teneur exacte. S’emparer de ce problème, c'est s’éviter bien des déboires. D’autant que les données d'entreprises sont désormais la proie des cybercriminels et représentent un enjeu majeur de la cybersécurité. Explications.

Doublons, triplons, fichiers périmés ou au nommage approximatif, versions redondantes, brouillons, pièces jointes de mail, etc., ces fléaux sont aujourd’hui parfaitement identifiés par les entreprises. Les causes, elles aussi, sont bien connues : des systèmes informatiques organisés en silos, des applications dispersées sur lesquelles les collaborateurs produisent, stockent et partagent leurs documents de travail, et surtout l’absence de gouvernance de l’information. Et vu la croissance des volumes d’informations, toutes les entreprises seront confrontées tôt ou tard à ce problème de dispersion des données : les “dark data”.

Des données souvent sensibles

Les dark data désignent toutes ces données collectées et conservées par les entreprises, mais qui ne sont jamais utilisées pour prendre des décisions ou dont personne ne tire de réelle valeur. Ces dark data (qui peuvent d’ailleurs être des données sensibles comme les habitudes de consommation, des localisations GPS, des insights liés aux activités sur les réseaux sociaux, etc.) posent la question de l’éthique des usages et du droit de regard de chacun sur ses données personnelles.

Des données qui coûtent cher

Ces dark data représentent 52% des données mondiales (56% en France) et coûteraient jusqu’à 2 milliards d’euros par mois aux entreprises à l’échelle mondiale. Elles génèrent, en effet, un gaspillage important de ressources. Ce qui se traduit à la fois par une perte de productivité des employés (temps de recherche pour obtenir les informations nécessaires) et des coûts de stockage grandissant pour des données cachées et donc inutilisées. Quant à leur empreinte environnementale, elle serait de 6,4 millions de tonnes de CO₂, soit l’équivalent d’une voiture qui ferait 575 000 fois le tour de la Terre.

Des enjeux financiers et réputationnels

Et d’autres problèmes peuvent se poser : perte de documents et d’informations précieuses liés à l’histoire et aux savoirs-faire de l’entreprise ; impossibilité de retrouver les documents demandés et de les fournir lors d’un contrôle fiscal ou d’un contentieux en justice ; fichiers devenus illisibles faute de conservation dans un format pérenne ; défaut de conformité au RGPD ; documents introuvables faute d’indexation précise ; durées de conservation non respectées, etc.

Des cybercriminels à l’affût

Sans parler des cybermenaces et des fuites de données. Aujourd’hui, plus de la moitié des discussions sur les forums du dark web se concentrent sur le commerce de données volées (et plus particulièrement les identifiants de réseaux sociaux et les informations personnelles). Cette tendance confirme que les données personnelles restent une marchandise précieuse dans le monde de la cybercriminalité, soulignant le besoin de stratégies robustes de protection des données comme l’authentification multifactorielle.

Des recoupements révélateurs

Les enjeux de protection des données sont d’autant plus importants que le Big Data a tendance à regrouper une multitude d’informations qui peuvent permettre des recoupements révélant des informations qui se voulaient confidentielles. Par exemple, lorsque des données pharmaceutiques anonymisées sont recoupées avec des données génétiques et des informations sur les habitudes alimentaires des patients, la finalité médicale est pertinente. En revanche, le recoupement pourrait permettre de déduire des habitudes alimentaires en fonction des origines ethniques des personnes qui pourraient intéresser des groupes agroalimentaires.

Pourquoi tout conserver à tout prix est une erreur

Voilà pourquoi la question de conserver aveuglément une multitude de données nichées dans des contrats, des factures, des devis, des documents de travail, etc., mérite d’être posée. Beaucoup de collaborateurs pensent, souvent à tort, que toutes ces informations un jour ou l’autre serviront. Or, ce n’est pas le cas. Résultats : toutes ces données se retrouvent éparpillées un peu partout au sein des outils informatiques, sans que personne ne sache ce qu’ils abritent et si elles sont importantes pour l’entreprise.

L’importance d’une politique de gestion de l’information

S’ajoute à cela, le fait que bon nombre d’entreprises n’ont toujours pas mis en place de gouvernance de l’information. Alors qu’il est pourtant essentiel pour elles de savoir où se trouve leur patrimoine informationnel, mais aussi de savoir le trier, et surtout de cartographier les risques. La gouvernance est la pierre angulaire de toute gestion saine et efficace de l’information, quel que soit le type de données. Plus celles-ci sont stratégiques et transverses, plus la gouvernance appliquée devra être forte et exhaustive. A l’inverse, même pour les dark data, les cataloguer à minima et répertorier leur localisation permettra de prendre conscience de leur existence et ainsi de pouvoir les utiliser.

Des technologies et de l’humain

Les dark data étant pour la plupart soit très difficiles d’accès, soit semi ou non structurées, elles nécessitent des compétences et des techniques particulières (data science, NLP, IA, ML, etc.) pour en tirer profit. Les outils technologiques peuvent aider, mais ne permettent pas d’adresser intrinsèquement, sans ajout d’intelligence humaine, la variété des usages qu’il est possible de faire de ces données. En revanche, ils peuvent être particulièrement accélérateurs dans la collecte, l’exploration et le pré-traitement de ces données.

In fine tous les métiers doivent être sensibilisés à cette question, car ce vrac numérique est constitué de leur propre production. Il est donc urgent d’évangéliser les producteurs à ces enjeux documentaires et aux dangers potentiels des dark data.