Les données non identifiées comme utiles deviennent des dark data
Notons d’abord que les dark data ne doivent pas être confondues avec le dark web, qui désigne une petite partie du web non indexé (ou deep web), uniquement accessible via des logiciels spécifiques et réputé pour héberger des sites illégaux. Les dark data¸ ou données non structurées et non analysées, représenteraient près de 90% des données en circulation. Mails, documents papiers, photos, vidéos ou portions d’information disparates – les dark data sont tous types d’information que les organisations gênèrent, collectent, traitent, mais ne réutilisent généralement pas. Par exemple, de nombreuses personnes utilisent leurs téléphones personnels et leurs tablettes à des fins professionnelles, ou stockent sur des plateformes publiques non sécurisées des données issues de l’entreprise. Si ces comportements ne révèlent pas de mauvaise intention mais plutôt un souci d’efficacité, ils indiquent aussi une méconnaissance des conséquences possibles. Car ces données deviennent des dark data justement parce que leurs utilisateurs ne les identifient pas comme potentiellement utiles. Autre exemple : les caméras de surveillance dans les parkings de supermarché, dont les images, si elles étaient systématiquement analysées, révéleraient sans doute de nombreuses informations sur les flux de circulation, les heures d’affluence, ou encore le type de population fréquentant la zone en fonction de l’heure de la journée…
L’entreprise ne peut pas - et n’a pas vocation à - exploiter toutes les données qu’elle génére
Il existe bien trop de données en circulation pour que tout puisse être exploité. Quand on pense qu’une pile de 100000 DVD de 4,7 giga octets chacun peut être remplie de nouvelles données en à peine 16 secondes, on se rend compte des limites de l’exercice.
En 2020, l’univers numérique sera constitué de plus de 40 zetta octets (1021 octets) de données, dont plus d’un tiers pouvant être considérées comme de valeur. Identifier, stocker et analyser les dark data de façon ciblée, en utilisant les technologies en pleine expansion que sont la reconnaissance de formes, l’analyse cognitive, la vision par ordinateur, le machine learning, mais aussi adopter les bonnes pratiques qui sécurisent ces informations, constituera bientôt le prolongement d’une dynamique déjà largement adoptée en entreprise, concernant la gestion du patrimoine informationnel et le partage de données.
En attendant que les ordinateurs offrent des puissances de calcul suffisamment importantes à la portée de tous, il vaudra toujours mieux ne pas trop fantasmer et garder la tête froide, en se demandant toujours : « de quoi ai-je besoin ? Vais-je le trouver dans les dark data ? », avant de commencer à exploiter les données de tous bords. Certes les dark data sont une richesse informationnelle à connaître et à ne pas sous-estimer. Mais entre l’illusion de la maîtrise totale de son environnement informationnel et les limites technologiques et humaines imposées par la réalité, le pragmatisme et la réflexion restent les meilleurs atouts des décideurs.
Bruno ETIENNE
Président de KB Crawl SAS
01 41 29 05 02