Spécialistes de l'analyse et de la gestion des informations non structurées, les éditeurs de solutions d'ECM s'intéressent aussi de plus en plus au big data. L'objectif : apprendre à explorer, analyser et exploiter ce vaste gisement de données, pour la plupart structurées.
Il était une fois la gestion de contenus d'entreprise (ECM, enterprise content management) et tout ce que ce secteur compte de solutions de Ged, d'archivage, de records management, de workflows, de text mining ou encore de CMS et de moteurs de recherche... Des solutions qui gèrent en masse des données non structurées (textes, sons, vidéos, etc.).
La différence avec les données structurées ? Pour l'Aproged (Association des professionnels pour l'économie numérique), 80 % des informations créées en entreprise sont des données non structurées, nécessitant un premier niveau de traitement afin de devenir « calculables ». Et 20 % seulement sont des données structurées (issues de bases de données ou de progiciels de gestion...), directement utilisables pour effectuer un calcul.
Mais les frontières entre les deux mondes seraient de moins en moins figées, comme nous le confiait récemment un consultant spécialiste du big data : « Les ECM stockent en masse des données non structurées, mais ils les associent le plus souvent à des tonnes de méta-informations, qui sont elles hyper-structurées ».
Le big data, à la croisée des deux mondes
« Lorsque l'on parle de big data, on parle des opérations qui permettent de traiter une masse de données de façon unitaire (sans synthèse ou sans construction) en vue de les consolider et d'en tirer de nouvelles informations pour l'entreprise », précise Paul Terray, directeur consulting chez Sollan, éditeur et intégrateur de solutions d'ECM. Avec plusieurs approches possibles...
Là où les technologies de bases de données, comme Hana de SAP, mettent essentiellement l'accent sur l'analyse en temps réel d'immenses volumes de données structurées, les éditeurs d'ECM « vont eux surtout chercher à traiter et à relier l'information structurée et l'information non structurée », estime ce spécialiste. « Et finalement croiser des données qui ne sont a priori pas faites pour se croiser ! »
Le canadien OpenText, l'un des piliers de l'ECM, a une vision assez proche du marché. « Le big data relève de l'analyse de très gros volumes de données provenant par exemple des logs de connexion au site internet, des systèmes de gestion de la relation client, des progiciels de gestion du cycle de vie des produits... », analyse Jean-François Millasseau, expert EIM (pour enterprise information management) chez OpenText. « Mais nous préférons parler de ''big content'' pour tout ce qui a trait à l'analyse des contenus textuels, des commentaires ou des fils de discussion sur les réseaux sociaux... »
Ce qui ne veut pas dire qu'OpenText n'a pas de stratégie big data : l'éditeur a mis la main fin 2014 sur Actuate, spécialiste des technologies d'analyse de données, pour un montant évalué à 330 millions de dollars. Avec l'objectif de proposer à ses clients un ensemble d'outils analytiques (sur les données structurées, semi-structurées et non structurées) qui « s'intègrent parfaitement avec les solutions déjà installées », assure Jean-François Millasseau.
Entre autres avantages pour l'ECM, l'utilisation des solutions Actuate doit, selon cet expert, « permettre d'analyser de façon très fine les processus accomplis dans l'entreprise et éventuellement de repérer plus facilement les goulots d'étranglement qui nuisent à la productivité à un moment donné ».
Elle vise aussi à fournir des indicateurs d'utilisation permettant d'améliorer les applications et les politiques de conformité ; « L'analyse des données aide, par exemple, à identifier les documents et les informations les plus recherchés en cas de litige et à définir en conséquence les règles de conservation à appliquer ».
L'analyse sémantique en première ligne
Dans le monde de l'ECM, les moteurs de recherche d'entreprise sont parmi les premiers à s'être mis en ordre de bataille pour répondre aux enjeux du big data. Experts depuis longtemps dans la corrélation des données, « ces systèmes sont utilisés pour aller rechercher les données, les contextualiser et les corréler, par exemple avec des informations provenant du système d'information interne (Ged, CRM...), avec des données ouvertes (météo, localisation géographique...) ou des actualités provenant d'internet ou des données remontées par les produits commercialisés » (lorsqu'il s'agit d'objets connectés), observe Paul Terray chez Sollan. Et ce, afin de proposer aux utilisateurs des données « contextuelles et enrichies ».
Un exemple ? La fiche technique détaillée d'un moteur, écrite par un ingénieur et consultée dans la Ged, est associée à des informations sur les stocks de pièces de rechange, les contrats, les opérations de maintenance déjà effectuées sur le dit moteur...
« Ces corrélations d'un nouveau genre, par exemple entre un type d'équipement et un incident, sont porteuses de valeur pour l'entreprise », estime François-Régis Chaumartin, PDG de Proxem. Cet éditeur français s'est spécialisé dans l’analyse sémantique des big data textuelles, à l'appui notamment d'un logiciel d'analyse sémantique de big bata (Ubiq) adossé au moteur de recherche open source ElasticSearch (très utilisé par les spécialistes du big data).
Il est loin d'être le seul : Polyspot, bien connu pour ses outils de recherche, s'est en effet rebaptisé CustomerMatrix en 2013 et édite depuis cette date de nouvelles solutions d'analyse décisionnelle des informations internes et externes pour « tenter de prédire les nouveaux besoins et usages clients », explique Gilles André, cofondateur de CustomerMatrix. Pour ce faire, il ne se contente plus d'analyser les documents, mais scrute aussi les emails, les échanges sur les réseaux sociaux ou les problèmes remontés en temps réel par les équipes de terrain.
Dans la même veine, Pierre Col, directeur marketing d'Antidot, acteur historique du marché français des moteurs de recherche, souligne que sa société a noué l'an dernier un nouveau partenariat technologique avec Jalios (intranets collaboratifs et réseaux sociaux d'entreprise) afin d'« unifier l'accès à l'info, dans Jalios ou hors de Jalios »...
Concrètement, la « nouvelle » solution d'intégration de données AIF (Antidot Information Suite) doit aider les utilisateurs de Jalios à collecter et enrichir les données en provenance du système de gestion de contenus JCMS ou des autres applications déployées dans l'entreprise.
Et c'est sans compter les efforts des spécialistes de l'ECM pour se doter de nouvelles interfaces de visualisation des données hétérogènes, qui devraient se multiplier, si l'on en croit Jean-François Millasseau. Sa société vient ainsi, déjà, de s'offrir Informative Graphics Corporation, avec la ferme intention d'ajouter des outils de visualisation et de partage de tous types de données à sa suite d'outils d'ECM. Ce n'est sans doute que le début.