Open data : comment extraire, fiabiliser et parfois anonymiser les données pour leur diffusion publique

Le 26/07/2019 Michel Remize

opendataweb.gif

Open data : un focus de la rédaction Archimag avec la société Numen.

Si l’open data est peu à peu devenu une obligation, nombre d’entités publiques peinent à le mettre en oeuvre. En cause : des données mal ou non identifiées, peu ou pas qualifiées et même parfois non valides. Voici comment faire, de l’extraction des données à leur diffusion publique, en passant par leur fiabilisation et, si nécessaire, l’anonymisation.

Depuis le droit d’accès aux documents administratifs (loi de 1978), les obligations légales et réglementaires en matière d’open data n’ont cessé de se renforcer. Mettre à disposition des données gratuites et fiables constitue l’objet d’une politique publique. Ne pas s’y plier est facteur de risques : détérioration ou perte de données, non valorisation de données (frein à leur réutilisation pour de nouveaux services), image négative vis-à-vis des citoyens ou usagers (manque de transparence…). En outre, cela entretient une crainte quant à la disponibilité des données personnelles, au respect de la confidentialité des données ou à leur anonymisation.

Qualité garantie

Lors de ce focus de la rédaction d’Archimag, Denis Berthault, président du Groupement français de l'industrie de l'information (GFII), expert open data à Cap Digital, expliquera les enjeux et perspectives de l’open data pour les entités publiques productrices.

Ce focus est conduit avec Numen. Cette société montrera comment le secteur public, les collectivités et le secteur parapublic peuvent concrètement parvenir à extraire leurs données pour leur diffusion publique.

Numen est en effet en capacité de contributeur aux ressources open data de qualité à une échelle industrielle. Elle garantit la qualité des données mises à disposition de ses clients - c’est même pour elle un engagement de résultat. La réponse apportée tient en un système mixte faisant intervenir tant une technologie de machine learning - tout un département est consacré à cette activité - que des opérateurs aptes à confirmer les données extraites.

Données piégées

La démarche à suivre sera expliquée lors de ce focus. Elle comprend deux phases.

1/ Phase en amont

Cette phase permet d’identifier les gisements de données, quelles qu’elles soient, données structurées ou non structurées (analyse préalable). On a souvent affaire à des données “piégées” dans des documents, qu’il faut repérer et pouvoir extraire avec la méthode et la technologie voulues. Les données sont numérisées si besoin. Elles sont fiabilisées, éventuellement en les confrontant avec d’autres données pour les croiser, les enrichir… En dernier lieu, elles sont structurées pour les verser dans le système de restitution de l’entité (plateforme, portail…).

2/ Phase en continu

Les données ne sont pas figées, mais parfois disponibles en flux, évolutives et enrichies. Il s’agit alors d’installer des méthodes et processus qui permettent d’assurer leur mise à jour et diffusion en continu.

Plus concrètement encore, deux retours d’expérience apporteront une illustration des bonnes pratiques à mettre en oeuvre. Ce sont les cas, d’une part, du l’Institut national de la propriété industrielle (INPI), avec l’exemple des liasses ou déclarations fiscales et de leurs données, faisant l’objet d’une modélisation graphique, et, d’autre part, du ministère de la Transition écologique et solidaire, avec le géoportail de l’urbanisme.

Focus de la rédaction d’Archimag