Démêler des problèmes de provenances de données à l’aide des graphs

02/10/2025 : 15h45 - 16h30 | Showroom | Nastasia Fouret

La provenance des données constitue un enjeu majeur dans les systèmes d’informations modernes, répondant à des besoins de sécurité, de qualité, d’évolution, et de conformité réglementaire ( RGPD, audit, … ). En tant que professionnelle de la données, j’ai régulièrement eu à répondre à la question :” Comment et où ces informations ont-elles été construites ? “

Dans les écosystèmes complexes, les données subissent de multiples opérations, elles peuvent être transformées, déplacées d’un système à un autre, agrégées et exploitées à différents niveaux , pour différentes raisons. L’accumulation de ces opérations crée des architectures stratifiées difficiles à documenter et à comprendre. Les méthodologies traditionnelles de documentation ( statique, métadonnées, diagramme de flux,..) atteignent leurs limites pour répondre à la question de la provenance de la donnée.

Ce talk présentera une méthodologie d’analyse de provenance basée sur la théorie des graphs et implémentée avec python (Networkx). Cette approche permet de modéliser et visualiser efficacement les flux de données, révélant leurs interdépendances et facilitant l’audit, le debugging ou l’optimisation des pipelines. J’illustrerai cette méthodologie à travers des cas concrets, notamment un rapport analytique complexe comprenant des centaines de variables issues de sources multiples.

Conférence
Data & AI