Data Quality Evaluation

10/10/2024 : 17h45 - 18h30 | Showroom | Claire Moreau

La qualité des données est un élément clé pour construire et optimiser de bons modèles d’apprentissage. Malgré de nombreuses tentatives pour caractériser la qualité des données, il existe encore un besoin de formalisation rigoureuse et d’une mesure efficace de la qualité à partir des observations disponibles.

En effet, sans une compréhension claire des processus de formation et de test, il est difficile d’évaluer les performances intrinsèques d’un modèle. Par ailleurs, les outils permettant de mesurer la qualité des données spécifiques au machine learning font encore défaut. Dans cette présentation, nous introduisons et expliquons une nouvelle métrique pour mesurer la qualité des données. Cette métrique est basée sur l’évolution corrélée entre la performance de classification et la détérioration des données. La méthode proposée présente l’avantage majeur d’être indépendante du modèle.

De plus, nous fournissons une interprétation de chaque critère et des exemples de niveaux d’évaluation. Nous confirmons l’utilité de la métrique proposée par des expériences numériques intensives et détaillons quelques cas illustratifs avec des qualités contrôlées et interprétables.

Conférence
Data & AI