Connaissez vous le data cleaning ? vos données sont elles propres ?

Logo ou interface de Connaissez vous le data cleaning ? vos données sont elles propres ?

Si vous suivez un peu l’actualité des nouvelles technologie et l’engouement actuel pour l’intelligence Artificielle il ne vous a pas échappé que la plupart des systèmes d’I.A on besoin de données pour apprendre. Il se trouve que la qualité de ces données est un facteur déterminant pour la pertinence des résultats que fournira votre algorithme A.I.

Le nettoyage de vos données, avant utilisation pour du machine learning ou de la Data Visualisation, s’applique à différents niveaux. En europe, il faut d’abord s’assurer que les données que l’on va utiliser sont suffisamment anonymisées pour être conformes au RGPD. Pour celà il faudra en retirer les informations personnelles mais aussi les possibilités de recoupement de données qui permettraient de "reconstituer" un individu. C’est particulièrement sensible dans le domaine de la santé et des assurances par exemple.
Ensuite, le travail de data cleaning est plus terre à terre puisqu’il faut vérifier la consistance des informations c’est à dire leur formatage, les champs vides, les fautes de frappe etc.
Enfin, il faudra avoir une vision d’ensemble sur l’échelle des valeurs pour éliminer les données trop extrêmes ou trop peu représentatives de ce qu’on veut représenter.
Après cette phase on formatera les données pour leur usage final afin de pouvoir les importer : encodage des caractères, formats de date, format de fichier, etc.
Si vous souhaitez utiliser vos données dans le cadre du machine learning pour votre entreprise, nous pouvons prendre en charge cette prestation avec des outils spécialisés.
Résumé des actions à mener sur votre jeu de données

  • Enlever les valeurs personnelles
  • Enlever les enregistrements incomplets
  • Vérifier le language utilisé
  • Supprimer les doublons
  • Supprimer les valeurs extrêmes ou incohérentes
  • Unifier les formats de données : dates, nombres, etc.
Le data cleaning pour l'IA vu par l'IA de Mid Journey

Le data cleaning pour l’IA vu par l’IA de Mid Journey