Définition
Les données synthétiques sont des informations générées artificiellement qui imitent les données du monde réel. Elles peuvent être créées à l'aide de simulations, de réseaux d'agrégation de gènes (GAN) ou d'autres méthodes génératives.
Interet
L’objectif est d’augmenter ou de remplacer les données réelles lorsqu’elles sont rares, sensibles ou coûteuses à collecter.
Importance
- Protège la confidentialité en réduisant la dépendance aux données personnelles.
- Permet la formation pour les cas rares ou extrêmes.
- Il se peut que la complexité des données du monde réel ne soit pas pleinement prise en compte.
- De plus en plus utilisé dans l’IA critique pour la sécurité.
Aide
- Définissez les caractéristiques des données à répliquer.
- Utilisez des modèles de simulation ou génératifs pour créer des données.
- Valider les données synthétiques par rapport aux distributions réelles.
- Utilisez des données synthétiques dans les pipelines de formation.
- Surveiller les écarts de réalisme.
Exemples (monde réel)
- Waymo : utilise des scènes de conduite synthétiques pour la formation autonome.
- NVIDIA Omniverse : génère des données 3D synthétiques pour la robotique.
- Santé : données synthétiques sur les patients pour la recherche.
Références / Lectures complémentaires
- Publication spéciale du NIST sur les données synthétiques.
- Goncalves et al. « Génération et évaluation de données synthétiques. » ACM Computing Surveys.
- Coffre-fort de données synthétiques (MIT).
- Qu'est-ce que les données synthétiques en IA