Définition
La collecte de données par IA consiste à rassembler des données brutes (texte, audio, images, vidéo ou enregistrements structurés) pour entraîner, valider et tester des modèles d'apprentissage automatique. Elle garantit que les modèles présentent des exemples représentatifs du problème réel.
Interet
L'objectif est de créer des ensembles de données permettant aux algorithmes d'apprendre efficacement des modèles. Une collecte de données fiable réduit les biais et améliore la précision des modèles dans différents environnements et populations.
Importance
- La qualité des données collectées affecte directement les résultats du modèle.
- Une mauvaise collecte peut conduire à des modèles biaisés ou inutilisables.
- La diversité des sources améliore la généralisabilité et réduit les injustices.
- Doit respecter les normes éthiques et juridiques (par exemple, RGPD, HIPAA).
Aide
- Définissez le type de données nécessaires en fonction des objectifs du projet.
- Identifier les sources (capteurs, API, enquêtes, enregistrements, etc.).
- Collectez des données avec un consentement approprié et des protections de confidentialité.
- Stockez les données avec des métadonnées pour la traçabilité et le contexte.
- Préparez les données pour une annotation, un nettoyage ou une formation ultérieure.
Exemples (monde réel)
- ImageNet : ensemble de données d'images à grande échelle pour la recherche en vision par ordinateur.
- Google Street View : données collectées pour les cartes et l'IA visuelle.
- Mozilla Common Voice : ensemble de données ouvert d'enregistrements vocaux pour ASR.
Références / Lectures complémentaires
- Fiches techniques pour les ensembles de données — Gebru et al., ACM FAccT.
- Préparation des données pour les systèmes d’IA — NIST.
- ISO/IEC TR 20547-5 : Architecture de référence du Big Data — ISO.