Définition
Les ensembles de données prêts à l'emploi sont des ensembles de données pré-collectés et disponibles publiquement ou commercialement qui peuvent être utilisés directement pour la formation ou l'évaluation de modèles d'IA.
Interet
L’objectif est d’accélérer la recherche et le développement en fournissant des données facilement accessibles sans collecte coûteuse.
Importance
- Permet de gagner du temps et des ressources pour les équipes d'IA.
- Permet la reproductibilité et l'analyse comparative.
- Peut manquer de spécificité de domaine pour certaines tâches.
- Nécessite une vérification des biais et des contraintes de licence.
Aide
- Identifier l’ensemble de données pertinent pour la tâche d’IA.
- Examiner les restrictions de licence et d’utilisation.
- Téléchargez ou achetez l'ensemble de données.
- Prétraiter si nécessaire pour la compatibilité.
- Entraînez ou évaluez des modèles à l’aide de l’ensemble de données.
Exemples (monde réel)
- MNIST : ensemble de données numériques manuscrites pour l'analyse comparative.
- ImageNet : ensemble de données à grande échelle pour la vision par ordinateur.
- Common Crawl : ensemble de données textuelles Web ouvert pour le traitement du langage naturel (NLP).