Un modèle d'apprentissage automatique performant repose sur des données d'entraînement de haute qualité. Or, l'une des questions les plus fréquemment posées par les équipes au début d'un projet d'IA est la suivante : Quelle quantité de données d'entraînement est suffisante ?
Honnêtement, il n'existe pas de nombre fixe de données qui convienne à tous les projets. La quantité de données nécessaire dépend de la tâche, de la complexité du modèle, du nombre de classes, de la qualité des données, de la précision des étiquettes et du niveau de performance visé.
En pratique, la meilleure façon d'estimer les besoins en données d'entraînement consiste à commencer par un échantillon représentatif, à entraîner le modèle sur des sous-ensembles de plus en plus grands, puis à mesurer le moment où ses performances commencent à se stabiliser. Cela permet aux équipes de prendre des décisions éclairées concernant les coûts, les délais, l'effort d'annotation et les résultats attendus.
Dans cet article, nous analysons les principaux facteurs qui influencent le volume des données d'entraînement, expliquons comment estimer les besoins en pratique et montrons comment procéder lorsque vous avez besoin de plus de données sans retarder votre feuille de route en matière d'IA.
Pourquoi les données d'entraînement sont importantes
Les données d'entraînement constituent le fondement de tout système d'apprentissage automatique. Aussi sophistiqué soit-il, un algorithme ne peut apprendre que les schémas présents dans les données qui ont servi à son entraînement. Si ces données sont incomplètes, biaisées, bruitées ou trop limitées, le modèle aura du mal à généraliser dans le monde réel.
Des données d'entraînement solides aident les équipes :
- améliorer la précision du modèle
- réduire les biais et les angles morts
- Estimer plus précisément le coût et la faisabilité du projet
- réduire les reprises lors de l'itération du modèle
- construire des pipelines de validation et de test plus fiables
C’est pourquoi la collecte, le nettoyage, l’étiquetage et la validation des données représentent souvent la part la plus importante des efforts dans les projets d’IA. Si les données sont de mauvaise qualité, les prédictions le seront également.
Il n'existe pas de nombre universel, mais il existe une méthode pratique pour l'estimer.
De nombreux articles tentent de répondre à cette question par un seul chiffre. C'est rarement utile.
Un modèle de classification binaire simple peut donner de bons résultats avec un ensemble de données relativement restreint, tandis qu'un processus d'ajustement fin d'un modèle de langage complexe ou un système de vision par ordinateur pour les cas limites peuvent nécessiter un nombre d'exemples nettement supérieur. La question pertinente n'est pas « quel est le nombre magique ? » mais plutôt :
Quelle est la quantité minimale de données d'entraînement représentatives et de haute qualité nécessaire pour atteindre les performances cibles dans ce cas d'utilisation ?
Une méthode pratique pour répondre à cette question consiste à utiliser les courbes d'apprentissage : entraîner le modèle sur des volumes de données croissants et observer l'amélioration des performances à chaque étape. Lorsque l'amélioration se stabilise, on obtient une indication bien plus claire quant à la pertinence de collecter davantage de données. Cette approche est couramment recommandée dans les flux de travail d'apprentissage automatique.
7 facteurs qui déterminent la quantité de données d'entraînement dont vous avez besoin
1. Type de modèle : Apprentissage automatique classique vs Apprentissage profond
Le type de modèle a un impact majeur sur les besoins en données. Les modèles d'apprentissage automatique classiques, tels que la régression logistique, les arbres de décision ou le gradient boosting, peuvent souvent donner de bons résultats sur des ensembles de données structurés de petite taille, en particulier lorsque les caractéristiques sont bien conçues.
Les modèles d'apprentissage profond nécessitent généralement davantage de données car ils apprennent automatiquement les caractéristiques et comportent beaucoup plus de paramètres. Pour les tâches de traitement d'images, d'audio et de langage, ces modèles bénéficient généralement de manière significative d'un volume et d'une diversité de données accrus.
2. Apprentissage supervisé vs apprentissage non supervisé
L'apprentissage supervisé nécessite des données étiquetées, souvent plus difficiles et plus coûteuses à collecter. Si votre modèle requiert l'intervention humaine pour annoter des images, transcrire des fichiers audio, étiqueter des entités ou classer des documents, les exigences en matière de données doivent tenir compte à la fois de la quantité et de l'effort d'étiquetage.
L'apprentissage non supervisé ne nécessite pas de données étiquetées, mais il tire néanmoins profit de vastes ensembles de données représentatifs. Même sans étiquettes, le modèle a besoin d'une couverture suffisante pour détecter des tendances et des structures significatives.
3. Complexité de la tâche et nombre de classes
Une tâche de classification binaire simple est très différente d'un problème d'imagerie médicale multiclasse ou d'un système de reconnaissance vocale multilingue.
À mesure que la complexité de la tâche augmente, les besoins en données d'entraînement augmentent généralement car le modèle doit apprendre :
- plus de cours
- distinctions plus fines entre les catégories
- plus de cas particuliers
- plus de variabilité contextuelle
Par exemple, il est beaucoup plus facile de distinguer un « chat » d’un « chien » que d’identifier des dizaines de défauts de produits visuellement similaires, quelles que soient les conditions d’éclairage, les angles de caméra et les arrière-plans.
4. Qualité des données et exactitude des étiquettes
Plus de données ne signifie pas toujours mieux si leur qualité est médiocre.
Un jeu de données plus restreint, mais doté d'étiquettes précises, d'une représentation équilibrée et d'une mise en forme cohérente, peut surpasser un jeu de données plus volumineux mais bruité. Des étiquettes de faible qualité, des enregistrements dupliqués, des définitions de classes imprécises, des métadonnées manquantes et des consignes d'annotation incohérentes nuisent tous aux performances du modèle.
Avant de recueillir davantage de données, les équipes devraient se poser les questions suivantes :
- Les étiquettes sont-elles cohérentes ?
- Couvrons-nous tous les scénarios d'utilisation importants ?
- Les données sont-elles représentatives des conditions de production ?
- Les ensembles d'entraînement, de validation et de test sont-ils correctement séparés ?
Pour de nombreux projets, l'amélioration de la qualité des données génère des gains plus rapides que la simple augmentation du volume des données.
5. Diversité, couverture et équilibre des classes
Un modèle doit apprendre de la variabilité du monde réel à laquelle il sera confronté après son déploiement. Cela signifie que l'ensemble de données doit refléter différents scénarios, groupes d'utilisateurs, types d'appareils, accents, environnements, formats de documents, conditions d'image et cas particuliers.
Si une classe ou un segment est sous-représenté, le modèle peut sembler globalement précis tout en présentant de graves lacunes au niveau de sous-groupes critiques. C'est pourquoi la diversité et l'équilibre des classes sont tout aussi importants que la taille brute.
Dans bien des cas, la question n'est pas « Avons-nous suffisamment de données ? » mais « Avons-nous suffisamment de données pertinentes ? »
6. Apprentissage par transfert et modèles pré-entraînés
Si vous partez d'un modèle pré-entraîné, vous aurez peut-être besoin de beaucoup moins de données spécifiques à la tâche que si vous entraîniez le modèle à partir de zéro.
Cela est particulièrement vrai pour :
- classification d'images à l'aide de réseaux de vision
- Tâches de traitement automatique du langage naturel (TALN) utilisant des modèles basés sur les transformeurs
- Modèles vocaux adaptés à un nouvel accent ou domaine
- flux de travail d'adaptation de domaine
L'apprentissage par transfert permet aux équipes de réutiliser les connaissances acquises sur de vastes ensembles de données existants, ce qui peut réduire considérablement la charge d'annotation. L'article original traitait déjà bien de ce sujet ; il convient de le conserver, mais avec des exemples plus clairs.
7. Stratégie de validation et performance cible
La quantité de données nécessaires dépend également du niveau de performance requis du modèle.
Un prototype peut fonctionner avec de faibles quantités de données. Un modèle de production, dans les secteurs de la santé, de la finance, de l'assurance, de l'automobile ou dans des environnements soumis à des exigences de conformité strictes, nécessitera une couverture plus étendue, des étiquettes plus claires, une meilleure validation et des performances plus fiables dans les cas limites. Plus le taux d'erreur acceptable est strict, plus votre ensemble de données doit être robuste.
Comment estimer en pratique les besoins en données d'entraînement
Au lieu de deviner, utilisez une méthode d'estimation structurée.
Étape 1 : Commencer par un ensemble de données pilotes représentatif
Collectez un échantillon plus restreint mais représentatif du problème. Incluez les classes, formats, types d'utilisateurs et variations réelles importants.
Étape 2 : Répartir correctement les données
Créez des ensembles d'entraînement, de validation et de test distincts. Assurez-vous que l'ensemble de test reflète les conditions de production et ne soit jamais utilisé pendant l'entraînement.
Étape 3 : Entraînement sur des échantillons progressivement plus grands
Entraînez le modèle en utilisant des portions croissantes de l'ensemble de données, telles que 10 %, 20 %, 40 %, 60 %, 80 % et 100 %.
Étape 4 : Tracer une courbe d’apprentissage
Suivez les indicateurs de performance tels que l'exactitude, le score F1, le rappel, la précision ou les mesures de qualité spécifiques à la tâche à mesure que la taille de l'ensemble de données augmente.
Étape 5 : Cherchez le plateau
Si les performances du modèle s'améliorent nettement avec davantage de données, vous en avez probablement besoin de plus. Si les améliorations se stabilisent, le goulot d'étranglement n'est peut-être plus le volume de données, mais plutôt la qualité des étiquettes, la conception des fonctionnalités, le choix du modèle ou un déséquilibre des classes.
Étape 6 : Analyser les performances au niveau du segment
Vérifiez les performances du modèle non seulement globalement, mais aussi pour les classes importantes et les cas limites. Un modèle peut stagner globalement tout en restant très peu performant sur les segments minoritaires. Cette méthode permet aux parties prenantes d'estimer plus réalistement la quantité de données supplémentaires qu'il est pertinent de collecter.
Comment savoir quand on dispose de suffisamment de données d'entraînement
Vous disposez probablement de suffisamment de données lorsque :
- Les performances du modèle ne s'améliorent que marginalement avec l'ajout de données supplémentaires.
- Les résultats de validation sont stables sur plusieurs exécutions ou repliements.
- Ce sont les classes importantes qui obtiennent des résultats acceptables, pas seulement la classe majoritaire.
- Les performances se maintiennent sur un ensemble de test propre et intact.
- Les erreurs restantes sont davantage dues au bruit ou à l'ambiguïté des étiquettes qu'à un manque d'exemples.
Vous aurez probablement besoin de plus de données lorsque :
- La courbe d'apprentissage est toujours en progression.
- Les classes rares obtiennent de mauvais résultats.
- le modèle échoue face à des variations courantes du monde réel
- Les résultats fluctuent fortement d'une série à l'autre.
- Les performances des tests chutent fortement par rapport aux performances de validation
Comment réduire les besoins en données d'entraînement
Parfois, le défi ne réside pas dans la conception du modèle, mais dans la rareté des données, le budget ou les délais de mise sur le marché. Dans ces cas-là, les équipes peuvent réduire leur dépendance aux volumes massifs de données grâce à des stratégies adaptées.
Augmentation des données
L'augmentation de données consiste à créer de nouveaux exemples d'entraînement à partir de données existantes. En vision par ordinateur, cela peut inclure le recadrage, la rotation, le retournement ou l'ajustement de la luminosité. En traitement automatique du langage naturel et en reconnaissance vocale, l'augmentation de données doit être plus rigoureuse, mais des transformations contrôlées peuvent néanmoins s'avérer utiles.
Utilisée correctement, l'augmentation de données améliore la robustesse et la capacité de généralisation des modèles. Mal utilisée, elle peut introduire du bruit ou des exemples irréalistes.
Transfert d'apprentissage
L'apprentissage par transfert permet d'adapter un modèle existant à une nouvelle tâche au lieu de repartir de zéro. C'est souvent l'une des méthodes les plus efficaces pour réduire les besoins en données d'entraînement.
Modèles pré-formés
Les modèles pré-entraînés, tels que les modèles de traitement automatique du langage naturel de type BERT ou les architectures de vision éprouvées, constituent d'excellents points de départ. Au lieu de tout apprendre à partir de zéro, le modèle bénéficie de connaissances préalables utiles.
Apprentissage actif
Si l'étiquetage est coûteux, l'apprentissage actif peut permettre de prioriser les exemples les plus informatifs. Cela améliore l'efficacité de l'annotation et peut réduire le nombre d'étiquettes nécessaires pour obtenir des performances satisfaisantes.
Données synthétiques
Les données synthétiques peuvent s'avérer utiles lorsque les données réelles sont rares, sensibles ou difficiles à collecter, notamment dans des domaines tels que la santé, la finance, les systèmes autonomes et la simulation de cas limites. Cependant, elles doivent compléter, et non remplacer aveuglément, les données réelles et représentatives.
Exemples concrets de projets d'apprentissage automatique avec des ensembles de données minimaux
Même s'il peut paraître impossible que certains projets ambitieux d'apprentissage automatique puissent être menés à bien avec un minimum de matières premières, certains cas sont étonnamment vrais. Préparez-vous à être surpris.
| Rapport Kaggle | Santé | Oncologie Clinique |
| Une enquête de Kaggle révèle que plus de 70 % des projets d’apprentissage automatique ont été réalisés avec moins de 10,000 XNUMX échantillons. | Avec seulement 500 images, une équipe du MIT a formé un modèle pour détecter la neuropathie diabétique dans les images médicales issues de scanners oculaires. | Poursuivant l’exemple du secteur de la santé, une équipe de l’Université de Stanford a réussi à développer un modèle permettant de détecter le cancer de la peau avec seulement 1000 images. |
Faire des suppositions éclairées

Il n'y a pas de chiffre magique concernant la quantité minimale de données requises, mais il existe quelques règles empiriques que vous pouvez utiliser pour arriver à un nombre rationnel.
La règle de 10
En règle d'or, pour développer un modèle d'IA efficace, le nombre d'ensembles de données d'apprentissage requis doit être dix fois supérieur à chaque paramètre du modèle, également appelé degrés de liberté. Les règles du « 10 » visent à limiter la variabilité et à accroître la diversité des données. En tant que telle, cette règle empirique peut vous aider à démarrer votre projet en vous donnant une idée de base de la quantité requise d'ensembles de données.
L'apprentissage en profondeur
Les méthodes d'apprentissage en profondeur aident à développer des modèles de haute qualité si davantage de données sont fournies au système. Il est généralement admis qu'avoir 5000 images étiquetées par catégorie devrait être suffisant pour créer un algorithme d'apprentissage en profondeur qui peut fonctionner à égalité avec les humains. Pour développer des modèles exceptionnellement complexes, au moins un minimum de 10 millions d'articles étiquetés sont nécessaires.
Vision par ordinateur
Si vous utilisez l'apprentissage en profondeur pour la classification des images, il existe un consensus sur le fait qu'un ensemble de données de 1000 images étiquetées pour chaque classe est un nombre équitable.
Courbes d'apprentissage
Les courbes d'apprentissage sont utilisées pour démontrer les performances de l'algorithme d'apprentissage automatique par rapport à la quantité de données. En ayant la compétence du modèle sur l'axe Y et l'ensemble de données de formation sur l'axe X, il est possible de comprendre comment la taille des données affecte le résultat du projet.
Le coût d'un manque de données
Lorsque les équipes s'entraînent sur des ensembles de données limités, restreints ou biaisés, le modèle peut sembler prometteur en phase de développement, mais échouer en production.
Un manque de données peut entraîner :
- surajustement
- généralisation faible
- prédictions instables
- faibles résultats dans les classes minoritaires
- risque de biais plus élevé
- après plus d'itérations
Autrement dit, les limites de vos données d'entraînement deviennent souvent les limites de votre produit.
Que faire si vous avez besoin de plus d'ensembles de données

Lorsqu'on identifie une lacune dans les données, la solution n'est pas toujours de « tout collecter ». L'approche la plus judicieuse consiste à élargir l'ensemble de données de manière stratégique.
1. Utilisez les jeux de données ouverts avec précaution
Les jeux de données ouverts peuvent être utiles pour le prototypage ou l'évaluation comparative, mais ils ne sont pas toujours adaptés à une utilisation en production. Les équipes doivent examiner la provenance, le consentement, la qualité, la pertinence et la couverture des données avant de les utiliser.
2. Collectez des données personnalisées pour votre cas d'utilisation
Si l'environnement cible est très spécifique, la collecte de données personnalisée est souvent la meilleure option. Cela est particulièrement vrai pour les flux de travail fortement spécialisés, tels que l'IA dans le domaine de la santé, l'IA conversationnelle, les cas particuliers de vision par ordinateur et les systèmes multilingues.
3. Améliorer les données existantes par l'annotation
De nombreuses équipes disposent déjà de données brutes, mais celles-ci manquent de structure. L'annotation, le réétiquetage, le nettoyage de la taxonomie et le contrôle qualité permettent de les valoriser plus rapidement que la collecte de nouveaux jeux de données.
4. Rééquilibrer les classes sous-représentées
Si les performances sont faibles dans certaines catégories, concentrez la collecte et l'étiquetage sur ces lacunes importantes plutôt que d'étendre uniformément l'ensemble des données.
5. Ajouter des données synthétiques ou augmentées le cas échéant
Lorsque les données réelles sont limitées ou sensibles, les données synthétiques et augmentées peuvent contribuer à améliorer la couverture, mais elles doivent être soigneusement validées par rapport aux distributions du monde réel.
6. Collaborer avec un partenaire de données spécialisé
Pour les équipes développant des IA de production à grande échelle, s'associer à un fournisseur capable de collecter, d'octroyer des licences, d'annoter, de valider et de gouverner des données d'entraînement de haute qualité peut réduire considérablement les risques liés au projet et accélérer le déploiement.
Réflexions finales
Il n'existe pas de nombre magique de données d'entraînement en apprentissage automatique. La quantité optimale dépend du cas d'utilisation, du type de modèle, de la qualité des données, de la diversité des classes, de la stratégie de validation et des performances visées.
La méthode la plus efficace pour estimer les besoins en données d'entraînement consiste à commencer par un échantillon représentatif, à mesurer les performances à l'aide de courbes d'apprentissage et à étendre l'ensemble de données de manière stratégique en fonction des points faibles du modèle.
Pour certains projets, un jeu de données modeste mais de haute qualité peut suffire. Pour d'autres, notamment dans des environnements à forts enjeux ou très variables, le succès repose sur des jeux de données volumineux, soigneusement organisés et bien annotés.
Ce qui compte le plus, ce n'est pas simplement avoir plus de données, mais avoir les bonnes données.
Vous avez un grand projet en tête, mais vous attendez des ensembles de données sur mesure pour former vos modèles ou vous avez du mal à obtenir le bon résultat de votre projet ? Nous proposons de vastes ensembles de données de formation pour une variété de besoins de projets. Exploitez le potentiel de Shai en discutant avec l'un de nos scientifiques de données aujourd'hui et comprendre comment nous avons fourni des ensembles de données de haute qualité et performants pour les clients dans le passé.
Quelle quantité de données d'entraînement est suffisante pour l'apprentissage automatique ?
Il n'existe pas de nombre fixe. La valeur optimale dépend de la tâche, de la complexité du modèle, de la qualité des étiquettes, de l'équilibre des classes et de la précision cible. La méthode la plus fiable pour l'estimer consiste à entraîner le modèle sur des sous-ensembles de plus en plus petits et à mesurer les gains de performance.
Comment savoir si j'ai besoin de plus de données d'entraînement ?
Vous aurez probablement besoin de davantage de données d'entraînement si les performances du modèle continuent de s'améliorer à mesure que la taille des données augmente, si les classes rares obtiennent de mauvais résultats ou si les résultats sont instables d'une exécution à l'autre.
L'apprentissage par transfert peut-il réduire les besoins en données d'entraînement ?
Oui. L'apprentissage par transfert permet aux modèles de réutiliser les connaissances issues de systèmes précédemment entraînés, ce qui peut réduire considérablement la quantité de données étiquetées spécifiques à la tâche nécessaires.
Plus de données, est-ce toujours mieux pour l'apprentissage automatique ?
Pas nécessairement. Des données de faible qualité ou mal étiquetées peuvent nuire aux performances. Dans de nombreux cas, améliorer la qualité, l'équilibre et la représentativité des données est plus important que d'en augmenter simplement le volume.
De combien de données ai-je besoin pour l'apprentissage profond ?
Les modèles d'apprentissage profond nécessitent généralement plus de données que les modèles d'apprentissage automatique classiques, notamment pour les tâches de traitement d'images, de parole et de langage. Cependant, les modèles pré-entraînés et l'apprentissage par transfert permettent de réduire ce besoin.


