Un modèle d'IA fonctionnel repose sur des ensembles de données solides, fiables et dynamiques. Sans riche et détaillé Données d'entraînement à l'IA à portée de main, il n'est certainement pas possible de construire une solution d'IA valable et réussie. Nous savons que la complexité du projet dicte et détermine la qualité requise des données. Mais nous ne savons pas exactement de combien de données d'entraînement nous avons besoin pour créer le modèle personnalisé.
Il n'y a pas de réponse simple à la bonne quantité de données d'entraînement pour l'apprentissage automatique est nécessaire. Au lieu de travailler avec un chiffre approximatif, nous pensons qu'une multitude de méthodes peuvent vous donner une idée précise de la taille des données dont vous pourriez avoir besoin. Mais avant cela, comprenons pourquoi les données d'entraînement sont cruciales pour la réussite de votre projet d'IA.
L'importance des données d'entraînement
S'exprimant lors du festival Future of Everything du Wall Street Journal, Arvind Krishna, PDG d'IBM, a déclaré que près de 80 % du travail dans un projet d'IA consiste à collecter, nettoyer et préparer des données. Et il était également d'avis que les entreprises abandonnent leurs projets d'IA parce qu'elles ne peuvent pas faire face au coût, au travail et au temps nécessaires pour collecter des données de formation précieuses.
Détermination des données taille de l'échantillon aide à concevoir la solution. Cela aide également à estimer avec précision le coût, le temps et les compétences nécessaires au projet.
Si des ensembles de données inexacts ou non fiables sont utilisés pour former des modèles ML, l'application résultante ne fournira pas de bonnes prédictions.
7 facteurs qui déterminent le volume de données de formation requis
Bien que les besoins en données en termes de volume pour entraîner les modèles d'IA soient totalement subjectifs et doivent être évalués au cas par cas, il existe quelques facteurs universels qui ont une influence objective. Examinons les plus courants.
Modèle d'apprentissage automatique
Le volume des données d'entraînement varie selon que l'entraînement de votre modèle s'effectue par apprentissage supervisé ou non supervisé. Alors que le premier type nécessite davantage de données d'entraînement, le second n'en a pas besoin.
Apprentissage supervisé
Cela implique l'utilisation de données étiquetées, ce qui ajoute à son tour de la complexité à la formation. Des tâches telles que la classification ou le regroupement d'images nécessitent des étiquettes ou des attributions pour que les machines puissent les déchiffrer et les différencier, ce qui entraîne une demande accrue de données.
Apprentissage non supervisé
L’utilisation de données étiquetées n’est pas obligatoire dans l’apprentissage non supervisé, ce qui réduit comparativement le besoin de volumes de données énormes. Cela étant dit, le volume de données serait toujours élevé pour que les modèles puissent détecter des modèles, identifier des structures innées et les corréler.
Variabilité et diversité
Pour qu'un modèle soit aussi juste et objectif que possible, les biais innés doivent être complètement éliminés. Cela signifie simplement qu'il faut disposer de volumes plus importants d'ensembles de données diversifiés. Cela garantit qu'un modèle apprend une multitude de probabilités existantes, ce qui lui permet d'éviter de générer des réponses unilatérales.
Augmentation des données et apprentissage par transfert
L'approvisionnement en données de qualité pour différents cas d'utilisation dans différents secteurs et domaines n'est pas toujours simple. Dans des secteurs sensibles comme la santé ou la finance, les données de qualité sont rarement disponibles. Dans de tels cas, l'augmentation des données impliquant l'utilisation de données synthétisées devient la seule voie à suivre pour la formation des modèles.
Expérimentation et validation
L'entraînement itératif est l'équilibre dans lequel le volume de données d'entraînement requis est calculé après une expérimentation et une validation cohérentes des résultats. Grâce à des tests et une surveillance répétés
En fonction des performances du modèle, les parties prenantes peuvent évaluer si davantage de données de formation sont nécessaires pour optimiser la réponse.
Comment réduire les besoins en volume de données de formation
Qu'il s'agisse de contraintes budgétaires, de délais de mise sur le marché ou de l'indisponibilité de données diverses, les entreprises peuvent utiliser certaines options pour réduire leur dépendance à l'égard d'énormes volumes de données de formation.
Augmentation des données
Les données générées ou synthétisées à partir d'ensembles de données existants sont idéales pour être utilisées comme données de formation. Ces données proviennent des données parentes et les imitent, ce qui correspond à des données 100 % réelles.
Transfert d'apprentissage
Cela implique de modifier les paramètres d'un modèle existant pour effectuer et exécuter une nouvelle tâche. Par exemple, si votre modèle a appris à identifier les pommes, vous pouvez utiliser le même modèle et modifier ses paramètres d'apprentissage existants pour identifier également les oranges.
Modèles pré-formés
Lorsque les connaissances existantes peuvent être utilisées comme une sagesse pour votre nouveau projet. Il peut s'agir de ResNet pour les tâches associées à l'identification d'images ou de BERT pour les cas d'utilisation du traitement du langage naturel.
Exemples concrets de projets d'apprentissage automatique avec des ensembles de données minimaux
Même s'il peut paraître impossible que certains projets ambitieux d'apprentissage automatique puissent être menés à bien avec un minimum de matières premières, certains cas sont étonnamment vrais. Préparez-vous à être surpris.
Rapport Kaggle | matière de soins de santé | Oncologie Clinique |
Une enquête de Kaggle révèle que plus de 70 % des projets d’apprentissage automatique ont été réalisés avec moins de 10,000 XNUMX échantillons. | Avec seulement 500 images, une équipe du MIT a formé un modèle pour détecter la neuropathie diabétique dans les images médicales issues de scanners oculaires. | Poursuivant l’exemple du secteur de la santé, une équipe de l’Université de Stanford a réussi à développer un modèle permettant de détecter le cancer de la peau avec seulement 1000 images. |
Faire des suppositions éclairées
Il n'y a pas de chiffre magique concernant la quantité minimale de données requises, mais il existe quelques règles empiriques que vous pouvez utiliser pour arriver à un nombre rationnel.
La règle de 10
En tant que joueur règle d'or, pour développer un modèle d'IA efficace, le nombre d'ensembles de données d'apprentissage requis doit être dix fois supérieur à chaque paramètre du modèle, également appelé degrés de liberté. Les règles du « 10 » visent à limiter la variabilité et à accroître la diversité des données. En tant que telle, cette règle empirique peut vous aider à démarrer votre projet en vous donnant une idée de base de la quantité requise d'ensembles de données.
L'apprentissage en profondeur
Les méthodes d'apprentissage en profondeur aident à développer des modèles de haute qualité si davantage de données sont fournies au système. Il est généralement admis qu'avoir 5000 images étiquetées par catégorie devrait être suffisant pour créer un algorithme d'apprentissage en profondeur qui peut fonctionner à égalité avec les humains. Pour développer des modèles exceptionnellement complexes, au moins un minimum de 10 millions d'articles étiquetés sont nécessaires.
Vision par ordinateur
Si vous utilisez l'apprentissage en profondeur pour la classification des images, il existe un consensus sur le fait qu'un ensemble de données de 1000 images étiquetées pour chaque classe est un nombre équitable.
Courbes d'apprentissage
Les courbes d'apprentissage sont utilisées pour démontrer les performances de l'algorithme d'apprentissage automatique par rapport à la quantité de données. En ayant la compétence du modèle sur l'axe Y et l'ensemble de données de formation sur l'axe X, il est possible de comprendre comment la taille des données affecte le résultat du projet.
Les inconvénients d'avoir trop peu de données
Vous pourriez penser qu'il est plutôt évident qu'un projet a besoin de grandes quantités de données, mais parfois, même les grandes entreprises ayant accès à des données structurées ne parviennent pas à se les procurer. La formation sur des quantités de données limitées ou étroites peut arrêter le modèles d'apprentissage automatique d'atteindre leur plein potentiel et augmentent le risque de fournir de mauvaises prédictions.
Bien qu'il n'y ait pas de règle d'or et qu'une généralisation approximative soit généralement faite pour prévoir les besoins en données de formation, il est toujours préférable d'avoir de grands ensembles de données plutôt que de souffrir de limitations. La limitation des données dont souffre votre modèle serait les limitations de votre projet.
Que faire si vous avez besoin de plus d'ensembles de données
Bien que tout le monde veuille avoir accès à de grands ensembles de données, c'est plus facile à dire qu'à faire. L'accès à de grandes quantités d'ensembles de données de qualité et de diversité est essentiel pour la réussite du projet. Nous vous proposons ici des étapes stratégiques pour faciliter la collecte de données.
Jeu de données ouvert
Les ensembles de données ouverts sont généralement considérés comme une « bonne source » de données gratuites. Bien que cela puisse être vrai, les ensembles de données ouverts ne sont pas ce dont le projet a besoin dans la plupart des cas. Il existe de nombreux endroits à partir desquels les données peuvent être obtenues, telles que les sources gouvernementales, les portails de données ouvertes de l'UE, les explorateurs de données publiques de Google, etc. Cependant, l'utilisation d'ensembles de données ouverts pour des projets complexes présente de nombreux inconvénients.
Lorsque vous utilisez de tels ensembles de données, vous risquez formation et test votre modèle sur des données incorrectes ou manquantes. Les méthodes de collecte de données ne sont généralement pas connues, ce qui pourrait avoir un impact sur les résultats du projet. La confidentialité, le consentement et le vol d'identité sont des inconvénients importants de l'utilisation de sources de données ouvertes.
Ensemble de données augmenté
Quand tu as des quantité de données d'entraînement mais pas assez pour répondre à toutes les exigences de votre projet, vous devez appliquer des techniques d'augmentation des données. L'ensemble de données disponible est réutilisé pour répondre aux besoins du modèle.
Les échantillons de données subiront diverses transformations qui rendront l'ensemble de données riche, varié et dynamique. Un exemple simple d'augmentation de données peut être vu lorsqu'il s'agit d'images. Une image peut être augmentée de plusieurs façons : elle peut être coupée, redimensionnée, mise en miroir, transformée en différents angles et les paramètres de couleur peuvent être modifiés.
Données synthétiques
Lorsque les données sont insuffisantes, nous pouvons nous tourner vers des générateurs de données synthétiques. Les données synthétiques sont utiles en termes d'apprentissage par transfert, car le modèle peut d'abord être formé sur des données synthétiques, puis sur l'ensemble de données du monde réel. Par exemple, un véhicule autonome basé sur l'IA peut d'abord être formé pour reconnaître et analyser des objets dans vision par ordinateur jeux vidéo.
Les données synthétiques sont bénéfiques lorsqu'il y a un manque de données réelles des données pour s'entrainer et testez votre modèles entraînés. De plus, il est également utilisé lorsqu'il s'agit de confidentialité et de sensibilité des données.
Collecte de données personnalisée
La collecte de données personnalisées est peut-être idéale pour générer des ensembles de données lorsque d'autres formulaires n'apportent pas les résultats requis. Des ensembles de données de haute qualité peuvent être générés à l'aide d'outils de grattage Web, de capteurs, de caméras et d'autres outils. Lorsque vous avez besoin d'ensembles de données sur mesure qui améliorent les performances de vos modèles, l'achat d'ensembles de données personnalisés peut être la bonne décision. Plusieurs prestataires de services tiers proposent leur expertise.
Pour développer des solutions d'IA performantes, les modèles doivent être formés sur des ensembles de données fiables de bonne qualité. Cependant, il n'est pas facile de se procurer des ensembles de données riches et détaillés qui ont un impact positif sur les résultats. Mais lorsque vous vous associez à des fournisseurs de données fiables, vous pouvez créer un modèle d'IA puissant avec une base de données solide.
Vous avez un grand projet en tête, mais vous attendez des ensembles de données sur mesure pour former vos modèles ou vous avez du mal à obtenir le bon résultat de votre projet ? Nous proposons de vastes ensembles de données de formation pour une variété de besoins de projets. Exploitez le potentiel de Shai en discutant avec l'un de nos scientifiques de données aujourd'hui et comprendre comment nous avons fourni des ensembles de données de haute qualité et performants pour les clients dans le passé.