Données d'entraînement à l'IA

Quel est le volume optimal de données d'entraînement dont vous avez besoin pour un projet d'IA ?

Un modèle d'IA fonctionnel repose sur des ensembles de données solides, fiables et dynamiques. Sans riche et détaillé Données d'entraînement à l'IA à portée de main, il n'est certainement pas possible de construire une solution d'IA valable et réussie. Nous savons que la complexité du projet dicte et détermine la qualité requise des données. Mais nous ne savons pas exactement de combien de données d'entraînement nous avons besoin pour créer le modèle personnalisé.

Il n'y a pas de réponse simple à la bonne quantité de données d'entraînement pour l'apprentissage automatique est nécessaire. Au lieu de travailler avec un chiffre approximatif, nous pensons qu'une multitude de méthodes peuvent vous donner une idée précise de la taille des données dont vous pourriez avoir besoin. Mais avant cela, comprenons pourquoi les données d'entraînement sont cruciales pour la réussite de votre projet d'IA.

L'importance des données d'entraînement 

S'exprimant lors du festival Future of Everything du Wall Street Journal, Arvind Krishna, PDG d'IBM, a déclaré que près de 80 % du travail dans un projet d'IA consiste à collecter, nettoyer et préparer des données. Et il était également d'avis que les entreprises abandonnent leurs projets d'IA parce qu'elles ne peuvent pas faire face au coût, au travail et au temps nécessaires pour collecter des données de formation précieuses.

Détermination des données taille de l'échantillon aide à concevoir la solution. Cela aide également à estimer avec précision le coût, le temps et les compétences nécessaires au projet.

Si des ensembles de données inexacts ou non fiables sont utilisés pour former des modèles ML, l'application résultante ne fournira pas de bonnes prédictions.

Quelle quantité de données est suffisante ? 

Ça dépend.

La quantité de données requises dépend de plusieurs facteurs, dont certains sont :

  • La complexité de la Projet d'apprentissage automatique vous entreprenez
  • La complexité du projet et budget déterminez également la méthode de formation que vous employez. 
  • Les besoins d'étiquetage et d'annotation du projet spécifique. 
  • Dynamique et diversité des ensembles de données nécessaires pour former avec précision un projet basé sur l'IA.
  • Les besoins de qualité des données du projet.

Faire des suppositions éclairées

Estimation des besoins en données de formation

Il n'y a pas de chiffre magique concernant la quantité minimale de données requises, mais il existe quelques règles empiriques que vous pouvez utiliser pour arriver à un nombre rationnel. 

La règle de 10

Comme étant une entreprise règle d'or, pour développer un modèle d'IA efficace, le nombre d'ensembles de données d'apprentissage requis doit être dix fois supérieur à chaque paramètre du modèle, également appelé degrés de liberté. Les règles du « 10 » visent à limiter la variabilité et à accroître la diversité des données. En tant que telle, cette règle empirique peut vous aider à démarrer votre projet en vous donnant une idée de base de la quantité requise d'ensembles de données.  

L'apprentissage en profondeur 

Les méthodes d'apprentissage en profondeur aident à développer des modèles de haute qualité si davantage de données sont fournies au système. Il est généralement admis qu'avoir 5000 images étiquetées par catégorie devrait être suffisant pour créer un algorithme d'apprentissage en profondeur qui peut fonctionner à égalité avec les humains. Pour développer des modèles exceptionnellement complexes, au moins un minimum de 10 millions d'articles étiquetés sont nécessaires. 

Vision par ordinateur

Si vous utilisez l'apprentissage en profondeur pour la classification des images, il existe un consensus sur le fait qu'un ensemble de données de 1000 images étiquetées pour chaque classe est un nombre équitable. 

Courbes d'apprentissage

Les courbes d'apprentissage sont utilisées pour démontrer les performances de l'algorithme d'apprentissage automatique par rapport à la quantité de données. En ayant la compétence du modèle sur l'axe Y et l'ensemble de données de formation sur l'axe X, il est possible de comprendre comment la taille des données affecte le résultat du projet.

Discutons aujourd'hui de vos besoins en données de formation en IA.

Les inconvénients d'avoir trop peu de données 

Vous pourriez penser qu'il est plutôt évident qu'un projet a besoin de grandes quantités de données, mais parfois, même les grandes entreprises ayant accès à des données structurées ne parviennent pas à se les procurer. La formation sur des quantités de données limitées ou étroites peut arrêter le modèles d'apprentissage automatique d'atteindre leur plein potentiel et augmentent le risque de fournir de mauvaises prédictions.

Bien qu'il n'y ait pas de règle d'or et qu'une généralisation approximative soit généralement faite pour prévoir les besoins en données de formation, il est toujours préférable d'avoir de grands ensembles de données plutôt que de souffrir de limitations. La limitation des données dont souffre votre modèle serait les limitations de votre projet.  

Que faire si vous avez besoin de plus d'ensembles de données

Techniques/sources de collecte de données

Bien que tout le monde veuille avoir accès à de grands ensembles de données, c'est plus facile à dire qu'à faire. L'accès à de grandes quantités d'ensembles de données de qualité et de diversité est essentiel pour la réussite du projet. Nous vous proposons ici des étapes stratégiques pour faciliter la collecte de données.

Jeu de données ouvert 

Les ensembles de données ouverts sont généralement considérés comme une « bonne source » de données gratuites. Bien que cela puisse être vrai, les ensembles de données ouverts ne sont pas ce dont le projet a besoin dans la plupart des cas. Il existe de nombreux endroits à partir desquels les données peuvent être obtenues, telles que les sources gouvernementales, les portails de données ouvertes de l'UE, les explorateurs de données publiques de Google, etc. Cependant, l'utilisation d'ensembles de données ouverts pour des projets complexes présente de nombreux inconvénients.

Lorsque vous utilisez de tels ensembles de données, vous risquez formation et test votre modèle sur des données incorrectes ou manquantes. Les méthodes de collecte de données ne sont généralement pas connues, ce qui pourrait avoir un impact sur les résultats du projet. La confidentialité, le consentement et le vol d'identité sont des inconvénients importants de l'utilisation de sources de données ouvertes.

Ensemble de données augmenté 

Quand tu as des quantité de données d'entraînement mais pas assez pour répondre à toutes les exigences de votre projet, vous devez appliquer des techniques d'augmentation des données. L'ensemble de données disponible est réutilisé pour répondre aux besoins du modèle.

Les échantillons de données subiront diverses transformations qui rendront l'ensemble de données riche, varié et dynamique. Un exemple simple d'augmentation de données peut être vu lorsqu'il s'agit d'images. Une image peut être augmentée de plusieurs façons : elle peut être coupée, redimensionnée, mise en miroir, transformée en différents angles et les paramètres de couleur peuvent être modifiés.

Données synthétiques

Lorsque les données sont insuffisantes, nous pouvons nous tourner vers des générateurs de données synthétiques. Les données synthétiques sont utiles en termes d'apprentissage par transfert, car le modèle peut d'abord être formé sur des données synthétiques, puis sur l'ensemble de données du monde réel. Par exemple, un véhicule autonome basé sur l'IA peut d'abord être formé pour reconnaître et analyser des objets dans vision par ordinateur jeux vidéo.

Les données synthétiques sont bénéfiques lorsqu'il y a un manque de données réelles des données pour s'entrainer et testez votre modèles entraînés. De plus, il est également utilisé lorsqu'il s'agit de confidentialité et de sensibilité des données.

Collecte de données personnalisée 

La collecte de données personnalisées est peut-être idéale pour générer des ensembles de données lorsque d'autres formulaires n'apportent pas les résultats requis. Des ensembles de données de haute qualité peuvent être générés à l'aide d'outils de grattage Web, de capteurs, de caméras et d'autres outils. Lorsque vous avez besoin d'ensembles de données sur mesure qui améliorent les performances de vos modèles, l'achat d'ensembles de données personnalisés peut être la bonne décision. Plusieurs prestataires de services tiers proposent leur expertise.

Pour développer des solutions d'IA performantes, les modèles doivent être formés sur des ensembles de données fiables de bonne qualité. Cependant, il n'est pas facile de se procurer des ensembles de données riches et détaillés qui ont un impact positif sur les résultats. Mais lorsque vous vous associez à des fournisseurs de données fiables, vous pouvez créer un modèle d'IA puissant avec une base de données solide.

Vous avez un grand projet en tête, mais vous attendez des ensembles de données sur mesure pour former vos modèles ou vous avez du mal à obtenir le bon résultat de votre projet ? Nous proposons de vastes ensembles de données de formation pour une variété de besoins de projets. Exploitez le potentiel de Shai en discutant avec l'un de nos scientifiques de données aujourd'hui et comprendre comment nous avons fourni des ensembles de données de haute qualité et performants pour les clients dans le passé.

Partager