Données d'entraînement à l'IA

Data Wars 2024 : les luttes éthiques et pratiques de la formation en IA

Si vous demandez à un modèle Gen AI d’écrire les paroles d’une chanson comme le feraient les Beatles et s’il a fait un travail impressionnant, il y a une raison à cela. Ou, si vous demandez à un modèle d’écrire de la prose dans le style de votre auteur préféré et qu’il reproduit précisément le style, il y a une raison à cela.

Même simplement, vous êtes dans un autre pays et lorsque vous souhaitez traduire le nom d'une collation intéressante que vous trouvez dans l'allée d'un supermarché, votre smartphone détecte les étiquettes et traduit le texte de manière transparente.

L'IA est au cœur de toutes ces possibilités et cela est principalement dû au fait que les modèles d'IA auraient été formés sur de vastes volumes de telles données – dans notre cas, des centaines de chansons des Beatles et probablement des livres de votre écrivain préféré.

Avec l’essor de l’IA générative, tout le monde est musicien, écrivain, artiste ou tout cela. Les modèles Gen AI génèrent des œuvres d’art sur mesure en quelques secondes, en fonction des invites de l’utilisateur. Ils peuvent créer Van Gogh-isque des œuvres d'art et même demander à Al Pacino de lire les conditions d'utilisation sans qu'il soit là.

La fascination mise à part, l’aspect important ici est l’éthique. Est-il juste que de telles œuvres créatives soient utilisées pour former des modèles d’IA, qui tentent progressivement de remplacer les artistes ? Le consentement a-t-il été obtenu des propriétaires de ces propriétés intellectuelles ? Ont-ils été rémunérés équitablement ?

Bienvenue en 2024 : l'année de la guerre des données

Au cours des dernières années, les données sont devenues un aimant pour attirer l’attention des entreprises afin qu’elles entraînent leurs modèles Gen AI. Comme un bébé, les modèles d’IA sont naïfs. Il faut les instruire puis les former. C'est pourquoi les entreprises ont besoin de milliards, voire de millions de données pour entraîner artificiellement des modèles à imiter les humains.

Par exemple, GPT-3 a été formé sur des milliards (des centaines) de jetons, ce qui se traduit vaguement en mots. Cependant, des sources révèlent que des milliards de ces jetons ont été utilisés pour former les modèles les plus récents.

Avec des volumes aussi énormes d’ensembles de données de formation requis, où vont les grandes entreprises technologiques ?

Pénurie aiguë de données de formation

Ambition et volume vont de pair. À mesure que les entreprises font évoluer leurs modèles et les optimisent, elles ont besoin d’encore plus de données de formation. Cela pourrait provenir de demandes visant à dévoiler des modèles réussis de GPT ou simplement à fournir des résultats améliorés et précis.

Quoi qu’il en soit, il est inévitable d’exiger des données d’entraînement abondantes.

C’est là que les entreprises se heurtent à leur premier obstacle. Pour faire simple, Internet devient trop petit pour que les modèles d’IA puissent s’entraîner. Cela signifie que les entreprises manquent d’ensembles de données existants pour alimenter et entraîner leurs modèles.

Cette ressource en diminution effraie les parties prenantes et les passionnés de technologie, car elle pourrait potentiellement limiter le développement et l'évolution des modèles d'IA, qui sont pour la plupart étroitement liés à la manière dont les marques positionnent leurs produits et à la façon dont certaines préoccupations tenaces dans le monde sont perçues comme étant résolues grâce à l'IA. solutions.

Dans le même temps, il y a aussi de l’espoir sous la forme de données synthétiques ou de « consanguinité numérique », comme nous l’appelons. En termes simples, les données synthétiques sont les données d'entraînement générées par l'IA, qui sont à nouveau utilisées pour entraîner des modèles.

Bien que cela semble prometteur, les experts en technologie estiment que la synthèse de telles données de formation mènerait à ce que l’on appelle l’IA Habsburg. Il s’agit d’une préoccupation majeure pour les entreprises, car de tels ensembles de données internes pourraient contenir des erreurs factuelles, des biais ou simplement être du charabia, influençant négativement les résultats des modèles d’IA.

Considérez cela comme un jeu de chuchotement chinois, mais le seul problème est que le premier mot transmis pourrait également n'avoir aucun sens.

La course à l'approvisionnement en données de formation en IA

Recherche de données de formation IA L'octroi de licences est un moyen idéal pour obtenir des données de formation. Bien que puissants, les bibliothèques et les référentiels sont des sources limitées. Cela signifie qu’ils ne peuvent pas suffire aux besoins en volume des modèles à grande échelle. Une statistique intéressante montre que nous pourrions manquer de données de haute qualité pour former des modèles d'ici 2026, ce qui place la disponibilité des données à égalité avec d'autres ressources physiques dans le monde réel.

L'un des plus grands référentiels de photos – Shutterstock compte 300 millions d'images. Bien que cela soit suffisant pour commencer la formation, les tests, la validation et l'optimisation nécessiteraient à nouveau des données abondantes.

Cependant, il existe d'autres sources disponibles. Le seul hic ici est qu’ils sont codés par couleur en gris. Nous parlons de données accessibles au public sur Internet. Voici quelques faits intrigants :

  • Plus de 7.5 millions d’articles de blog sont mis en ligne chaque jour
  • Il y a plus de 5.4 milliards de personnes sur les plateformes de médias sociaux comme Instagram, X, Snapchat, TikTok, etc.
  • Il existe plus de 1.8 milliard de sites Web sur Internet.
  • Plus de 3.7 millions de vidéos sont mises en ligne chaque jour sur YouTube uniquement.

En outre, les gens partagent publiquement des textes, des vidéos, des photos et même leur expertise en la matière via des podcasts uniquement audio.

Ce sont des éléments de contenu explicitement disponibles.

Donc, les utiliser pour former des modèles d’IA doit être juste, n’est-ce pas ?

C’est la zone grise dont nous parlions plus tôt. Il n’existe pas d’opinion définitive sur cette question, car les entreprises technologiques ayant accès à des volumes de données aussi abondants proposent de nouveaux outils et modifient leurs politiques pour répondre à ce besoin.

Certains outils transforment l'audio des vidéos YouTube en texte, puis les utilisent comme jetons à des fins de formation. Les entreprises revoient leurs politiques de confidentialité et vont même jusqu'à utiliser des données publiques pour former des modèles avec une intention prédéterminée de faire face à des poursuites.

Mécanismes de compteur

Dans le même temps, les entreprises développent également ce que l’on appelle des données synthétiques, dans lesquelles les modèles d’IA génèrent des textes qui peuvent à nouveau être utilisés pour entraîner les modèles comme une boucle.

D’un autre côté, pour contrer la suppression des données et empêcher les entreprises d’exploiter les failles juridiques, les sites Web mettent en œuvre des plugins et des codes pour atténuer les robots qui capturent les données.

Quelle est la solution ultime ?

L’implication de l’IA dans la résolution des problèmes du monde réel a toujours été soutenue par de nobles intentions. Alors pourquoi la recherche d’ensembles de données pour former de tels modèles doit-elle s’appuyer sur des modèles gris ?

Alors que les conversations et les débats sur l’IA responsable, éthique et responsable gagnent en importance et en force, il appartient aux entreprises de toutes tailles de passer à des sources alternatives dotées de techniques de chapeau blanc pour fournir des données de formation.

C'est ici que Shai excelle dans. Comprenant les préoccupations dominantes concernant l'approvisionnement en données, Shaip a toujours plaidé en faveur de techniques éthiques et a constamment mis en pratique des méthodes raffinées et optimisées pour collecter et compiler des données provenant de diverses sources.

Méthodologies d’approvisionnement des ensembles de données White Hat

Méthodologies de sourcing des ensembles de données Hat Notre outil exclusif de collecte de données place les humains au centre des cycles d’identification et de livraison des données. Nous comprenons la sensibilité des cas d'utilisation sur lesquels travaillent nos clients et l'impact que nos ensembles de données auraient sur les résultats de leurs modèles. Par exemple, les ensembles de données sur les soins de santé sont plus sensibles que les ensembles de données destinés à la vision par ordinateur pour les voitures autonomes.

C'est exactement pourquoi notre mode opératoire implique des contrôles de qualité méticuleux et des techniques pour identifier et compiler des ensembles de données pertinents. Cela nous a permis de doter les entreprises d'ensembles de données exclusifs de formation Gen AI dans plusieurs formats tels que des images, des vidéos, de l'audio, du texte et d'autres exigences de niche.

Notre philosophie

Nous fonctionnons selon des philosophies fondamentales telles que le consentement, la confidentialité et l’équité dans la collecte d’ensembles de données. Notre approche garantit également la diversité des données afin qu'il n'y ait pas d'introduction de préjugés inconscients.

Alors que le domaine de l’IA se prépare à l’aube d’une nouvelle ère marquée par des pratiques équitables, nous, chez Shaip, avons l’intention d’être les porte-drapeaux et les précurseurs de telles idéologies. Si vous recherchez des ensembles de données incontestablement équitables et de qualité pour entraîner vos modèles d’IA, contactez-nous dès aujourd’hui.

Partager

Shai
Aperçu de la confidentialité

Ce site utilise des cookies afin que nous puissions vous offrir la meilleure expérience utilisateur possible. Les informations sur les cookies sont stockées dans votre navigateur et remplissent des fonctions telles que vous reconnaître lorsque vous revenez sur notre site Web et aider notre équipe à comprendre quelles sections du site Web vous trouvez les plus intéressantes et utiles.