Crowd Workers pour la collecte de données

Crowd Workers pour la collecte de données - une partie indispensable de l'IA éthique

Dans nos efforts pour construire des solutions d'IA robustes et impartiales, il est pertinent que nous nous concentrions sur la formation des modèles sur un assortiment de données impartial, dynamique et représentatif. Notre processus de collecte de données est extrêmement important pour développer des solutions d'IA crédibles. A cet égard, la collecte Données d'entraînement à l'IA par le biais de crowd workers devient un aspect critique de la stratégie de collecte de données.

Dans cet article, explorons le rôle des crowd workers, son impact sur le développement de l'IA algorithmes d'apprentissage et les modèles ML, ainsi que les besoins et les avantages qu'ils apportent à l'ensemble du processus. 

Pourquoi les travailleurs participatifs sont-ils nécessaires pour créer des modèles d'IA ?

En tant qu'êtres humains, nous générons des tonnes de données, mais seule une fraction de ces données générées et collectées a de la valeur. En raison de l'absence de normes d'analyse comparative des données, la plupart des données collectées sont soit biaisées, criblées de problèmes de qualité, soit non représentatives de l'environnement. Depuis de plus en plus machine learning et des modèles d'apprentissage en profondeur sont en cours de développement qui prospèrent sur des quantités massives de données, le besoin d'ensembles de données meilleurs, plus récents et diversifiés se fait de plus en plus sentir.

C'est là que les crowd workers entrent en jeu.

Le crowdsourcing de données consiste à créer un ensemble de données avec la participation de grands groupes de personnes. Les crowd workers infusent l'intelligence humaine dans l'intelligence artificielle.

Plateformes de crowdsourcing donner des microtâches de collecte et d'annotation de données à un groupe de personnes large et diversifié. Le crowdsourcing permet aux entreprises d'accéder à une main-d'œuvre massive, dynamique, rentable et évolutive.

La plate-forme de crowdsourcing la plus populaire - Amazon Mechanical Turk, a pu générer 11 15 dialogues interhumains en XNUMX heures, et elle a payé les travailleurs $0.35 pour chaque dialogue réussi. Les travailleurs de la foule sont engagés pour un si petit montant, ce qui met en lumière l'importance d'établir des normes d'approvisionnement en données éthiques.

Théoriquement, cela ressemble à un plan intelligent, mais ce n'est pas une stratégie facile à exécuter. L'anonymat des travailleurs de la foule a donné lieu à des problèmes de bas salaires, de mépris des droits des travailleurs et de travail de mauvaise qualité ayant un impact sur les performances du modèle d'IA. 

Avantages d'avoir des travailleurs de foule pour sourcer les données

En engageant un groupe diversifié de crowd workers, les développeurs de solutions basées sur l'IA peuvent distribuer des micro-tâches et recueillir des observations variées et généralisées rapidement et à un coût relativement faible.

Certains des principaux avantages de l'emploi de crowd workers pour des projets d'IA sont

Avantages de la collecte de données par le biais des travailleurs de foule

Délai de mise sur le marché plus rapide : Selon les recherches de Cognilytica, près de 80% of intelligence artificielle le temps du projet est consacré aux activités de collecte de données telles que le nettoyage, l'étiquetage et l'agrégation des données. Seulement 20% du temps est consacré au développement et à la formation. Les barrières traditionnelles à la génération de données sont éliminées car un grand nombre de contributeurs peuvent être recrutés en peu de temps. 

Solution économique : Collecte de données participative réduit le temps et l'énergie consacrés à la formation, au recrutement et à leur intégration. Cela élimine le coût, le temps et les ressources nécessaires puisque la main-d'œuvre est employée selon une méthode de paiement à la tâche. 

Augmente la diversité dans l'ensemble de données : La diversité des données est essentielle à l'ensemble de la formation à la solution d'IA. Pour qu'un modèle produise des résultats impartiaux, il doit être formé sur un ensemble de données diversifié. Avec le crowdsourcing de données, il est possible de générer divers ensembles de données (géographiques, langues, dialectes) avec peu d'efforts et de coûts.

Améliore l'évolutivité : Lorsque vous recrutez des crowd workers fiables, vous pouvez vous assurer de haute qualité collecte de données qui peut être adaptée en fonction des besoins de votre projet.

In-house vs. crowdsourcing – Qui sort vainqueur ?

Données internesDonnées de crowdsourcing
L'exactitude et la cohérence des données peuvent être garanties.La qualité, l'exactitude et la cohérence des données peuvent être maintenues si des plateformes de crowdsourcing fiables avec des mesures d'AQ standard sont engagées
L'approvisionnement en données en interne n'est pas toujours une décision pratique car votre équipe interne peut ne pas répondre aux exigences du projet.La diversité des données peut être assurée car il est possible de recruter un groupe hétérogène de crowd workers en fonction des besoins du projet.
Coûteux pour recruter et former des travailleurs pour les besoins du projet.Solution économique pour collecte de données car il est possible de recruter, de former et d'intégrer des travailleurs avec moins d'investissement.
Le délai de mise sur le marché est élevé car la collecte de données en interne prend un temps considérable.Le délai de mise sur le marché est nettement inférieur car de nombreuses contributions arrivent rapidement.
Un petit groupe de contributeurs et d'étiqueteurs internesUn groupe important et diversifié de contributeurs et étiqueteurs de données
La confidentialité des données est très élevée avec une équipe interne.La confidentialité des données est difficile à maintenir lorsque l'on travaille avec un grand nombre de travailleurs dans le monde entier.
Plus facile de suivre, de former et d'évaluer les collecteurs de donnéesDifficile de suivre et de former les collecteurs de données.

Combler le fossé entre les travailleurs du crowdsource et le demandeur.

Combler le fossé entre les travailleurs du crowdsource et le demandeur Il y a un besoin urgent de combler le fossé entre les travailleurs de masse et les demandeurs, pas seulement dans le domaine de la rémunération.

Il y a un manque flagrant d'informations de la part du demandeur car les travailleurs ne reçoivent que des informations concernant la tâche spécifique. Par exemple, bien que les travailleurs se voient confier des micro-tâches telles que l'enregistrement de dialogues dans leur dialecte natif, ils reçoivent rarement un contexte. Ils ne disposent pas des informations nécessaires sur les raisons pour lesquelles ils font ce qu'ils font et sur la meilleure façon de le faire. Ce manque d'information a un impact sur qualité du travail participatif.

Pour un être humain, avoir tout le contexte donne de la clarté et un but à son travail.

Ajoutez à ce mélange une autre dimension de la NDA - les accords de non-divulgation qui limitent la quantité d'informations fournies à un crowd worker. Du point de vue du crowdworker, ce retrait d'informations montre un manque de confiance et une diminution de l'importance de leur travail.

Lorsque la même situation est examinée de l'autre côté du spectre, il y a un manque de transparence du côté du travailleur. Le demandeur ne comprend pas parfaitement le travailleur mandaté pour effectuer le travail. Certains projets peuvent nécessiter un type spécifique de travailleur ; cependant, dans la plupart des projets, il y a ambiguïté. La vérité sur le terrain est-ce que cela peut compliquer l'évaluation, la rétroaction et la formation sur toute la ligne.

Pour contrer ces difficultés, il est important de travailler avec des experts en collecte de données ayant fait leurs preuves dans la fourniture de données diverses, organisées et bien représentées à partir d'une large sélection de contributeurs.

Choisir Shaip comme partenaire de données peut avoir de multiples avantages. Nous nous concentrons sur la diversité et la représentativité des distributions de données. Notre personnel expérimenté et dévoué comprend les contraintes de chaque projet et développe des ensembles de données qui peuvent former des solutions robustes basées sur l'IA en un rien de temps.

[A également lu: Guide de démarrage des données de formation AI : définition, exemple, ensembles de données]

Partager