Licences de données d'images faciales et de vidéos prêtes à l'emploi

Ensembles de données de reconnaissance faciale prêts à l'emploi pour la formation de modèles d'IA

Exploiter des ensembles de données d'origine éthique et démographiquement diversifiés pour accélérer la formation des modèles d'IA et réduire les biais pour un conglomérat technologique mondial de premier plan.

Ensembles de données de reconnaissance faciale prêts à l'emploi

Résumé du projet

Le client cherchait à accélérer Développement de la reconnaissance faciale pilotée par l'IA sans subir de longs et coûteux cycles de collecte de données. Pour y parvenir, ils avaient besoin ensembles de données prêts à l'emploi qui n'étaient pas seulement vaste et diversifiéMais c'est aussi provenant de sources éthiques et conformes aux réglementations mondiales en matière de confidentialité des données.

Shaip a fourni des jeux de données complets avec des variations contrôlées d'éclairage, de poses de tête, d'occultations et d'émotions, permettant aux modèles du client d'atteindre à la fois précision et équité tout en répondant aux critères ethniques et démographiques requis. Chaque jeu de données comprenait des métadonnées détaillées, des annotations de poses et des cadres de délimitation pour la reconnaissance des émotions, permettant ainsi d'entraîner et de tester les modèles dans des scénarios réels très variés.

Ensembles de données de reconnaissance faciale prêts à l'emploi

Principales statistiques

7,000+ sujets

Dans un ensemble de données historiques contenant plus de 300 000 images et 2 000 vidéos.

10,000+ sujets

dans l'ensemble de données sur les émotions multi-angles.

Images 74,880

dans l'éclairage
Ensemble de données de variation.

Images 18,600

couvrant six
émotions fondamentales.

Description du projet

Le client a demandé ensembles de données d'images et de vidéos faciales à grande échelle, provenant de sources éthiques et démographiquement diversifiées pour soutenir le développement et l'entraînement de modèles de reconnaissance faciale. Ces ensembles de données étaient essentiels pour alimenter les cas d'utilisation dans systèmes anti-usurpation d'identité, de vérification d'identité, de correspondance d'images et d'analyse d'expression, garantissant des performances d’IA robustes et impartiales dans les applications du monde réel.

La portée de la mission comprenait :

  • Delivering ensembles de données organisés conçu pour répondre aux cas d'utilisation de la reconnaissance faciale tels que l'anti-usurpation d'identité, la vérification d'identité et la reconnaissance d'expression.
  • Fournir images et vidéos avec annotations détaillées pour les données démographiques, la pose de la tête, les occlusions, le type d'éclairage et les émotions.
  • Assurer couverture démographique équilibrée pour réduire les biais systémiques dans la formation.
  • Garantir conformité et consentement avec des normes mondiales de protection des données et de confidentialité.

Exemples de contributions à l'ensemble de données :

  • Ensemble de données historiques (~7 000 sujets) : plus de 300 000 images et 2 000 vidéos avec variations de pose et d'occlusion.
  • Ensemble de données sur les émotions multi-angles (~10 000 sujets) : 15 à 20 images par sujet sous tous les angles et états émotionnels.
  • Ensemble de données sur les six émotions (~3 100 sujets) : 18 600 images annotées couvrant les principales expressions humaines.
  • Ensemble de données sur les variations d'éclairage (~468 sujets) : 74 880 images dans neuf conditions d'éclairage.

Défis

Le projet a abordé les principaux défis courants dans la création de modèles d’IA robustes :

Biais dans les modèles d’IA

Prévenir la surreprésentation d’ethnies ou de genres spécifiques pour garantir l’équité.

Variabilité du monde réel

Capture des conditions d'éclairage, des angles du visage, des occlusions et des expressions naturelles.

Échelle et qualité

Fournir des centaines de milliers d'images haute résolution sans compromettre la diversité.

Conformité réglementaire

Répondre aux exigences mondiales strictes en matière de confidentialité et de protection des données avec le plein consentement des participants.

Solution

Shaip a mis en œuvre un approche structurée pour garantir la qualité et la pertinence des ensembles de données :

  • Ensembles de données équilibrés et organisés avec une large représentation ethnique, de genre et d’âge.
  • Capturé poses multi-angles et variations d'éclairage pour reproduire les conditions du monde réel.
  • Ajouté annotations détaillées (par exemple, pose de la tête, occlusions, émotions) pour enrichir la convivialité de l'ensemble de données.
  • Établir des règles strictes flux de travail de contrôle qualité et de conformité pour garantir un approvisionnement éthique et le respect de la confidentialité.

Portefeuille de jeux de données

Ensemble de données Volume Démographie / Diversité Normes / Spécifications
Ensemble de données historiques d'images et de vidéos faciales (environ 7 000 sujets) 7 000 images d'inscription ; plus de 300 000 images historiques ; 2 000 vidéos (1 en intérieur + 1 en extérieur pour 1 000 sujets) Origine ethnique : Noir (35 %), Asiatique de l’Est (42 %), Asiatique du Sud (13 %), Blanc (10 %) ; Sexe : 50 % Homme / 50 % Femme ; Âge : Adultes de 18 ans et plus (10 dernières années) Durée de la vidéo : 1 à 2 min ; Variation de la posture de la tête (P1 à P7) ; 5 types d’occlusion (O0 à O4)
Ensemble de données d'images faciales (environ 5 000 sujets) 35 images par sujet ; 2 500 Indiens ; 1 000 Asiatiques ; 1 500 Noirs Âge : 18–60 ans ; répartition équilibrée des sexes Pas d'embellissement ; Arrière-plan et vêtements variés ; Résolution minimale : 960 × 1 280
Ensemble de données sur les émotions multi-angles (environ 10 000 sujets – chinois) 15 à 20 images par sujet ; Poses : Face, Gauche, Droite (30°–60°) ; Expressions : Sourire, bouche ouverte, triste, sérieux, neutre Origine ethnique : Chinoise ; Âge : 18-26 ans ; Sexe : 50/50 Résolution : 2160 × 3840 pixels ou plus
Ensemble de données sur six émotions humaines (environ 3 100 sujets) 6 images par sujet (différentes expressions) ; 18 600 images au total Origines ethniques : Japonais (9 000), Coréens (2 400), Chinois (2 400), Asiatiques du Sud-Est (2 400), Asiatiques du Sud (2 400) ; Âge : 20 à 65 ans Annotations de cadre englobant les émotions ; Arrière-plans unis ; Pas de chapeaux, de lunettes ou d'obstructions
Ensemble de données sur les variations d'éclairage (environ 468 sujets indiens) 160 images par sujet ; Total : 74 880 images Âge : 20–70 ans ; 70 % d'hommes 9 conditions d'éclairage (intérieur, extérieur, lumière latérale, rétroéclairage, néon, etc.)
Ensemble de données d'images faciales multiethniques (~600 sujets) 3,752 images au total Origines ethniques : Africain, Moyen-Oriental, Amérindien, Sud-Asiatique, Sud-Est-Asiatique ; Âge : 20 à 70 ans -

Résultat

La collaboration a eu un impact commercial et technique significatif :

  • Amélioration de la précision du modèle:Précision et rappel améliorés pour les modèles de reconnaissance faciale dans plusieurs cas d'utilisation.
  • Réduction des biais:Une représentation démographique équilibrée a réduit les biais systémiques dans les résultats de l’IA.
  • Délais de développement accélérés:Les ensembles de données prêts à l'emploi ont permis un prototypage rapide et une formation de modèles sans longue collecte de données.
  • Conformité réglementaire:Tous les ensembles de données respectaient les normes mondiales de confidentialité et incluaient le consentement des participants.

Les ensembles de données diversifiés et issus de sources éthiques de Shaip nous ont apporté la rapidité, la qualité et la conformité dont nous avions besoin. Grâce à des données prêtes à l'emploi, nous avons accéléré l'apprentissage des modèles d'IA et considérablement réduit les biais systémiques.

Or-5 étoiles