Création d'un ensemble de données d'images faciales hors UE/Royaume-Uni avec diversité de progression d'âge

Un corpus d'images de visages de 1 205 participants, séparées dans le temps, pour renforcer l'équité et la robustesse des modèles de vision par ordinateur.

Ensemble de données d'images faciales avec diversité de progression d'âge

Résumé du projet

Une entreprise technologique mondiale développant une IA centrée sur le visage pour la sécurité, la personnalisation et les expériences d'identité recherchait un ensemble de données hors UE/Royaume-Uni avec des photos séparées dans le temps afin de réduire les biais et d'améliorer la résilience du modèle en fonction de l'âge, de l'environnement et des accessoires.

Le client s'est associé à Shaip pour collecter, organiser et valider Un vaste corpus d'images faciales a été constitué, chaque participant fournissant des photos récentes et anciennes. L'objectif était de modéliser le vieillissement naturel tout en exigeant une provenance hors UE/Royaume-Uni et en respectant les quotas d'âge et de genre.

Ensemble de données d'images faciales avec diversité de progression d'âge

Principales statistiques

Participants

 1 205 (hors UE/Royaume-Uni uniquement, répartition hommes/femmes 50/50 ±10–15 %)

 Mélange d'âges

 40 % (10–29), 40 % (30–49), 20 % (50+) ±10–15 % de tolérance

Territoire desservi

Asie du Sud/Sud-Est, Afrique du Nord et du Nord-Est, Singapour, Amérique du Sud

Forum

19 semaines

Défis

Restriction géographique

S'approvisionner exclusivement auprès de populations hors UE/Royaume-Uni tout en évitant les images d'origine touristique provenant de l'UE/Royaume-Uni.

Des quotas équilibrés à grande échelle

Nous avons atteint 1 205 participants en respectant des critères stricts de genre et d'âge.

Preuves séparées par le temps

S'assurer que chaque pièce d'identité comporte des photos récentes et anciennes, adaptées aux tranches d'âge.

Qualité opérationnelle

Appliquer des limites minimales de taille, de variété et de duplication pour les images/visages sans ralentir le débit.

Solution

1. Panneaux de pays et contrôles de provenance

nous avons établi groupes d'approvisionnement au niveau national dans les régions cibles et les partenaires formés sur règles de provenance (Hors UE/Royaume-Uni uniquement). Les photos ont été analysées afin d'évaluer les risques liés à l'origine des voyages. indices de métadonnées (année, marqueurs de localisation) De plus, les attestations des soumissionnaires réduisent les fuites au sein de l'UE/du Royaume-Uni avant le contrôle qualité. Cela reflète la pratique éprouvée de Shaip consistant à effectuer les contrôles des risques en amont afin de protéger le débit en aval.

2. Conception de la capture de la progression de l'âge

Au lieu de « demander 20 images », nous avons conçu un flux de soumission à deux voies qui ont guidé les participants vers :

  • Piste A (Récente) : photos des deux dernières années ;
  • Piste B (Historique) : photos plus anciennes alignées sur la tranche d'âge du participant au moment de la soumission (par exemple, fenêtres de 2 à 10/15/20 ans).

Le portail incitait les utilisateurs, à l'aide d'exemples (intérieur/extérieur, angles, accessoires), à diversifier les choix sans trop spécifier les détails.

3. Orchestration de la diversité et garde-fous des quotas

A Tableau de bord des quotas en temps réel inscriptions surveillées par sexe, tranche d'âge et géographie, en suspendant les prélèvements une fois qu'une strate atteignait les limites prévues. Cela a permis d'éviter les retouches en fin de cycle et reflète l'approche standard de Shaip. Inscription stratifiée + blocages utilisé dans les ensembles de données biométriques précédents pour maintenir une représentation équilibrée.

4. Pipeline qualité (Intervention humaine + Pré-contrôles automatisés)

  • Portails automatisés : Détection des visages + seuils de taille minimale, contrôles de flou/bruit de base et regroupement le jour même pour signaler rapidement les doublons potentiels.
  • Niveaux d'assurance qualité humaine : Les examinateurs d'images ont validé exclusivité du sujet (participant principal uniquement), variété de scènes/angles et sans filtres d'embellissementLes auditeurs CQA ont effectué des contrôles ponctuels sur les lots avant leur acceptation. Assurance qualité multicouche reflète les programmes de données biométriques publiés par Shaip.

5. Conformité et consentement

Inscription ≥20 ans avec consentement signé ; les dossiers des personnes de moins de 20 ans ne sont acceptés qu’avec le consentement du tuteur légal. Nous avons consigné la présence du consentement dans les métadonnées et aligné les listes de contrôle des examinateurs sur celles-ci. admissibilité et consentement domaines, garantissant l'auditabilité.

6. Métadonnées et traçabilité

Nous avons livré métadonnées au niveau des participants et des images (Liens d'identification, données démographiques, nationalité/résidence, année de la photo, date de soumission, etc.) et noms de champs normalisés pour simplifier étiquetage et évaluation en avalCela suit les meilleures pratiques de Shaip. balisage de métadonnées enrichies pour les ensembles de données biométriques.

7. Mise en œuvre progressive pour réduire les risques

An Plan de lot de 8 a commencé par un étalonnage à 10 participants Un ensemble initial a été défini, suivi d'une montée en puissance contrôlée. Les retours clients après le premier lot ont permis d'ajuster le processus, puis les volumes ont été augmentés par tranches prévisibles pour atteindre les objectifs fixés. participants 1,205 en environ 19 semaines.

Description du projet

Dimension Ce que nous avons livré
Population 1 205 participants non européens/britanniques, avec une répartition équilibrée entre les sexes et les tranches d'âge.
Contenu ≥20 images par participant : récentes + historiques pour encoder la progression de l'âge ; scènes, angles et accessoires variés.
Opérations qualité Pré-contrôles automatisés + assurance qualité humaine multicouche (contrôles de duplication ; exclusivité du sujet ; rejet par filtre).
Conformité Vérification de la provenance hors UE/Royaume-Uni ; gouvernance du consentement et validation de l’éligibilité.
Métadonnées Attributs des participants et des images pour la traçabilité et l'évaluation ultérieure par apprentissage automatique.
Livraison 8 lots par phases, en commençant par l'étalonnage puis la livraison en régime permanent jusqu'à la cible finale.

Le résultat

  • Corpus équilibré et prêt pour l'audit : Les quotas démographiques ont été respectés dans les limites de tolérance ; la provenance hors UE/Royaume-Uni a été appliquée à toutes les images à des fins de formation conforme.
  • Variabilité prête à être modélisée : Les images séparées dans le temps, les environnements/angles divers et la couverture des accessoires permettent de réaliser des tests de robustesse et une analyse des biais.
  • Prévisibilité opérationnelle : Le déploiement initial de l'étalonnage et les garde-fous de quotas ont réduit les retouches et préservé le calendrier pour atteindre l'objectif complet de 1 205 participants.
  • Efficacité en aval : Des métadonnées riches et une hygiène des fichiers cohérente ont raccourci le chemin vers l'annotation et la construction de l'ensemble de données de référence, en suivant les manuels de Shaip sur les ensembles de données biométriques.

Shaip a transformé un cahier des charges complexe concernant un ensemble de données faciales hors UE/Royaume-Uni en un corpus équilibré et prêt pour l'audit. Leur conception de la progression par âge et leur assurance qualité à plusieurs niveaux ont fourni à notre équipe de CV des données propres, diversifiées et fiables, sans risque de retard.

5 étoiles d'or