Si vous développez des interfaces vocales, des transcriptions ou des agents multimodaux, vos données définissent les limites de votre modèle. En reconnaissance vocale (RAP), cela implique de collecter des données audio variées et bien étiquetées, reflétant les utilisateurs, les appareils et les environnements réels, et de les évaluer avec rigueur.
Ce guide vous montre exactement comment planifier, collecter, organiser et évaluer les données de formation vocale afin que vous puissiez expédier des produits fiables plus rapidement.
Qu’est-ce qui est considéré comme des « données de reconnaissance vocale » ?
Au minimum : audio et texte. En pratique, les systèmes performants nécessitent également des métadonnées riches (données démographiques des locuteurs, localisation, appareil, conditions acoustiques), des artefacts d'annotation (horodatage, diarisation, événements non lexicaux comme les rires) et des analyses fractionnées avec une couverture robuste.
Pro tip: Lorsque vous utilisez « ensemble de données », précisez la tâche (dictée, commandes ou ASR conversationnel), le domaine (appels d'assistance, notes médicales, commandes embarquées) et les contraintes (latence, sur l'appareil ou dans le cloud). Tout est modifié, du taux d'échantillonnage au schéma d'annotation.
Le spectre des données vocales (choisissez ce qui correspond à votre cas d'utilisation)

1. Discours scénarisé (contrôle élevé)
Les locuteurs lisent les instructions textuellement. Idéal pour les commandes et le contrôle, les mots d'éveil ou la couverture phonétique. Mise à l'échelle rapide ; variations naturelles réduites.
2. Discours basé sur un scénario (semi-contrôlé)
Les intervenants interprètent des instructions dans un scénario (« demander un rendez-vous pour un traitement du glaucome à une clinique »). Vous bénéficiez d'un vocabulaire varié tout en restant concentré sur la tâche, idéal pour couvrir le langage du domaine.
3. Discours naturel/non scénarisé (faible contrôle)
Conversations réelles ou monologues libres. Nécessaire pour les cas d'utilisation multi-locuteurs, longs ou bruyants. Plus difficile à nettoyer, mais essentiel pour la robustesse. L'article original présentait ce spectre ; nous insistons ici sur l'adéquation du spectre au produit afin d'éviter tout sur- ou sous-ajustement.
Planifiez votre ensemble de données comme un produit
Définir le succès et les contraintes en amont
- Mesure principale : WER (taux d'erreur de mot) pour la plupart des langues ; CER (taux d'erreur de caractère) pour les langues sans limites de mots claires.
- Latence et empreinte : allez-vous l'exécuter sur l'appareil ? Cela a un impact sur la fréquence d'échantillonnage, le modèle et la compression.
- Confidentialité et conformité : si vous touchez des PHI/PII (par exemple, des soins de santé), assurez-vous du consentement, de la dépersonnalisation et de l'auditabilité.
Cartographier l'utilisation réelle dans les spécifications de données
- Paramètres régionaux et accents : par exemple, en-US, en-IN, en-GB ; équilibrer les codes urbains/ruraux et multilingues.
- Environnements : bureau, rue, voiture, cuisine ; cibles SNR ; réverbération par rapport aux micros de proximité.
- Appareils : enceintes connectées, mobiles (Android/iOS), casques, kits voiture, téléphones fixes.
- Politiques de contenu : blasphèmes, sujets sensibles, indices d'accessibilité (bégaiement, dysarthrie) lorsque cela est approprié et autorisé.
De combien de données avez-vous besoin ?
Il n'existe pas de chiffre unique, mais la couverture est supérieure aux heures brutes. Privilégiez la diversité des intervenants, des appareils et de l'acoustique plutôt que les prises ultra-longues de quelques intervenants. Pour une écoute directe, des milliers de déclarations de centaines d'intervenants sont souvent plus efficaces que des enregistrements plus courts et plus longs. Pour une RAP conversationnelle, investissez dans la diversité des heures et des annotations soignées.
Paysage actuel : Les modèles open source (par exemple, Whisper) formés sur des centaines de milliers d'heures établissent une base de référence solide ; l'adaptation du domaine, de l'accent et du bruit avec vos données reste ce qui fait évoluer les mesures de production.
Collection : Flux de travail étape par étape

1. Commencez par l'intention réelle de l'utilisateur
Exploitez les journaux de recherche, les tickets d'assistance, les transcriptions SVI, les journaux de chat et les analyses de produits pour rédiger des invites et des scénarios. Vous couvrirez des intentions de longue traîne que vous auriez autrement manquées.
2. Rédigez des invites et des scripts en gardant à l'esprit la variation
- Écrivez des paires minimales (« allumer la lumière du salon » contre « allumer… »).
- Disfluences des semences (« euh, peux-tu… ») et changement de code si pertinent.
- Limitez les séances de lecture à environ 15 minutes pour éviter la fatigue ; insérez des intervalles de 2 à 3 secondes entre les lignes pour une segmentation claire (conformément à vos instructions initiales).
3. Recrutez les bons intervenants
Cibler la diversité démographique en fonction des objectifs du marché et de l'équité. Documenter l'admissibilité, les quotas et le consentement. Rémunérer équitablement.
4. Enregistrez dans des conditions réalistes
Collecter une matrice : haut-parleurs × appareils × environnements.
Par exemple :
- Périphériques: iPhone milieu de gamme, Android bas de gamme, haut-parleur intelligent avec micro à champ lointain.
- Environnements: pièce calme (champ proche), cuisine (électroménager), voiture (autoroute), rue (circulation).
- Formats: Le PCM 16 kHz / 16 bits est courant pour l'ASR ; envisagez des débits plus élevés si vous effectuez un sous-échantillonnage.
5. Induire une variabilité (volontairement)
Encouragez un rythme naturel, des autocorrections et des interruptions. Pour les données basées sur des scénarios et naturelles, évitez de trop coacher ; c'est le désordre que vos clients génèrent qui est recherché.
6. Transcrire avec un pipeline hybride
- Transcrivez automatiquement avec un modèle de base solide (par exemple, Whisper ou votre modèle interne).
- Contrôle qualité humain pour les corrections, la journalisation et les événements (rires, mots de remplissage).
- Contrôles de cohérence : dictionnaires orthographiques, lexiques de domaine, politique de ponctuation.
7. Bien diviser ; tester honnêtement
- Formation/Développement/Test avec disjonction entre locuteurs et scénarios (éviter les fuites).
- Conservez un ensemble de stores du monde réel qui reflète le bruit et les appareils de production ; ne le touchez pas pendant l'itération.
Annotation : faites des étiquettes votre douve
Définir un schéma clair
- Règles lexicales : nombres (« vingt-cinq » contre « 25 »), acronymes, ponctuation.
- Événements : [rires], [diaphonie], [inaudible : 00:03.2–00:03.7].
- Diarisation : étiquettes A/B des intervenants ou identifiants suivis lorsque cela est autorisé.
- Horodatages : au niveau du mot ou de la phrase si vous prenez en charge la recherche, les sous-titres ou l'alignement.
Former des annotateurs ; les mesurer
Utilisez des tâches clés et un accord inter-annotateur (IAA). Suivez la précision et le rappel des jetons critiques (noms de produits, médicaments) et les délais d'exécution. L'assurance qualité multi-passes (examen par les pairs → examen principal) est rentable ultérieurement pour la stabilité de l'évaluation du modèle.
Gestion de la qualité : ne livrez pas votre lac de données
- Écrans automatisés : écrêtage, taux d'écrêtage, limites SNR, longs silences, incompatibilités de codec.
- Audits humains : échantillons aléatoires par environnement et appareil ; contrôle ponctuel de la diarisation et de la ponctuation.
- Contrôle de version : traitez les ensembles de données comme du code : semver, journaux des modifications et ensembles de tests immuables.
Évaluer votre ASR : au-delà d'un simple WER
Mesurer le WER global et par tranche :
- Par environnement : calme vs voiture vs rue
- Par appareil : Android bas de gamme contre iPhone
- Par accent/localité : en-IN contre en-US
- Par termes de domaine : noms de produits, médicaments, adresses
Suivez la latence, le comportement des partiels et les points de terminaison si vous optimisez l'expérience utilisateur en temps réel. Pour la surveillance des modèles, la recherche sur l'estimation du WER et la détection des erreurs peut aider à privilégier la révision humaine sans retranscrire l'intégralité des données.
Créer ou acheter (ou les deux) : sources de données que vous pouvez combiner

1. Catalogues prêts à l'emploi
Utile pour l'amorçage et la préformation, notamment pour couvrir rapidement les langues ou la diversité des locuteurs.
2. Collecte de données personnalisées
Lorsque les exigences de domaine, d'acoustique ou de localisation sont spécifiques, la personnalisation permet d'atteindre un taux de réponse effectif cible. Vous contrôlez les invites, les quotas, les appareils et l'assurance qualité.
3. Ouvrir les données (avec précaution)
Idéal pour l'expérimentation ; garantit la compatibilité des licences, la sécurité des informations personnelles identifiables et la connaissance du changement de distribution par rapport à vos utilisateurs.
Sécurité, confidentialité et conformité
- Consentement explicite et conditions transparentes des contributeurs
- Désidentification/anonymisation, le cas échéant
- Stockage géolocalisé et contrôles d'accès
- Pistes d'audit pour les régulateurs ou les clients d'entreprise
Applications concrètes (mises à jour)
- Recherche et découverte vocales : Base d’utilisateurs croissante ; l’adoption varie selon le marché et le cas d’utilisation.
- Maison et appareils intelligents : Les assistants de nouvelle génération prennent en charge davantage de requêtes conversationnelles en plusieurs étapes, élevant ainsi la barre en matière de qualité des données de formation pour les salles éloignées et bruyantes.
- Service client: ASR à court terme et à domaine lourd avec diarisation et assistance d'agent.
- Dictée de santé : Vocabulaires structurés, abréviations et contrôles de confidentialité stricts.
- Voix dans la voiture : Microphones à champ lointain, bruit de mouvement et latence critique pour la sécurité.
Mini-étude de cas : données de commande multilingues à grande échelle
Un fabricant d'équipement d'origine (OEM) international avait besoin de données d'expression (3 à 30 secondes) dans les langages de niveau 1 et 2 pour exécuter des commandes sur les appareils. L'équipe :
- Des invites conçues couvrant les mots d'éveil, la navigation, les médias et les paramètres
- Intervenants recrutés par localité avec quotas d'appareils
- Capture audio dans des pièces calmes et des environnements éloignés
- Métadonnées JSON fournies (appareil, SNR, paramètres régionaux, tranche de sexe/âge) ainsi que transcriptions vérifiées
Résultat:Un ensemble de données prêt pour la production permettant une itération rapide du modèle et une réduction mesurable du WER sur les commandes dans le domaine.
Pièges courants (et leur solution)
- Trop d'heures, pas assez de couverture : définissez des quotas de haut-parleurs/appareils/environnement.
- Évaluation des fuites : appliquez des séparations disjointes entre les locuteurs et un test véritablement à l'aveugle.
- Dérive d'annotation : exécutez une assurance qualité continue et actualisez les directives avec des exemples réels.
- Ignorer les marchés périphériques : ajoutez des données ciblées pour le changement de code, les accents régionaux et les lieux à faibles ressources.
- Surprises de latence : créez des modèles de profil avec votre audio sur les appareils cibles en avance.
Quand utiliser des données standard ou personnalisées
Utilisez des solutions prêtes à l'emploi pour accélérer ou élargir rapidement la couverture linguistique ; passez à des solutions personnalisées dès que le WER atteint un plateau sur votre domaine. De nombreuses équipes combinent leurs efforts : pré-formation et ajustement sur les heures de catalogue, puis adaptation avec des données sur mesure qui reflètent votre entonnoir de production.
Liste de contrôle : Prêt à collecter ?
- Cas d'utilisation, indicateurs de réussite, contraintes définies
- Paramètres régionaux, appareils, environnements et quotas finalisés
- Consentement + politiques de confidentialité documentées
- Packs d'invite (script + scénario) préparés
- Lignes directrices d'annotation et étapes d'assurance qualité approuvées
- Règles de séparation formation/développement/test (disjointes entre locuteurs et scénarios)
- Plan de surveillance de la dérive post-lancement
Points clés à retenir
- Une couverture supérieure à plusieurs heures. Équilibrez vos haut-parleurs, vos appareils et votre environnement avant de vous précipiter sur les minutes supplémentaires.
- Étiquetage de composés de qualité. Un schéma clair et une AQ en plusieurs étapes surpassent les modifications en un seul passage.
- Évaluer par tranche. Suivre le WER par accent, appareil et bruit ; c'est là que se cache le risque produit.
- Combiner les sources de données. L'amorçage avec catalogues et adaptation personnalisée est souvent la méthode la plus rapide pour valoriser les données.
- La confidentialité est un produit. Intégrez le consentement, la dépersonnalisation et la vérifiabilité dès le premier jour.
Comment Shaip peut vous aider
Besoin de données vocales sur mesure ? Shaip propose des services de collecte, d'annotation et de transcription personnalisés, ainsi que des jeux de données prêts à l'emploi avec des transcriptions audio standard dans plus de 150 langues/variantes, soigneusement adaptés aux locuteurs, aux appareils et aux environnements.