Étude de cas : collecte d'énoncés

Livraison de plus de 7 millions d'énoncés pour créer des assistants numériques multilingues en 13 langues

Collection d'énoncés

Solution du monde réel

Des données qui alimentent les conversations mondiales

Le besoin de formation Utterance survient parce que tous les clients n'utilisent pas les mots ou phrases exacts lorsqu'ils interagissent ou posent des questions à leurs assistants vocaux dans un format scénarisé. C'est pourquoi des applications vocales spécifiques doivent être formées sur des données de parole spontanée. Par exemple, « Où se trouve l'hôpital le plus proche ? » « Trouver un hôpital près de chez moi » ou « Y a-t-il un hôpital à proximité ? » indiquent tous la même intention de recherche, mais sont formulés différemment.

Collection d'énoncés1

Problème

Pour exécuter la feuille de route vocale de l'assistant numérique des clients pour les langues du monde entier, l'équipe avait besoin d'acquérir de grands volumes de données de formation pour le modèle d'IA de reconnaissance vocale. Les exigences critiques du client étaient :

  • Acquérir de grands volumes de données de formation (invites d'énonciation d'un seul locuteur d'une durée maximale de 3 à 30 secondes) pour les services de reconnaissance vocale dans 13 langues mondiales
  • Pour chaque langue, le fournisseur générera des invites textuelles que les locuteurs devront enregistrer (sauf si le
    fournitures du client) et transcrivez l'audio résultant.
  • Fournir des données audio et la transcription des énoncés enregistrés avec les fichiers JSON correspondants
    contenant les métadonnées de tous les enregistrements.
  • Assurer un mélange diversifié de locuteurs par âge, sexe, éducation et dialecte
  • Assurer un mélange diversifié d'environnements d'enregistrement conformément aux spécifications.
  • Chaque enregistrement audio doit être d'au moins 16 kHz, mais de préférence de 44 kHz

Accélérez votre IA conversationnelle
développement d'applications à 100%

"Après avoir évalué de nombreux fournisseurs, le client a choisi Shaip en raison de son expertise dans les projets d'IA conversationnelle. Nous avons été impressionnés par la compétence d'exécution de projet de Shaip, son expertise pour trouver, transcrire et fournir les énoncés requis par des linguistes experts dans 13 langues dans des délais stricts et avec la qualité requise »

Solution

Grâce à notre compréhension approfondie de l'IA conversationnelle, nous avons aidé le client à collecter, transcrire et annoter les données avec une équipe de linguistes et d'annotateurs experts pour former leur suite vocale multilingue de traitement de la parole alimentée par l'IA.

L'étendue du travail de Shaip comprenait, mais sans s'y limiter, l'acquisition de grands volumes de données de formation audio pour la reconnaissance vocale, la transcription d'enregistrements audio dans plusieurs langues pour toutes les langues de notre feuille de route linguistique de niveaux 1 et 2, et la livraison correspondante JSON fichiers contenant les métadonnées. Shaip a collecté des énoncés de 3 à 30 secondes à grande échelle tout en maintenant les niveaux de qualité souhaités requis pour former des modèles ML pour des projets complexes.

  • Audio collecté, transcrit et annoté : 22,250 heures
  • Langues prises en charge: 13 (danois, coréen, arabe saoudien, néerlandais, chinois continental et taïwanais, canadien français, espagnol mexicain, turc, hindi, polonais, japonais, russe)
  • Nombre d'énoncés : 7M +
  • Chronologie: 7-8 mois

Suite vocale multilingue de traitement de la parole alimentée par Ai

Lors de la collecte d'énoncés audio à 16 kHz, nous avons assuré un mélange sain de locuteurs par âge, sexe, éducation et dialectes dans divers environnements d'enregistrement.

Résultat

Les données audio d'énonciation de haute qualité fournies par des linguistes experts ont permis au client de former avec précision son modèle de reconnaissance vocale multilingue dans 13 langues mondiales de niveaux 1 et 2. Avec des ensembles de données de formation de référence, le client peut offrir une assistance numérique intelligente et robuste pour résoudre les futurs problèmes du monde réel.

Données audio de haute qualité

Notre expertise

0 +
Heures de discours recueillies
0
Équipe de collecteurs de données vocales
0 %
Conforme aux IIP
0 +
Numéro cool
> 0
Acceptation et précision des données
0 +
Clientèle Fortune 500

Dites-nous comment nous pouvons vous aider avec votre prochaine initiative d'IA.