Collection audio d'expressions clés/d'invites

Étude de cas : Collection de phrases clés pour les systèmes à commande vocale embarqués

Recueil de phrases clés

Il y a une demande croissante de systèmes à commande vocale embarqués dans l'industrie automobile, redéfinissant la façon dont nous interagissons avec nos véhicules de mobilité.

L'industrie automobile a rapidement adopté des systèmes à commande vocale, avec des acteurs majeurs comme Ford, Tesla et BMW intégrant la reconnaissance vocale avancée dans leurs véhicules. D'ici 2022, on estimait que plus de 50 % des voitures neuves étaient dotées de capacités de reconnaissance vocale. Ces intégrations visent à améliorer la sécurité, permettant aux conducteurs d'utiliser les fonctions de navigation, de divertissement et de communication sans distractions.

La valeur marchande de la reconnaissance vocale dans les automobiles devrait dépasser le milliard de dollars d'ici 1, ce qui indique une demande croissante d'interactions mains libres et intelligentes dans la voiture.

Automobile

Les recherches suggèrent que d'ici 2022, 73 % des conducteurs utiliseront un assistant vocal embarqué.

Le marché des systèmes de reconnaissance vocale automobile était évalué à 2.01 milliards USD en 2021 et devrait atteindre 3.51 milliards USD d'ici 2027, enregistrant un TCAC d'environ 8.07%.

Solution du monde réel

Des données qui alimentent les systèmes à commande vocale

Les systèmes activés par la voix dans les voitures améliorent la sécurité et la commodité. Ils permettent aux conducteurs d'accéder à la navigation, de passer des appels, d'envoyer des SMS et de contrôler la musique sans lâcher le volant ni quitter la route des yeux. En répondant aux commandes verbales, ces systèmes réduisent la distraction, favorisent le multitâche et garantissent une concentration continue sur la conduite. 

Le client est un leader mondial de l'intelligence conversationnelle qui propose des solutions d'IA vocale qui permettent aux entreprises d'offrir des expériences conversationnelles incroyables à leurs clients. Ils travaillaient avec des constructeurs automobiles de premier plan pour former leurs systèmes à commande vocale avec des phrases clés de marque et avaient besoin de l'expertise de Shaip dans la collecte de données audio.

Solution du monde réel
Défis

Défis

  • Recherche de foule : Recrutez plus de 2800 locuteurs natifs par langue dans le monde.
  • Collecte des données : Sécurisez plus de 200 12 invites en XNUMX langues dans un délai défini.
  • Reconnaissance du contexte et de l'intention : Pour comprendre correctement les demandes des utilisateurs, les systèmes devaient être formés sur différentes variantes pour la même phrase clé.
  • Gestion du bruit de fond : Traitez le bruit de fond réel pour la précision du modèle ML.
  • Réduction du biais : Acquérir des échantillons de voix de divers groupes démographiques pour assurer l'inclusivité.
  • Spécifications audio : PCM 16 khz 16 bits, mono, monocanal, WAV ; aucun traitement.
  • Environnement d'enregistrement : Les enregistrements doivent avoir un son clair sans bruit de fond ni perturbation. Phrases clés à enregistrer en utilisant la parole normale.
  • Contrôle qualité:  Tous les enregistrements vocaux feront l'objet d'une évaluation de la qualité et d'une validation, seuls les enregistrements vocaux validés seront livrés. Si Shaip ne respecte pas les normes de qualité convenues, Shaip fournira à nouveau des données sans frais supplémentaires

Solution

Shaip, avec son expertise dans l'espace de l'IA conversationnelle, a permis au client :

  • Collecte des données : 208 12 phrases clés/invites de marque collectées dans 2800 langues mondiales auprès de XNUMX XNUMX locuteurs dans les délais impartis
  • Accents et dialectes divers : Des spécialistes recrutés du monde entier, maîtrisant les accents et dialectes souhaités.
  • Reconnaissance du contexte et de l'intention : Chaque intervenant a été chargé d'enregistrer les phrases clés dans 20 variantes distinctes, permettant aux modèles ML de saisir avec précision les demandes des utilisateurs en termes de contexte et d'intention.
  • Traitement du bruit de fond : Pour garantir une qualité audio irréprochable, nous nous sommes assurés que les phrases clés étaient capturées dans un environnement serein avec des niveaux de bruit inférieurs à 40 dB, sans perturbations de fond telles que la télévision, la radio, la musique, la parole ou les sons de la rue.
  • Réduction du biais : Pour minimiser les biais, nous avons engagé des personnes de diverses régions et maintenu une représentation démographique équilibrée avec 50 % d'hommes et 50 % de femmes, couvrant les tranches d'âge de 18 à 60 ans.
  • Consignes d'enregistrement : Les phrases clés ont été capturées dans un schéma de parole normal et cohérent, sans aucune variation telle qu'un rythme rapide ou lent. Silence de 2 secondes au début et à la fin pour garantir qu'aucune partie du discours n'a été coupée par inadvertance.
  • Format d'enregistrement : L'audio a été enregistré à 16 kHz, PCM 16 bits en mono, en utilisant un seul canal, et enregistré au format de fichier WAV. L'audio reste non traité, ce qui signifie qu'il n'y a pas eu d'application de compression, de réverbération ou d'égalisation.
  • Qualité: Chaque enregistrement vocal a été soumis à des contrôles de qualité et à une validation rigoureux. Seuls les enregistrements ayant réussi cette évaluation ont été livrés. Tous les fichiers qui ne respectaient pas les normes de qualité convenues ont été réenregistrés et fournis sans frais supplémentaires
Solution
Résultat

Résultat

Les données audio ou les invites vocales de la phrase clé de la marque de haute qualité permettront aux constructeurs automobiles et à leurs clients de :

  1. Image de marque et identité : Les invites vocales avec une phrase de marque spécifique aident les entreprises à créer une connexion directe et mémorable entre l'utilisateur et la marque qui améliore le rappel de la marque.
  2. Facilité d'Utilisation : Les commandes vocales permettent aux conducteurs d'interagir plus facilement avec le véhicule sans lâcher le volant ni quitter la route des yeux, améliorant ainsi la sécurité routière.
  3. Fonctionnalité: Les commandes vocales rendent l'accès et le contrôle des fonctionnalités de la voiture plus intuitifs. Qu'il s'agisse de navigation, de lecture multimédia ou de climatisation.
  4. Intégration avec d'autres systèmes : De nombreux systèmes à commande vocale sont intégrés aux smartphones, aux appareils domestiques intelligents et à d'autres appareils IoT. Par exemple, un utilisateur peut demander à sa voiture d'allumer les lumières de sa maison lorsqu'il s'approche de chez lui.
  5. Avantage concurrentiel: Offrir des systèmes avancés activés par la voix peut être un argument de vente et un différenciateur. Les acheteurs recherchent les dernières technologies lorsqu'ils envisagent d'acheter une nouvelle voiture.
  6. À l'épreuve du futur : À mesure que la technologie évolue et que l'IoT s'intègre davantage dans la vie quotidienne, le fait de disposer d'un système robuste à commande vocale permet aux entreprises automobiles de s'adapter davantage à la technologie future.
  7. Opportunités de revenus : Opportunités de monétisation supplémentaires, c'est-à-dire que les systèmes vocaux offrent des recommandations ou des expériences de commerce électronique intégrées (comme commander de la nourriture ou trouver des services à proximité) qui pourraient générer des revenus d'affiliation.
Or-5 étoiles

Lorsque nous avons commencé à fournir des invites vocales pour le secteur automobile, les défis étaient nombreux. Saisir la diversité des discours, des accents et des tons était essentiel pour représenter la clientèle mondiale de notre client. Shaip s'est démarqué non seulement en tant que fournisseur, mais en tant que véritable partenaire. Leur engagement à obtenir un large éventail de voix de différentes régions était louable. Ils sont allés au-delà du simple rassemblement de voix ; ils ont saisi les nuances des besoins de notre projet, garantissant des enregistrements de premier ordre. Leur adhésion sans faille aux normes de collecte audio a mis en évidence leur professionnalisme et leur dévouement au projet.

Accélérez votre IA conversationnelle
développement d'applications à 100%