Données d'entraînement à la reconnaissance vocale

Données d'entraînement à la reconnaissance vocale - Types, collecte de données et applications

Si vous utilisez Siri, Alexa, Cortana, Amazon Echo ou d'autres dans le cadre de votre vie quotidienne, vous accepteriez que Reconnaissance de la parole est devenu une partie omniprésente de nos vies. Celles-ci alimenté par l'intelligence artificielle les assistants vocaux convertissent les requêtes verbales des utilisateurs en texte, interprètent et comprennent ce que dit l'utilisateur pour trouver une réponse appropriée.

Il est nécessaire de collecter des données de qualité pour développer des modèles fiables de reconnaissance vocale. Mais, en développant logiciel de reconnaissance de la parole n'est pas une tâche simple - précisément parce que transcrire la parole humaine dans toute sa complexité, comme le rythme, l'accent, la hauteur et la clarté, est difficile. Et, lorsque vous ajoutez des émotions à ce mélange complexe, cela devient un défi.

Qu'est-ce que la reconnaissance vocale ?

La reconnaissance vocale est la capacité d'un logiciel à reconnaître et à traiter discours humain en texte. Bien que la différence entre la reconnaissance vocale et la reconnaissance vocale puisse sembler subjective pour beaucoup, il existe des différences fondamentales entre les deux.

Bien que la reconnaissance vocale et la reconnaissance vocale fassent partie de la technologie de l'assistant vocal, elles remplissent deux fonctions différentes. La reconnaissance vocale effectue des transcriptions automatiques de la parole et des commandes humaines en texte, tandis que la reconnaissance vocale ne traite que de la reconnaissance de la voix de l'orateur.

Types de reconnaissance vocale

Avant de sauter dans types de reconnaissance vocale, examinons brièvement les données de reconnaissance vocale.

Les données de reconnaissance vocale sont une collection d'enregistrements audio de la parole humaine et de transcription de texte qui aident à former des systèmes d'apprentissage automatique pour reconnaissance vocale.

Les enregistrements audio et les transcriptions sont entrés dans le système ML afin que l'algorithme puisse être formé pour reconnaître les nuances de la parole et comprendre sa signification.

Bien qu'il existe de nombreux endroits où vous pouvez obtenir gratuitement des ensembles de données pré-emballés, il est préférable d'obtenir ensembles de données personnalisés pour vos projets. Vous pouvez sélectionner la taille de la collection, les exigences audio et de haut-parleur, et la langue en ayant un jeu de données personnalisé.

Spectre de données vocales

Données vocales Le spectre identifie la qualité et la hauteur de la parole allant du naturel au non naturel.

  • Données de reconnaissance vocale par script

    Comme son nom l'indique, la parole scénarisée est une forme contrôlée de données. Les locuteurs enregistrent des phrases spécifiques à partir d'un texte préparé. Ceux-ci sont généralement utilisés pour fournir des commandes, soulignant comment le mot ou phrase est dit plutôt que ce qui est dit.

    La reconnaissance vocale scénarisée peut être utilisée lors du développement d'un assistant vocal qui doit capter les commandes émises à l'aide d'accents variés.

  • Reconnaissance vocale basée sur des scénarios

    Dans un discours basé sur un scénario, on demande à l'orateur d'imaginer un scénario particulier et d'émettre un commande vocale basé sur le scénario. De cette façon, le résultat est une collection de commandes vocales qui ne sont pas scénarisées mais contrôlées.

    Les données vocales basées sur des scénarios sont requises par les développeurs qui cherchent à développer un appareil qui comprend la parole quotidienne avec ses diverses nuances. Par exemple, demander des directions pour aller au Pizza Hut le plus proche en utilisant une variété de questions.

  • Reconnaissance vocale naturelle

    Tout à fait à la fin du spectre de la parole se trouve la parole qui est spontanée, naturelle et non contrôlée de quelque manière que ce soit. L'orateur parle librement en utilisant son ton de conversation naturel, sa langue, sa hauteur et sa teneur.

    Si vous souhaitez entraîner une application basée sur ML sur la reconnaissance vocale multi-locuteurs, une application non scriptée ou discours conversationnel l'ensemble de données est utile.

Composants de collecte de données pour les projets Speech

Collecte de données vocales Une série d'étapes impliquées dans la collecte de données vocales garantit que les données collectées sont de qualité et aident à former des modèles basés sur l'IA de haute qualité.

Comprendre les réponses requises des utilisateurs

Commencez par comprendre les réponses utilisateur requises pour le modèle. Pour développer un modèle de reconnaissance vocale, vous devez rassembler des données qui représentent fidèlement le contenu dont vous avez besoin. Recueillez des données à partir d'interactions réelles pour comprendre les interactions et les réponses des utilisateurs. Si vous créez un assistant de chat basé sur l'IA, consultez les journaux de chat, les enregistrements d'appels, les réponses de la boîte de dialogue de chat pour créer un ensemble de données.

Examiner le langage spécifique au domaine

Vous avez besoin à la fois d'un contenu générique et d'un contenu spécifique à un domaine pour un ensemble de données de reconnaissance vocale. Une fois que vous avez collecté des données vocales génériques, vous devez passer au crible les données et séparer le générique du spécifique.

Par exemple, les clients peuvent appeler pour demander un rendez-vous pour vérifier le glaucome dans un centre de soins oculaires. Demander un rendez-vous est un terme très générique, mais le glaucome est spécifique à un domaine.

De plus, lors de l'entraînement d'un modèle ML de reconnaissance vocale, assurez-vous de l'entraîner à identifier des phrases plutôt qu'individuellement. mots reconnus.

Enregistrer la parole humaine

Après avoir collecté les données des deux étapes précédentes, l'étape suivante consisterait à amener les humains à enregistrer les déclarations collectées.

Il est essentiel de maintenir une longueur idéale du script. Demander aux gens de lire plus de 15 minutes de texte pourrait être contre-productif. Maintenez un intervalle minimum de 2 à 3 secondes entre chaque déclaration enregistrée.

Autoriser l'enregistrement à être dynamique

Construisez un référentiel vocal de différentes personnes, accents parlants, styles enregistrés dans différentes circonstances, appareils et environnements. Si la majorité des futurs utilisateurs vont utiliser la ligne fixe, votre base de données de collecte de parole doit avoir une représentation significative qui correspond à cette exigence.

Induire une variabilité dans l'enregistrement vocal

Une fois l'environnement cible configuré, demandez à vos sujets de collecte de données de lire le script préparé dans un environnement similaire. Demandez aux sujets de ne pas s'inquiéter des erreurs et de garder le rendu aussi naturel que possible. L'idée est d'avoir un grand groupe de personnes enregistrant le script dans le même environnement.

Transcrire les discours

Une fois que vous avez enregistré le script en utilisant plusieurs sujets (avec des erreurs), vous devez procéder à la transcription. Gardez les erreurs intactes, car cela vous aiderait à atteindre le dynamisme et la variété des données collectées.

Au lieu de demander à des humains de transcrire l'intégralité du texte mot à mot, vous pouvez impliquer un moteur de synthèse vocale pour effectuer la transcription. Cependant, nous vous suggérons également d'employer des transcripteurs humains pour corriger les erreurs.

Développer un jeu de test

Le développement d'un jeu de test est crucial car c'est un précurseur de la modèle de langage.

Faites une paire du discours et du texte correspondant et transformez-les en segments.

Après avoir rassemblé les éléments collectés, extraire un échantillonnage de 20%, qui constitue l'ensemble de test. Il ne s'agit pas de l'ensemble de formation, mais ces données extraites vous permettront de savoir si le modèle formé transcrit de l'audio sur lequel il n'a pas été formé.

Construire un modèle de formation linguistique et mesurer

Créez maintenant le modèle de langage de reconnaissance vocale à l'aide des instructions spécifiques au domaine et de variantes supplémentaires si nécessaire. Une fois que vous avez entraîné le modèle, vous devez commencer à le mesurer.

Prenez le modèle de formation (avec 80 % de segments audio sélectionnés) et testez-le par rapport à l'ensemble de test (ensemble de données extrait à 20 %) pour vérifier les prédictions et la fiabilité. Vérifiez les erreurs, les modèles et concentrez-vous sur les facteurs environnementaux qui peuvent être corrigés.

Cas d'utilisation ou applications possibles

Cas d'utilisation de la reconnaissance vocale

Application vocale, appareils intelligents, synthèse vocale, support client, dictée de contenu, application de sécurité, véhicules autonomes, prise de notes pour les soins de santé.

La reconnaissance vocale ouvre un monde de possibilités et l'adoption par les utilisateurs d'applications vocales a augmenté au fil des ans.

Certaines des applications courantes de technologie de reconnaissance vocale consistent à

  1. Application de recherche vocale

    Selon Google, environ 20% des recherches effectuées sur l'appli Google sont vocales. Huit milliards de personnes devraient utiliser des assistants vocaux d'ici 2023, une forte augmentation par rapport aux 6.4 milliards prévus en 2022.

    L'adoption de la recherche vocale a considérablement augmenté au fil des ans, et cette tendance devrait se poursuivre. Les consommateurs comptent sur la recherche vocale pour rechercher des requêtes, acheter des produits, localiser des entreprises, trouver des entreprises locales, etc.

  2. Appareils domestiques/Appareils intelligents

    La technologie de reconnaissance vocale est utilisée pour fournir des commandes vocales aux appareils intelligents domestiques tels que les téléviseurs, les lumières et autres appareils. 66% de consommateurs au Royaume-Uni, aux États-Unis et en Allemagne ont déclaré utiliser des assistants vocaux lors de l'utilisation d'appareils intelligents et de haut-parleurs.

  3. Discours au texte

    Les applications de synthèse vocale sont utilisées pour faciliter l'informatique libre lors de la saisie d'e-mails, de documents, de rapports et autres. Discours au texte élimine le temps nécessaire pour taper des documents, écrire des livres et des courriers, sous-titrer des vidéos et traduire du texte.

  4. Service à la clientèle

    Les applications de reconnaissance vocale sont principalement utilisées dans le service client et l'assistance. Un système de reconnaissance vocale aide à fournir des solutions de service client 24h/7 et XNUMXj/XNUMX à un coût abordable avec un nombre limité de représentants.

  5. Dictée de contenu

    La dictée de contenu en est une autre cas d'utilisation de la reconnaissance vocale qui aide les étudiants et les universitaires à rédiger un contenu complet en une fraction de temps. C'est très utile pour les étudiants défavorisés en raison de problèmes de cécité ou de vision.

  6. Application de sécurité

    La reconnaissance vocale est largement utilisée à des fins de sécurité et d'authentification en identifiant des caractéristiques vocales uniques. Au lieu de demander à la personne de s'identifier à l'aide d'informations personnelles volées ou utilisées à mauvais escient, la biométrie vocale augmente la sécurité.

    De plus, la reconnaissance vocale à des fins de sécurité a amélioré les niveaux de satisfaction des clients en supprimant le processus de connexion étendu et la duplication des informations d'identification.

  7. Commandes vocales pour véhicules

    Les véhicules, principalement les voitures, disposent désormais d'une fonction de reconnaissance vocale commune pour améliorer la sécurité de conduite. Il aide les conducteurs à se concentrer sur la conduite en acceptant des commandes vocales simples telles que sélectionner des stations de radio, passer des appels ou réduire le volume.

  8. Prise de notes pour les soins de santé

    Un logiciel de transcription médicale construit à l'aide d'algorithmes de reconnaissance vocale capture facilement les notes vocales, les commandes, les diagnostics et les symptômes des médecins. La prise de notes médicales augmente la qualité et l'urgence dans le secteur de la santé.

Vous avez un projet de reconnaissance vocale en tête qui peut transformer votre entreprise ? Tout ce dont vous pourriez avoir besoin est un ensemble de données de reconnaissance vocale personnalisé.

Un logiciel de reconnaissance vocale basé sur l'IA doit être formé sur des ensembles de données fiables sur des algorithmes d'apprentissage automatique pour intégrer la syntaxe, la grammaire, la structure des phrases, les émotions et les nuances de la parole humaine. Plus important encore, le logiciel doit continuellement apprendre et réagir – en grandissant à chaque interaction.

Chez Shaip, nous fournissons des ensembles de données de reconnaissance vocale entièrement personnalisés pour divers projets d'apprentissage automatique. Avec Shaip, vous avez accès au des données d'entraînement sur mesure de la plus haute qualité qui peuvent être utilisés pour construire et commercialiser un système de reconnaissance vocale fiable. Contactez nos experts pour une compréhension complète de nos offres.

[A également lu: Le guide complet de l'IA conversationnelle]

Partager