Étude de cas : IA conversationnelle

Plus de 3 8 heures de données collectées, segmentées et transcrites pour créer un ASR dans XNUMX langues indiennes

Recueil d'énoncés
Le gouvernement vise à permettre à ses citoyens d'accéder facilement aux services Internet et numériques dans leur propre langue maternelle grâce au projet Bhashini.

BHASHINI, la plate-forme indienne de traduction linguistique basée sur l'IA, est un élément essentiel de l'initiative Digital India.

Conçue pour fournir des outils d'intelligence artificielle (IA) et de traitement du langage naturel (NLP) aux MPME, aux startups et aux innovateurs indépendants, la plateforme Bhashini sert de ressource publique. Son objectif est de promouvoir l'inclusion numérique en permettant aux citoyens indiens d'interagir avec les initiatives numériques du pays dans leur langue maternelle.

En outre, il vise à étendre considérablement la disponibilité du contenu Internet dans les langues indiennes. Ceci est particulièrement ciblé sur les domaines d'intérêt public tels que la gouvernance et la politique, la science et la technologie, etc. Par conséquent, cela incitera les citoyens à utiliser Internet dans leur propre langue, en promouvant leur participation active.

Exploiter la PNL pour permettre un écosystème diversifié de contributeurs, d'entités partenaires et de citoyens dans le but de transcender les barrières linguistiques, garantissant ainsi l'inclusion et l'autonomisation numériques

Solution du monde réel

Libérer la puissance de la localisation avec les données

L'Inde avait besoin d'une plate-forme qui se concentrerait sur la création d'ensembles de données multilingues et de solutions technologiques linguistiques basées sur l'IA afin de fournir des services numériques dans les langues indiennes. Pour lancer cette initiative, l'Institut indien de technologie de Madras (IIT Madras) s'est associé à Shaip pour collecter, segmenter et transcrire des ensembles de données en langue indienne afin de créer des modèles de parole multilingues.

Défis

Pour aider le client avec sa feuille de route vocale Speech Technology pour les langues indiennes, l'équipe devait acquérir, segmenter et transcrire de grands volumes de données de formation pour construire un modèle d'IA. Les exigences critiques du client étaient :

Collecte des Données

  • Acquérir 3000 heures de données de formation dans 8 langues indiennes avec 4 dialectes par langue.
  • Pour chaque langue, le fournisseur collectera Extempore Speech et
    Discours conversationnel des groupes d'âge de 18 à 60 ans
  • Assurer un mélange diversifié de locuteurs par âge, sexe, éducation et dialectes
  • Assurer un mélange diversifié d'environnements d'enregistrement conformément aux spécifications.
  • Chaque enregistrement audio doit être d'au moins 16 kHz, mais de préférence de 44 kHz

Segmentation des données

  • Créez des segments de parole de 15 secondes et horodatez l'audio en millisecondes pour chaque locuteur donné, type de son (parole, babillage, musique, bruit), tours, énoncés et phrases dans une conversation
  • Créez chaque segment pour son signal sonore ciblé avec un rembourrage de 200 à 400 millisecondes au début et à la fin.
  • Pour tous les segments, les objets suivants doivent être renseignés, c'est-à-dire l'heure de début, l'heure de fin, l'ID du segment, le niveau sonore, le type de son, le code de langue, l'ID du haut-parleur, etc.

Transcription des données

  • Suivez les directives de transcription détaillées concernant les caractères et les symboles spéciaux, l'orthographe et la grammaire, la capitalisation, les abréviations, les contractions, les lettres individuelles parlées, les chiffres, les ponctuations, les acronymes, les disfluents, la parole, la parole inintelligible, les langues non ciblées, la non-parole, etc.

Contrôle de qualité et commentaires

  • Tous les enregistrements doivent subir une évaluation et une validation de la qualité, seul le discours validé doit être prononcé

Solution

Grâce à notre compréhension approfondie de l'IA conversationnelle, nous avons aidé le client à collecter, segmenter et transcrire les données avec une équipe de collecteurs experts, de linguistes et d'annotateurs pour construire un vaste corpus de données audio dans 8 langues indiennes.

La portée du travail de Shaip comprenait, mais sans s'y limiter, l'acquisition de gros volumes de données de formation audio, la segmentation des enregistrements audio en plusieurs, la transcription des données et la livraison des fichiers JSON correspondants contenant les métadonnées [SpeakerID, Age, Gender, Language, Dialect,
Langue maternelle, qualification, profession, domaine, format de fichier, fréquence, canal, type d'audio, nombre de locuteurs, nombre de langues étrangères, configuration utilisée, audio à bande étroite ou à large bande, etc.]. 

Shaip a collecté 3000 XNUMX heures de données audio à grande échelle tout en maintenant les niveaux de qualité souhaités requis pour former la technologie vocale à des projets complexes. Un formulaire de consentement explicite a été prélevé sur chacun des participants.

1. Collecte de données

2. Segmentation des données

  • Les données audio qui ont été collectées ont ensuite été divisées en segments de parole de 15 secondes chacun et horodatées à la milliseconde près pour chaque locuteur, type de son, tour, énoncé et phrase dans une conversation.
  • Création de chaque segment pour son signal sonore ciblé avec un rembourrage de 200 à 400 millisecondes au début et à la fin d'un signal sonore.
  • Pour tous les segments, les objets suivants étaient présents et remplis, c'est-à-dire l'heure de début, l'heure de fin, l'ID de segment, le niveau sonore (fort, normal, silencieux), le type de son principal (parole, babillage, musique, bruit, chevauchement), le code de langue ID, transcription, etc.

3. Contrôle de qualité et commentaires

  • Tous les enregistrements ont été évalués pour leur qualité et seuls les enregistrements vocaux validés avec WER de 90 % et TER de 90 % ont été livrés
  • Liste de contrôle de qualité suivie :
       » Max 15 secondes de longueur de segment
       » Transcription à partir de domaines spécifiques, à savoir : la météo, différents types d'actualités, la santé, l'agriculture, l'éducation, l'emploi ou la finance
       » Faible bruit de fond
       » Pas de clip audio désactivé - Pas de distorsion
       » Corriger la segmentation audio pour la transcription

4. Transcription des données
Tous les mots prononcés, y compris les hésitations, les mots de remplissage, les faux départs et autres tics verbaux, ont été capturés avec précision dans la transcription. Nous avons également suivi les directives de transcription détaillées concernant les lettres majuscules et minuscules, l'orthographe, les majuscules, les abréviations, les contractions, les chiffres,
ponctuation, acronymes, discours disfluent, bruits non vocaux, etc. De plus, le flux de travail suivi pour la collecte et la transcription est le suivant :

Résultat

Les données audio de haute qualité provenant de linguistes experts permettront à l'Indian Institute of Technology - Madras de former et de créer avec précision des modèles de reconnaissance vocale multilingues dans 8 langues indiennes avec différents dialectes dans les délais impartis. Les modèles de reconnaissance vocale peuvent être utilisés pour :

  • Surmonter la barrière de la langue pour l'inclusion numérique en connectant les citoyens aux initiatives dans leur propre langue maternelle.
  • Favorise la gouvernance numérique
  • Catalyseur pour former un écosystème de services et de produits en langues indiennes
  • Contenu numérique plus localisé dans les domaines d'intérêt public, en particulier la gouvernance et la politique
Or-5 étoiles

Nous avons été impressionnés par l'expertise de Shaip dans l'espace conversationnel de l'IA. Leur compétence globale d'exécution de projet à partir de la recherche, de la segmentation, de la transcription et de la fourniture des données de formation requises par des linguistes experts en 8 langues dans des délais et des directives stricts ; tout en maintenant le niveau de qualité acceptable.

Accélérez votre IA conversationnelle
développement d'applications à 100%

Clients en vedette

Donner aux équipes les moyens de créer des produits d'IA de pointe.