Étude de cas : IA conversationnelle
Plus de 3 8 heures de données collectées, segmentées et transcrites pour créer un ASR dans XNUMX langues indiennes
BHASHINI, la plate-forme indienne de traduction linguistique basée sur l'IA, est un élément essentiel de l'initiative Digital India.
Conçue pour fournir des outils d'intelligence artificielle (IA) et de traitement du langage naturel (NLP) aux MPME, aux startups et aux innovateurs indépendants, la plateforme Bhashini sert de ressource publique. Son objectif est de promouvoir l'inclusion numérique en permettant aux citoyens indiens d'interagir avec les initiatives numériques du pays dans leur langue maternelle.
En outre, il vise à étendre considérablement la disponibilité du contenu Internet dans les langues indiennes. Ceci est particulièrement ciblé sur les domaines d'intérêt public tels que la gouvernance et la politique, la science et la technologie, etc. Par conséquent, cela incitera les citoyens à utiliser Internet dans leur propre langue, en promouvant leur participation active.
Exploiter la PNL pour permettre un écosystème diversifié de contributeurs, d'entités partenaires et de citoyens dans le but de transcender les barrières linguistiques, garantissant ainsi l'inclusion et l'autonomisation numériques
Solution du monde réel
Libérer la puissance de la localisation avec les données
L'Inde avait besoin d'une plate-forme qui se concentrerait sur la création d'ensembles de données multilingues et de solutions technologiques linguistiques basées sur l'IA afin de fournir des services numériques dans les langues indiennes. Pour lancer cette initiative, l'Institut indien de technologie de Madras (IIT Madras) s'est associé à Shaip pour collecter, segmenter et transcrire des ensembles de données en langue indienne afin de créer des modèles de parole multilingues.
Défis
Pour aider le client avec sa feuille de route vocale Speech Technology pour les langues indiennes, l'équipe devait acquérir, segmenter et transcrire de grands volumes de données de formation pour construire un modèle d'IA. Les exigences critiques du client étaient :
Collecte des Données
- Acquérir 3000 heures de données de formation dans 8 langues indiennes avec 4 dialectes par langue.
- Pour chaque langue, le fournisseur collectera Extempore Speech et
Discours conversationnel des groupes d'âge de 18 à 60 ans - Assurer un mélange diversifié de locuteurs par âge, sexe, éducation et dialectes
- Assurer un mélange diversifié d'environnements d'enregistrement conformément aux spécifications.
- Chaque enregistrement audio doit être d'au moins 16 kHz, mais de préférence de 44 kHz
Segmentation des données
- Créez des segments de parole de 15 secondes et horodatez l'audio en millisecondes pour chaque locuteur donné, type de son (parole, babillage, musique, bruit), tours, énoncés et phrases dans une conversation
- Créez chaque segment pour son signal sonore ciblé avec un rembourrage de 200 à 400 millisecondes au début et à la fin.
- Pour tous les segments, les objets suivants doivent être renseignés, c'est-à-dire l'heure de début, l'heure de fin, l'ID du segment, le niveau sonore, le type de son, le code de langue, l'ID du haut-parleur, etc.
Transcription des données
- Suivez les directives de transcription détaillées concernant les caractères et les symboles spéciaux, l'orthographe et la grammaire, la capitalisation, les abréviations, les contractions, les lettres individuelles parlées, les chiffres, les ponctuations, les acronymes, les disfluents, la parole, la parole inintelligible, les langues non ciblées, la non-parole, etc.
Contrôle de qualité et commentaires
- Tous les enregistrements doivent subir une évaluation et une validation de la qualité, seul le discours validé doit être prononcé
Solution
Grâce à notre compréhension approfondie de l'IA conversationnelle, nous avons aidé le client à collecter, segmenter et transcrire les données avec une équipe de collecteurs experts, de linguistes et d'annotateurs pour construire un vaste corpus de données audio dans 8 langues indiennes.
La portée du travail de Shaip comprenait, mais sans s'y limiter, l'acquisition de gros volumes de données de formation audio, la segmentation des enregistrements audio en plusieurs, la transcription des données et la livraison des fichiers JSON correspondants contenant les métadonnées [SpeakerID, Age, Gender, Language, Dialect,
Langue maternelle, qualification, profession, domaine, format de fichier, fréquence, canal, type d'audio, nombre de locuteurs, nombre de langues étrangères, configuration utilisée, audio à bande étroite ou à large bande, etc.].
Shaip a collecté 3000 XNUMX heures de données audio à grande échelle tout en maintenant les niveaux de qualité souhaités requis pour former la technologie vocale à des projets complexes. Un formulaire de consentement explicite a été prélevé sur chacun des participants.
1. Collecte de données