IA conversationnelle : reconnaissance vocale automatique

Plus de 8 800 heures audio collectées, XNUMX heures transcrites pour la technologie vocale multilingue

IA conversationnelle

Introduction

L'Inde avait besoin d'une plate-forme axée sur la création d'ensembles de données multilingues et de solutions technologiques linguistiques basées sur l'IA afin de fournir des services numériques dans les langues indiennes. Pour lancer cette initiative, le client s'est associé à Shaip pour collecter et transcrire la langue indienne afin de créer des modèles vocaux multilingues.

Volume

Heures de données collectées
10
Nombre de pages annotées
10 +
Durée du projet
< 1 mois

Défis

Pour aider le client avec sa feuille de route vocale en matière de technologie vocale pour les langues indiennes, l'équipe devait acquérir, segmenter et transcrire de grands volumes de données de formation pour créer un modèle d'IA. Les exigences critiques du client étaient :

Collecte des Données

  • Acquérir 8000 XNUMX heures de données de formation à partir de sites éloignés de l'Inde
  • Le fournisseur pour collecter la parole spontanée des tranches d'âge de 20 à 70 ans
  • Assurer un mélange diversifié de locuteurs par âge, sexe, éducation et dialectes
  • Chaque enregistrement audio doit être d'au moins 16 kHz avec 16 bits/échantillon.
Collecte de données

Transcription des données

Suivez les directives de transcription détaillées concernant les caractères et les symboles spéciaux, l'orthographe et la grammaire, les majuscules, les abréviations, les contractions, les lettres parlées individuelles, les chiffres, les ponctuations, les acronymes et les initiales, la parole disfluente, la parole inintelligible, les langues non cibles, la non-parole.

Transcription des données

Contrôle de qualité et commentaires

Tous les enregistrements doivent subir une évaluation et une validation de la qualité, seuls les enregistrements vocaux validés doivent être livrés

Solution

Grâce à notre compréhension approfondie de l'IA conversationnelle, nous avons aidé le client à collecter et transcrire les données audio avec une équipe de collectionneurs experts, de linguistes et d'annotateurs pour créer un vaste corpus de données audio provenant de régions reculées de l'Inde.

L'étendue du travail de Shaip comprenait, sans toutefois s'y limiter, l'acquisition de grands volumes de données de formation audio, la transcription des données et la livraison des fichiers JSON correspondants contenant les métadonnées [pour les locuteurs et les transcripteurs. Pour chaque locuteur, les métadonnées comprennent un identifiant anonymisé, les détails de l'appareil, des informations démographiques telles que le sexe, l'âge et l'éducation, ainsi que leur code PIN, leur statut socio-économique, les langues parlées et un enregistrement de la durée de leur séjour. Pour chaque transcripteur, les données intègrent un identifiant de transcripteur anonymisé, des détails démographiques similaires à ceux des locuteurs, la durée de leur expérience de transcription et une répartition approfondie des langues qu'ils peuvent lire, écrire et parler.

Shaip collecté 8000 heures de données audio / Discours spontané à grande échelle et transcrit 800 heures tout en maintenant les niveaux de qualité souhaités requis pour former la technologie vocale à des projets complexes. Un formulaire de consentement explicite a été obtenu auprès de chacun des participants. Les discours spontanés recueillis étaient basés sur des images fournies par l'université. De 3500 images 1000 sont génériques et 2500 se rapportent à la culture, aux festivals, etc. spécifiques au quartier. Les images représentent divers domaines tels que les gares, les marchés, la météo, etc.

Collecte des Données

RégionDistrictsHeures audioTranscription
(Heures)
BiharSaran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttapradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
Bengale de l'ouestPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaNord+Sud de Goa10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Total8000800

Conditions générales

Format

    • Audio à 16 kHz, 16 bits/échantillon.
    • Canal unique.
    • Audio brut sans transcodage.

Style

    • Discours spontané.
    • Phrases basées sur des images fournies par l'Université. Sur 3500 1000 images, 2500 XNUMX sont génériques et XNUMX XNUMX se rapportent à la culture, aux festivals, etc. d'un quartier spécifique. Les images représentent divers domaines tels que les gares, les marchés, la météo, etc.

Arrière-plan d'enregistrement

    • Enregistré dans un environnement calme et sans écho.
    • Aucune perturbation du smartphone (vibration ou notifications) pendant l'enregistrement.
    • Pas de distorsions comme l'écrêtage ou les effets de champ lointain.
    • Vibrations du téléphone inacceptables ; les vibrations externes sont tolérables si le son est clair.

Spécifications du haut-parleur

    • Tranche d’âge de 20 à 70 ans avec une répartition équilibrée entre les sexes par district.
    • Minimum de 400 locuteurs natifs dans chaque district.
    • Les locuteurs doivent utiliser leur langue/dialecte d’origine.
    • Formulaires de consentement obligatoires pour tous les participants.


Contrôle qualité et assurance qualité critique

Le processus d’assurance qualité donne la priorité à l’assurance qualité des enregistrements audio et des transcriptions. Les normes audio se concentrent sur des silences précis, la durée des segments, la clarté d'un seul locuteur et des métadonnées détaillées, notamment l'âge et le statut socio-économique. Les critères de transcription mettent l'accent sur l'exactitude des balises, la véracité des mots et les détails corrects des segments. Le critère d'acceptation stipule que si plus de 20 % d'un lot audio ne répond pas à ces normes, il est rejeté. Pour des écarts inférieurs à 20 %, des enregistrements de remplacement avec des profils similaires sont requis.

Transcription des données

Les directives de transcription mettent l’accent sur l’exactitude et la transcription textuelle uniquement lorsque les mots sont clairs et compréhensibles ; les mots peu clairs sont marqués comme [inintelligible] ou [inaudible] en fonction du problème. Les limites des phrases dans les fichiers audio longs sont marquées par , et aucune paraphrase ou correction d’erreurs grammaticales n’est autorisée. La transcription textuelle couvre les erreurs, les argots et les répétitions, mais omet les faux départs, les sons de remplissage et les bégaiements. Les bruits de fond et de premier plan sont transcrits avec des balises descriptives, tandis que les noms propres, les titres et les numéros suivent des règles de transcription spécifiques. Les étiquettes des locuteurs sont utilisées pour chaque phrase et les phrases incomplètes sont indiquées par .

Flux de travail du projet

Le flux de travail décrit le processus de transcription audio. Cela commence par l’intégration et la formation des participants. Ils enregistrent l'audio à l'aide d'une application téléchargée sur une plateforme d'assurance qualité. Cet audio est soumis à des contrôles de qualité et à une segmentation automatique. L'équipe technique prépare ensuite les segments pour la transcription. Après la transcription manuelle, il y a une étape d’assurance qualité. Les transcriptions sont remises au client, et si elles sont acceptées, la livraison est réputée complète. Dans le cas contraire, des révisions sont apportées en fonction des commentaires des clients.

Résultat

Les données audio de haute qualité provenant de linguistes experts permettront à notre client de former et de construire avec précision des modèles de reconnaissance vocale multilingues dans diverses langues indiennes avec différents dialectes dans les délais impartis. Les modèles de reconnaissance vocale peuvent être utilisés pour :

  • Surmonter la barrière de la langue pour l'inclusion numérique en connectant les citoyens aux initiatives dans leur propre langue maternelle.
  • Favorise la gouvernance numérique
  • Catalyseur pour former un écosystème de services et de produits en langues indiennes
  • Contenu numérique plus localisé dans les domaines d'intérêt public, en particulier la gouvernance et la politique

Nous sommes impressionnés par l'expertise de Shaip dans le domaine de l'IA conversationnelle. La tâche consistant à traiter 8000 800 heures de données audio ainsi que 80 heures de transcription dans XNUMX districts différents était pour le moins monumentale. C'est la profonde compréhension de Shaip des détails et des nuances complexes de ce domaine qui a rendu possible l'exécution réussie d'un projet aussi ambitieux. Leur capacité à gérer et à naviguer de manière transparente dans les complexités de cette grande quantité de données tout en garantissant une qualité irréprochable est vraiment louable.

Or-5 étoiles

Accélérez votre IA conversationnelle
développement d'applications à 100%