Invites de paiement UPI basées sur la voix : capturer la diversité pour des modèles d'IA améliorés

Tirer parti de l'expertise de Shaip en matière de création rapide et d'enregistrements audio diversifiés pour prendre en charge les systèmes de paiement UPI basés sur la voix avec des données de haute qualité et culturellement diversifiées.

Invites de paiement UPI basées sur la voix

Résumé du projet

Shaip s'est associé à une société fintech de premier plan pour développer une application de paiement vocale en créant et en enregistrant diverses invites de paiement UPI. Le projet impliquait la création de 2,500 87,000 invites uniques et de 13 200 invites diversifiées sur 45 intentions liées au paiement, telles que l'envoi d'argent, la demande d'argent, la demande de solde et le paiement de factures. Ces invites ont été enregistrées pendant plus de XNUMX heures par XNUMX locuteurs de régions, d'horizons et de groupes d'âge divers, garantissant une grande diversité linguistique et environnementale.

L’objectif du projet était de développer des données de formation de haute qualité pour un modèle d’IA capable de reconnaître et de répondre aux commandes vocales liées aux paiements UPI dans des contextes réels.

Paiement UPI par la voix

Principales statistiques

Heures audio d'enregistrement des messages de paiement UPI

200

Intervenants d'horizons divers (âge, éducation, région)

45

Intentions couvertes, avec plus de 87,000 XNUMX invites diversifiées

13

Langues: Anglais, avec des locuteurs de diverses langues maternelles (kumaoni, bengali, malayalam, gujarati, hindi, marathi, etc.)

Description du projet

Création rapide

Le projet comprenait la création d'invites uniques pour un système de paiement UPI basé sur la voix. Les invites ont été conçues pour couvrir plusieurs intentions, en veillant à ce qu'elles soient diverses en termes de structure, de vocabulaire et d'entités nommées. Certains aspects clés comprenaient :

13 intentions clés, dont :

  • Envoyer de l'argent: 65,653 XNUMX invites uniques et diversifiées
  • Demande de solde : 3,052 invites
  • Demande de l'argent: 26,972 invites
  • Historique des transactions, recharge, paiement de factures, etc.

Enregistrement audio

Pour garantir l'authenticité et l'applicabilité dans le monde réel, les messages ont été enregistrés par 45 locuteurs issus de différents horizons linguistiques. La diversité capturée à travers différentes langues maternelles, dialectes régionaux et environnements (intérieurs et extérieurs) a permis d'améliorer les données de formation.

  • Diversité linguistique : Les utilisateurs parlent couramment l'anglais mais avec des langues maternelles variées, telles que le kumaoni, le gujarati, l'hindi, le bengali, le marathi et le malayalam.
  • Âge, sexe et niveau d'éducation : Les données ont capturé un large éventail de données démographiques.
  • Intervenants urbains et ruraux : Afin de refléter l’utilisation dans le monde réel, des locuteurs urbains et ruraux ont été inclus.
  • Environnement d'enregistrement : Les enregistrements audio ont été réalisés en intérieur et en extérieur, avec une variété de bruits de fond inclus.

Défis

Diversité linguistique et régionale

Pour garantir que les invites reflètent les divers dialectes régionaux et les caractéristiques des locuteurs, une planification et une exécution minutieuses ont été nécessaires.

Variations audio naturelles

La gestion des bruits de fond et des conditions environnementales (intérieur et extérieur) était cruciale pour une application dans le monde réel.

Profils d'intervenants diversifiés

L’inclusion d’intervenants issus de groupes d’âge, de niveaux d’éducation et de régions rurales/urbaines différents a introduit une complexité dans la saisie de données authentiques.

Solution

Shaip a proposé une solution répondant aux défis du projet grâce à la mise en œuvre de techniques avancées de traitement automatique du langage naturel (TALN) et à une planification rigoureuse de la création et de l'enregistrement des consignes. Les principaux aspects de cette solution étaient les suivants :

Création rapide

  • 2,500 des invites uniques ont été créées, chacune diversifiée par sa structure et son vocabulaire.
  • 13 les intentions ont été couvertes, allant des demandes de paiement de base aux demandes plus complexes telles que l'historique des transactions et les paiements de factures.

Enregistrement audio

  • de 200 heures des enregistrements audio ont été réalisés par 45 utilisateurs, garantissant la diversité entre les langues maternelles, les environnements et les données démographiques des locuteurs.
  • Des environnements intérieurs et extérieurs ont été utilisés pour l'enregistrement afin de garantir une variation audio naturelle.
  • Les locuteurs représentaient une gamme de dialectes régionaux, garantissant une représentation linguistique précise.
Intention Envoyer Demande de solde Demande de l'argent Historique des transactions
Prompt Effectuez un paiement de vingt et un cents à Sumatri pour le loyer de la maison Je souhaite connaître le solde actuel de mon compte d'épargne. Pouvez-vous demander Raji, trois cent dix-huit roupies en cas d'urgence ? Montrez-moi l’historique de mes transactions par carte de débit.
Gujarati સુમાત્રીને ઘરના ભાડા પેટે એકવીસસો ચૂકવો હારા બચત ખાતામાં મારી વર્તમાન બેલેન્સ જાણ C'est vrai. શું તમે રાજી પાસેથી ઇમર્જન્સી માટે ત્રણસો અઢા Et vous? Il s'agit d'une autre personne.
Hindi सुमात्री को मकान किराए के लिए इक्कीस सौ रुपए का भुगतान करें। मैं अपने बचत खाते में वर्तमान शेष राशि जानना च ाहता हूँ। क्या आप राजी से किसी इमरजेंसी के लिए तीन सौ अठा Qu'est-ce que c'est que ça? मुझे मेरा डेबिट कार्ड का लेनदेन ब्यौरा दिखाओ।
Malayalam രണ്ടായിരത്തിഒരു C'est vrai. Je suis désolé C'est vrai. രാജിയോട് മുന്നൂറ്റി പതിനെട്ട് രൂപ അടിയന്തരാ Et vous? Il s'agit d'une solution à votre problème.
telugu ఇంటి అద్దె కోసం సుమత్రికి ఇరవై ఒక్క వంద చెల్ల ించండి నేను నా సేవింగ్స్ అకౌంట్ లో నా ప్రస్తుత బ్యాల C'est vrai. ఎమర్జెన్సీ కోసం రాజిని మూడు వందల పద్దెనిమిది Et toi? నా డెబిట్ కార్డ్ లావాదేవీ చరిత్రను నాకు చూపి ంచండి.
Bangla (বাংলা) বাড়ি ভাড়ার জন্য সুমাত্রিকে ২১,০০০ টাকা পরিশ োধ করুন আমি আমার সঞ্চয় অ্যাকাউন্টে বর্তমান ব্যালেন্ জানতে চাই। আপনি রাজির কাছে তাৎক্ষণিক অবস্থার জন্য Qu'est-ce que c'est que ça? আমার ডেবিট কার্ডের লেনদেনের ইতিহাস দেখান।
Marathi सुमात्रीला घराच्या भाड्यासाठी दोन हजार C'est vrai. मला माझ्या बचत खात्यातील सध्याचा शिल्लक C'est vrai. आपण राजीकडून तातडीसाठी तीनशे अठरा रुपये Et toi? C'est une bonne idée.

Le résultat

Les données audio de haute qualité et diversifiées fournies par Shaip ont permis au client de développer un système de paiement UPI basé sur la voix et piloté par l'IA, capable de reconnaître les commandes dans divers dialectes, environnements et contextes. Les données ont contribué à améliorer :

  • Reconnaissance vocale en temps réel dans des environnements complexes.
  • Transaction UPI plus précise manipulation pour une plus large gamme d'utilisateurs.
  • Évolutivité: Le projet pose des bases solides pour l’expansion vers d’autres langues indiennes.

(produits) livrables

  • de 200 heures de fichiers audio (format WAV PCM 8 kHz, mono)
  • 87,000 des invites diversifiées annotées avec des intentions uniques
  • Métadonnées: Profils des locuteurs, détails de l'environnement et précision de la transcription

La capacité de Shaip à capturer la diversité de l'Inde à travers des messages uniques et des enregistrements audio authentiques a changé la donne pour notre système de paiement UPI basé sur la voix. Son équipe a veillé à ce que chaque aspect du projet, de la création des messages à la qualité de l'enregistrement, soit traité avec précision, ce qui nous a aidé à créer un modèle de reconnaissance vocale plus inclusif et plus robuste.

Or-5 étoiles