Dans un pays aussi diversifié culturellement et riche linguistiquement que l'Inde, la construction d'une IA inclusive commence par la collecte d'ensembles de données représentatifs et de haute qualité. C'est la vision qui sous-tend ce projet. Projet Vaani—une initiative open source à grande échelle dirigée par PARC D'ART, IISc Bengaluru et Google, visant à donner une voix à chaque langue et dialecte indien.
L'objectif ambitieux ? Collectionner Plus de 150,000 XNUMX heures de discours , Plus de 15,000 XNUMX heures de transcriptions A partir de 1 millions de personnes à travers Districts 773 de l'Inde.
En tant que l’un des principaux fournisseurs de cette mission nationale, Shai a joué un rôle essentiel dans la conservation des données de parole spontanée, la transcription et la collecte de métadonnées, jetant ainsi les bases de technologies vocales équitables qui représentent véritablement la véritable Inde.
La vision derrière le projet Vaani
Le projet Vaani est conçu pour combler le fossé d’inclusion de l’IA en créant le le plus grand ensemble de données multimodales, multilingues et open source en Inde. Ces données sont fondamentales pour développer des systèmes précis de reconnaissance vocale, de traduction et d'IA générative dans les langues indiennes natives, dont beaucoup sont sous-représentées dans les écosystèmes technologiques mondiaux.
La vision à long terme est de développer des applications percutantes dans les domaines suivants :
- Mobilier Médical – Télémédecine vocale
- Cursus de formation – Plateformes d’apprentissage vernaculaire
- Gouvernance – Interfaces conversationnelles pour les services aux citoyens
- Accessibilité – Outils vocaux pour les utilisateurs handicapés
- Réponse désastreuse – Communication en temps réel dans les dialectes locaux
Comment Shaip a contribué à la création du plus grand ensemble de données vocales open source d'Inde pour le projet Vaani
Shaip s'est vu confier la collecte de 8,000 XNUMX heures de discours spontanés , 800 heures de transcriptions vérifiées manuellementNotre responsabilité couvrait l’intégration des intervenants, la capture audio, le balisage des métadonnées, la coordination de la transcription et le contrôle qualité.
8,000hXNUMX / Retour XNUMXhXNUMX de données audio spontanées
Enregistrements de Plus de 400 locuteurs natifs par district, représentant divers groupes d'âge, genres et dialectes
80 quartiers, couvert
Des invites basées sur des images pour garantir discours naturel et contextuel
Voici ce qui a rendu notre approche unique :
Diversité au niveau du district
Nous avons collecté des enregistrements provenant de 80 districts répartis dans des États comme le Bihar, l'Uttar Pradesh, le Karnataka, le Bengale-Occidental et le Maharashtra. Chaque district a fourni 100 heures de données audio, garantissant ainsi un équilibre régional. Nous avons fait appel à des locuteurs natifs, garantissant ainsi la représentation des accents et dialectes régionaux souvent négligés dans les bases de données d'IA classiques.
Représentation linguistique et démographique
Nous avons collecté des enregistrements provenant de 80 districts répartis dans des États comme le Bihar, l'Uttar Pradesh, le Karnataka, le Bengale-Occidental et le Maharashtra. Chaque district a fourni 100 heures de données audio, garantissant ainsi un équilibre régional. Nous avons fait appel à des locuteurs natifs, garantissant ainsi la représentation des accents et dialectes régionaux souvent négligés dans les bases de données d'IA classiques.
Discours inspiré par l'image
Afin de stimuler un vocabulaire spontané et naturel, les participants ont reçu 45 à 90 images par séance et ont été invités à les décrire. Ils ont été invités à utiliser diverses images, allant des symboles culturels aux objets du quotidien, pour susciter des réponses naturelles et spontanées dans leur langue maternelle. Cela a permis de garantir que les enregistrements reflétaient le discours contextuel du monde réel, essentiel à l'entraînement des systèmes de PNL avancés.
Normes de transcription de haute qualité
Seulement 10 % des données vocales ont été transcrites, soit 800 heures de travail. Les transcriptions ont été réalisées par des linguistes locaux dans un rayon de 20 à 50 km du locuteur, garantissant ainsi une bonne connaissance des dialectes et des nuances. Une vérification de deuxième niveau a permis de garantir un taux d'erreur de mots (TRE) inférieur à 5 %.
Assurance qualité stricte
Les données audio devaient répondre à des critères stricts : absence de bruit de fond, d'écho, de vibrations du téléphone ou de distorsion. L'enregistrement audio a été effectué dans des environnements calmes et sans écho. Les fichiers ont été rigoureusement examinés afin de garantir leur conformité aux normes de clarté vocale, de niveaux de bruit, de précision des métadonnées et de vérification du locuteur. Le marquage des métadonnées devait être précis pour tous les fichiers, et tous les enregistrements ont été vérifiés quant à l'alignement du locuteur et de l'emplacement.
Les défis que nous avons résolus
- Logistique à distance – Gestion d’équipes dans 80 districts
- Diversité des intervenants – Intégration de plus de 32,000 XNUMX intervenants vérifiés dans des endroits éloignés
- Sensibilité culturelle – Respecter les coutumes et les dialectes locaux
- Intégrité des données – Respect des normes de qualité et de conformité
- Contrôle de qualité – dans de multiples contextes linguistiques et culturels
Notre succès est dû à une planification méticuleuse, à une validation axée sur la technologie et à des partenariats avec des équipes locales qui comprenaient les nuances culturelles de chaque région.
Impact et applications
La contribution de Shaip a non seulement accéléré la progression du projet Vaani, mais a également posé les bases d'une IA inclusive en Inde. L'ensemble de données vocales organisées est déjà utilisé pour créer et affiner des modèles d'IA pour :
- Assistants vocaux vernaculaires
- Moteurs de traduction régionaux
- Outils de communication accessibles aux personnes malvoyantes
- Plateformes edtech pilotées par l'IA pour les étudiants ruraux
- Télémédecine rurale
- Services citoyens basés sur la voix
- Traduction et transcription en temps réel
Conclusion
Le projet Vaani est une étape audacieuse vers une IA inclusive et accessible, et Shaip est honoré de jouer un rôle fondamental. Le travail de Shaip sur le projet Vaani réaffirme notre engagement à construire des systèmes d’IA éthiques et inclusifs, ancrés dans la diversité et la représentation. Avec plus de 8,000 800 heures de discours collectées et XNUMX heures transcrites, nous sommes fiers d'avoir joué un rôle dans l'un des projets d'inclusion numérique les plus visionnaires de l'Inde.
Alors que le projet Vaani poursuit son objectif plus large de plus de 150,000 XNUMX heures de données, nous sommes prêts à soutenir la prochaine frontière de l'innovation en matière d'IA qui parle à - et pour - chaque Indien.
Vous souhaitez vous associer à nous pour créer une IA qui comprend le monde réel ? www.shaip.com