Étude de cas sur l'IA musicale
Collecte de données sur la voix chantée
Collection audio de chant basée sur la voix pour la formation des algorithmes d'égalisation et de compression : capturer la diversité linguistique et musicale
Résumé du projet
Shaip s'est associé à une entreprise technologique de premier plan pour collecter divers enregistrements audio de chant dans quatre langues prioritaires : le chinois, l'arabe, l'espagnol et le russe. Le projet visait à fournir des données de haute qualité pour la formation d'algorithmes d'égalisation et de compression basés sur l'IA, qui sont essentiels pour améliorer le traitement audio automatisé.
La collection comprenait 40 participants (10 par langue) de différents genres, avec un accent sur les enregistrements de qualité studio utilisant divers microphones et environnements.
Principales statistiques
langues 4: chinois, arabe, espagnol, russe
10 chanteurs /
langue (40 au total)
de 20 heures of
chant audio
Format audio: 48 kHz PCM, mono, WAV
Transcription audio dans les langues maternelles
Durée du projet:
18 Semaines
Description du projet
Collecte des Données
L'objectif était de collecter des enregistrements de chants en quatre langues ciblées, enregistrés par de vrais artistes de différents genres musicaux. Un environnement de studio a été utilisé pour garantir des enregistrements de haute qualité adaptés à la formation de modèles d'IA.
Exigences clés
- Participants: 10 chanteurs par langue, avec une répartition équilibrée des sexes (50% hommes, 50% femmes).
- Genres: Une variété de genres, auto-identifiés par l'artiste, validés pour la cohérence.
- Environnement d'enregistrement : Qualité studio, avec plusieurs réglages de microphone (dynamique, condensateur).
- Format audio: Fichiers PCM 48 kHz, mono, WAV, sans aucun traitement (par exemple, sans compression, égaliseur, réverbération).
- Transcription: Chansons à transcrire dans la langue dans laquelle elles sont chantées, avec des règles particulières pour les chansons bilingues.
- Langues: chinois, arabe, espagnol, russe
- Transcription
- Les transcriptions doivent être fournies dans la langue de l'enregistrement (par exemple, des lignes en hindi en devanagari, suivies de l'anglais).
- Assurez-vous que chaque segment ne dure pas plus de 15 secondes pour plus de clarté et de précision.
- Exigences relatives à l'enregistrement audio
- Minimum 3 réglages de microphone par session d'enregistrement.
- 3 minutes par chanson, avec 3 prises par chanson, assurant des enregistrements micro diversifiés pour chaque participant.
- Environnement acoustique de qualité studio sans bruit de fond.
Défis
Diversité des participants
Assurer une répartition équilibrée des chanteurs en fonction du sexe, du ton/de la hauteur de la voix et du genre musical était un défi complexe.
La cohérence des données
Maintenir des paramètres de microphone et un environnement cohérents tout en capturant diverses performances vocales dans plusieurs langues.
Contrôle de la qualité audio
Assurer un son de qualité studio sans bruit externe et une transcription précise dans plusieurs langues.
Solution
Shaip a fourni une solution complète pour répondre aux exigences du projet en :
- Recruter 40 chanteurs dans quatre langues et assurer une représentation diversifiée en termes de genre, de hauteur et de style musical.
- Réalisation d'enregistrements de qualité studio avec différents types de microphones (dynamiques, à condensateur) pour capturer une large gamme de données audio.
- Transcrire fidèlement les enregistrements dans les langues utilisées, en suivant des règles spécifiques pour les chansons bilingues.
- Consentement : Les formulaires de consentement seront collectés auprès de tous les participants avant l'enregistrement.
Résultat
Les diverses données audio de chant collectées ont permis au client de développer un ensemble d'entraînement robuste pour les algorithmes d'égalisation et de compression automatisés, améliorant ainsi la qualité du traitement audio. Les enregistrements de haute qualité et les métadonnées détaillées ont permis aux modèles d'IA de gérer divers genres musicaux et complexités linguistiques. Principaux résultats :
- Données audio diversifiées et de haute qualité pour la formation des systèmes d'IA.
- Transcription précise et métadonnées pour l'analyse.
- Une base plus solide pour les outils de traitement audio basés sur l’IA.
(produits) livrables
- 20 heures d'enregistrements audio de qualité studio (fichiers PCM 48 kHz, fichiers WAV mono).
- Transcriptions dans la langue de l'enregistrement.
- Métadonnées : marque/modèle du microphone, DAC/interface audio, profil du chanteur, informations sur le genre.
- Format JSON pour la transcription avec métadonnées.
La capacité de Shaip à saisir la diversité des talents musicaux et la richesse linguistique a été inestimable pour le développement de nos algorithmes d'égalisation et de compression. Son équipe a veillé à ce que chaque aspect, du recrutement des artistes à la qualité de l'enregistrement, soit traité avec précision, ce qui en fait une étape essentielle dans le perfectionnement de nos systèmes de traitement audio automatisés.
Nous sommes sincèrement reconnaissants de la confiance et de la collaboration dont Shaip a fait preuve tout au long du processus. Malgré nos exigences techniques strictes et difficiles, leur dévouement, leur travail acharné et leur souci du détail ont été exceptionnels. Ce fut un plaisir de travailler avec une équipe si déterminée à offrir l'excellence