Services de collecte de données vocales les plus fiables pour votre IA

Entraînez vos modèles NLP, VA, prototypes TTS et plus encore avec des données conversationnelles de qualité, avec nos services de collecte de données audio et vocales

Collecte de données audio

Découvrez les pipelines de données audio sans goulots d'étranglement

Clients en vedette

Services professionnels de collecte de données audio/vocales

N'importe quel sujet. N'importe quel scénario.

Chez Shaip, notre expertise réside dans la création d'ensembles de données vocales de haute qualité conçus pour répondre à diverses exigences d'IA/ML. Nous proposons une large gamme de langues et enregistrons dans divers contextes, ce qui rend nos ensembles de données complets et adaptables. ÔNotre objectif est d'alimenter les modèles avec le plus grand volume de données vocales personnalisées, dans les plus brefs délais. Avec nous à bord, vous pouvez vous attendre à : 

Collecte de discours
  • Données audio/vocales multilingues de haute qualité organisées pour améliorer la précision
  • Niveau de spécificité de domaine le plus élevé possible pour tscénario diversifié installation
  •  Faites évoluer votre modèle ML pour l'adapter à diverses données démographiques et verticales
  • Environnements d'enregistrement : Qualité studio, offrant un son cristallin avec un bruit de fond minimal, et Milieux naturels, où les enregistrements intègrent des sons ambiants pour imiter des situations du monde réel.

100+

Pays

55K +

Données sur les heures de parole

250+

Projets

60+

Langues (plus de 100 dialectes)

8 / 16 / 44 / 48 kHz

Taux d'échantillonnage

Notre expertise

Alignez les données audio pour des modèles NLP plus intelligents

Shaip propose des services de collecte de données vocales/audio de bout en bout dans plus de 100 langues pour permettre aux technologies vocales de répondre à un ensemble diversifié de publics à travers le monde. Nous pouvons travailler sur des projets de toute envergure et de toute taille; de la licence d'ensembles de données audio disponibles dans le commerce à la gestion de la collecte de données audio personnalisée, en passant par la transcription et l'annotation audio. Quelle que soit la taille de votre projet de collecte de données vocales, nous pouvons personnaliser les services de collecte audio en fonction de vos besoins pour créer des ensembles de données PNL de haute qualité qui ciblent les dialectes, les tons et les langues. Choisissez parmi notre large gamme d'ensembles de données vocales et de ressources de collecte de données audio, pour des configurations intelligentes permettant la voix.

Discours monologue

Collection de discours monologues

Il se concentre sur le traitement de la parole d’un seul locuteur. Utilisez des invites scriptées pour alimenter des fichiers audio monocanal, garantissant ainsi la capture de modèles de parole, de tonalités et de nuances uniques spécifiques à chaque individu.

Discours dialogué

Discours de dialogue
Collection

Interaction à deux, reproduisant des conversations et des dialogues du monde réel avec une exposition multilingue via des fichiers double canal et des ressources transcrites.

Conversations à plusieurs

Groupe / Muti-party
Conversations

Discussions à plusieurs, capturant la dynamique de groupe, les chevauchements et les tons variés afin de former avec précision des modèles de parole.

Énonciation en langage naturel

Collection d'énoncés en langage naturel

Entraînez les IA à identifier des phrases ou à réveiller des mots ayant des significations similaires à l’aide d’énoncés divers, riches et authentiques pour un traitement et une compréhension avancés du langage naturel.

Discours acoustique

Données acoustiques
Collection

Nous pouvons enregistrer professionnellement des données audio de qualité studio, qu'il s'agisse de restaurants, de bureaux ou de maisons ou provenant de divers environnements et langues, tout en couvrant une gamme acoustique plus large (ensembles de données sonores complets).

Reconnaissance vocale automatique

Reconnaissance vocale automatique (ASR)

Améliorez la précision de vos systèmes de reconnaissance automatique de la parole (ASR) en ayant accès à des ensembles de données vocales/audio diversifiés à la pointe de la technologie, à partir d'un large éventail de données démographiques.

Énonciation en langage naturel

Données multilingues d'entraînement vocal/audio

Nos professionnels des langues qualifiés, partout dans le monde, proposent des données audio/vocales multilingues dans diverses langues et dialectes. Cet effort favorise la communication mondiale et élimine les barrières linguistiques, contribuant ainsi à des solutions d’IA plus inclusives et plus efficaces.

Assistants virtuels numériques

Text-to-Speech
(TTS)

Créez un modèle multilingue de synthèse vocale (TTS) avec l'aide de notre main-d'œuvre mondiale, qui vous aide à collecter des données vocales dans plus de 150 langues et dialectes pour améliorer vos modèles d'IA, des commandes embarquées aux chatbots et solutions d'apprentissage avec une données audio de qualité.

Enregistrements du centre d'appels

Call Center
l'enregistrement

De véritables échanges entre agents et clients, prenant en charge de nombreuses langues telles que l'espagnol, l'allemand, l'anglais américain, le bengali, le japonais, le chinois et l'hindi.

Histoires de réussite

Ensembles de données d'IA conversationnelle avec plus de 3 8 heures de données dans XNUMX langues

Cherchant à créer une plate-forme multilingue pour les langues indiennes, le client s'est associé à Shaip pour collecter, segmenter et transcrire de grands ensembles de données dans plusieurs langues indiennes. Cela aiderait à développer des modèles vocaux efficaces qui pourraient alimenter la nouvelle plateforme innovante du client.

Problème: Plus de 3,000 8 heures de données audio collectées dans XNUMX langues indiennes, segmentées et transcrites pour développer la reconnaissance automatique de la parole.

Solution: Nous avons assuré la collecte, la segmentation, la transcription des données et livré des fichiers JSON avec des métadonnées. Nous avons collecté 3000 8 heures de données audio dans XNUMX langues indiennes à grande échelle pour le projet de technologie vocale du client.

Étude de cas sur la collecte de données vocales

Raisons de choisir Shaip comme partenaire de confiance pour la collecte de données vocales

Personnes

Personnes

Des équipes dédiées et formées:

  • Plus de 30,000 collaborateurs pour la création de données, l'étiquetage et le contrôle qualité
  • Équipe de gestion de projet accréditée
  • Équipe de développement de produits expérimentée
  • Équipe d'approvisionnement et d'intégration du pool de talents
Processus

Processus

Une efficacité de processus maximale est assurée avec:

  • Processus robuste 6 Sigma Stage-Gate
  • Une équipe dédiée de ceintures noires 6 Sigma – Responsables des processus clés & Conformité qualité
  • Amélioration continue et boucle de rétroaction
Plateforme

Plateforme

La plateforme brevetée offre des avantages :

  • Plateforme Web de bout en bout
  • Une qualité irréprochable
  • TAT plus rapide
  • Livraison transparente

Ensembles de données vocales/audio prêts à l'emploi

DétailsEnsemble de données linguistiquesTaux d'échantillonnageType de jeu de donnéesNombre total d'heures audioDescription courteDescription de l'ensemble de donnéesAudio ChannelPlate-forme d'enregistrementRET (%)Format audioFormat de transcriptionCase StudyNombre de haut-parleursCTA
La parolefr_US_CC_8Vernaculaire afro-américainVernaculaire afro-américainen_US8 kHzCentre d'appel211Données du centre d'appel vernaculaire afro-américainConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme : 612, Homme : 1242 et Inconnu : 12
La parolefr_US_MA_16Vernaculaire afro-américainVernaculaire afro-américainen_US16 kHzAudio multimédia154Données sur les médias vernaculaires afro-américainsFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme : 151, Homme : 150 et Inconnu : 10
La paroleAfrikaans_GC_8AfrikaansAfrikaansaf_ZA8 kHzConversation générale368Données de conversation générale en afrikaansConversation téléphonique non scénarisée entre deux personnes. Environ. Durée audio (plage) - 15 à 60 minutes, afrikaans parlé en AfriqueDoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme : 502, Homme : 390 et Inconnu : 2
La paroleAfrikaans_MA_16AfrikaansAfrikaansaf_ZA16 kHzAudio multimédia658Fichiers multimédias en afrikaansFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme : 750, Homme : 1278 et Inconnu : 52
La paroleArabe_GC_8ArabeArabear_AE8 kHzConversation générale292Données de conversation générale en arabeConversation téléphonique non scénarisée entre deux personnes. Environ. Durée audio (plage) - 15 à 60 minutes, arabe des pays du GolfeDoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme : 171, Homme : 534 et Inconnu : 1
La paroleArabe_SM_48ArabeArabear-SA48 kHzMonologue scénarisé1,947Monologue scénarisé en arabeEnregistrements à un seul énoncé, qui ont tendance à se situer entre 5 et 30 secondesMonoApplication mobile5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 838 Homme 1209 Inconnu 78
La paroleAssamais_CC_8AssamaisAssamais (en cours de développement) un péchéCentre d'appel60Données du centre d'appels assamais (en cours de développement)Conversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleAssamais_GCAssamaisAssamais (en cours de développement) un péchéConversation générale100Assamais (en pipeline) Données de conversation généralesConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleAssamais_MAAssamaisAssamais (en cours de développement) un péchéAudio multimédia40Données audio des médias assamais (en cours de développement)Fichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleBengali_CC_8BengaliBengali (en cours) bn_INCentre d'appel60Données du centre d'appels en bengali (en cours de développement)Conversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleBengali_GCBengaliBengali (en cours) bn_INConversation générale100Bengali (In Pipeline) Données de conversation généralesConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleBengali_MABengaliBengali (en cours) bn_INAudio multimédia40Bengali (In Pipeline) Données audio multimédiasFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleBoston_CC_8Boston anglaisBoston anglaisen_US8 kHzCentre d'appel177Données du centre d'appels de BostonConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme : 605, Homme : 711 et Inconnu : 0
La paroleBoston_GC_8Boston anglaisBoston anglaisen_US8 kHzConversation générale32Données de conversation générale de BostonConversation téléphonique non scénarisée entre deux personnes. Environ. Durée audio (gamme) - 15-60 minutes, DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme : 53, Homme : 83 et Inconnu : 0
La paroleBoston_MA_16Boston anglaisBoston anglaisen_US16 kHzAudio multimédia93Données audio de Boston MediaFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme : 43, Homme : 181 et Inconnu : 2
La paroleCanadien_SM_48Français canadienFrançais canadienfr-CA48 kHzMonologue scénarisé1,222Français canadienEnregistrements à un seul énoncé, qui ont tendance à se situer entre 5 et 30 secondesMonoApplication mobile5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 974 Homme 631 Inconnu 1
La paroleChinois_CC_8Anglais chinoisAnglais chinoisen_US8 kHzCentre d'appel169Données du centre d'appels chinoisConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme : 1790, Homme : 523 et Inconnu : 13
La paroleChinois_MA_16Anglais chinoisAnglais chinoisen_US16 kHzAudio multimédia249Données audio des médias chinoisFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme : 126, Homme : 346 et Inconnu : 6
La paroleChinois simplifié_SM_48Chinois simplifiéChinois simplifiézh-CN48 kHzMonologue scénarisé2,762Chinois simplifiéEnregistrements à un seul énoncé, qui ont tendance à se situer entre 5 et 30 secondesMonoApplication mobile5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 1920 Homme 1535 Inconnu 270
La paroleChinois traditionnel_SM_48ChinoisChinoiszh-TW48 kHzMonologue scénarisé1,028ChinoisEnregistrements à un seul énoncé, qui ont tendance à se situer entre 5 et 30 secondesMonoApplication mobile5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 1069 Homme 262 Inconnu 3
La paroleDanois_GC_8DanoisDanoisda_NSP8 kHzConversation générale372Données de conversation générale en danoisConversation téléphonique non scénarisée entre deux personnes. Environ. Durée audio (gamme) - 15-60 minutes, DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme : 311, Homme : 417, Inconnu : 0
La paroleDanois_MA_16DanoisDanoisda_NSP16 kHzAudio multimédia664Données audio des médias danoisFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme : 369, Homme : 864, Inconnu : 27
La paroleDanois_SM_48DanoisDanoisda-DK48 kHzMonologue scénarisé2,579Monologue scénarisé danoisEnregistrements à un seul énoncé, qui ont tendance à se situer entre 5 et 30 secondes, danois du DanemarkMonoApplication mobile5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 1551 Homme 1233 Inconnu 42
La paroleSud profond anglais_CC_8Anglais Grand SudAnglais Grand Suden_US8 kHzCentre d'appel151Données du centre d'appels du Sud profond anglaisConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 221 , Homme 1004 , Inconnu 7
La paroleSud profond anglais_GC_8Anglais Grand SudAnglais Grand Suden_US8 kHzConversation générale56Données de conversation générale en anglais Deep SouthConversation téléphonique non scénarisée entre deux personnes. Environ. Durée audio (gamme) - 15-60 minutes, DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 99, Homme 31, Inconnu 0
La paroleSud profond anglais_MA_16Anglais Grand SudAnglais Grand Suden_US16 kHzAudio multimédia266Données audio de Deep South Media en anglaisFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 204, Homme 356, Inconnu 21
La paroleAllemand_CC_8AllemandAllemandde-De8 kHzCentre d'appel64Données des centres d'appels allemands Conversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,MonoDesktop. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 478 Homme 1440 Inconnu 0
La paroleAllemand_IVR_8AllemandAllemandde-De8 kHz IVR200Données IVR allemandesDe l'humain à la machine. Un type de flux IVR où il y a une invite TTS (par exemple "Comment puis-je vous aider") suivie d'une réponse humaine spontanéeMonoDesktop. Wav .jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage Femme 10115 Homme 8750 Inconnu 0
La parolegujarati_CC_8GujaratiGujarati (en cours de développement) gu_INCentre d'appel60Données du centre d'appels en gujarati (en cours de développement)Conversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La parolegujarati_GCGujaratiGujarati (en cours de développement) gu_INConversation générale100Gujarati (In Pipeline) Données de conversation généralesConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La parolegujarati_MAGujaratiGujarati (en cours de développement) gu_INAudio multimédia40Gujarati (In Pipeline) Données audio des médiasFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleHébreu_Conversation générale_8HébreuHébreuil_IL8 kHzConversation générale399Données de conversation générale en hébreuConversation téléphonique non scénarisée entre deux personnes. Environ. Durée audio (gamme) - 15-60 minutes, hébreu en IsraëlDoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 414 , Homme 399 , Inconnu 1
La paroleHébreu_MA_16HébreuHébreuil_IL16 kHzAudio multimédia427Données audio des médias hébreuxFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 361, Homme 513, Inconnu 13
La paroleHindi_MA_16HindiHindiSalut dans16 kHzAudio multimédia219Données audio des médias hindiFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 83, Homme 309, Inconnu 0
La paroleHindi_SM_48HindiHindiSalut dans48 kHzMonologue scénarisé2,867Monologue écrit en hindiEnregistrements à un seul énoncé, qui ont tendance à se situer entre 5 et 30 secondesMonoApplication mobile5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 1977 Homme 1864 Inconnu 147
La paroleHINGLISH_CC_8HinglishHinglishhg_IN8 kHzCentre d'appel208HINGLISH Données du centre d'appelsConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 822, Homme 1262, Inconnu 0
La paroleHINGLISH_MA_16HinglishHinglishhg_IN16 kHzAudio multimédia216HINGLAIS Données audio multimédiaFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 75, Homme 380, Inconnu 0
La paroleHispanique_CC_8Anglais hispaniqueAnglais hispaniqueen_US8 kHzCentre d'appel212Données du centre d'appel hispaniqueConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 822, Homme 1262, Inconnu 0
La paroleHispanique_MA_16Anglais hispaniqueAnglais hispaniqueen_US16 kHzAudio multimédia155Audio des médias d'appel hispaniqueFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 140, Homme 219, Inconnu 5
La paroleIndonésien_GC_8IndonésienIndonésienJ'ai fait8 kHzConversation générale496Données de conversation générale en indonésienConversation téléphonique non scénarisée entre deux personnes. Environ. Durée audio (gamme) - 15-60 minutes, bahasa indonésienDoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 524, Homme 454, Inconnu 2
La paroleIndonésien_MA_16IndonésienIndonésienJ'ai fait16 kHzAudio multimédia643Données audio des médias indonésiensFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 746, Homme 1507, Inconnu 129
La paroleIrlandais_GC_8irlandaisirlandaisfr_FR8 kHzConversation générale192Données de conversation générale irlandaiseConversation téléphonique non scénarisée entre deux personnes. Environ. Durée audio (gamme) - 15-60 minutes, DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 213 , Homme 153 , Inconnu 0
La paroleJaponais_SM_48JaponaisJaponaisja-JP48 kHzMonologue scénarisé2,335Monologue scénarisé japonaisEnregistrements à un seul énoncé, qui ont tendance à se situer entre 5 et 30 secondesMonoApplication mobile5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 1460 Homme 1221 Inconnu 194
La paroleKannada_CC_8KannadaKannada (en cours de développement) kn_INCentre d'appel60Données du centre d'appels Kannada (en cours de développement)Conversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleKannada_GCKannadaKannada (en cours de développement) kn_INConversation générale100Kannada (In Pipeline) Données de conversation généralesConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleKannada_MAKannadaKannada (en cours de développement) kn_INAudio multimédia40Kannada (In Pipeline) Données audio multimédiasFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleCoréen_CC_8CoréenCoréenko_KR8 kHzCentre d'appel107Données du centre d'appels coréenConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 1086, Homme 210, Inconnu 4
La paroleCoréen_MA_16CoréenCoréenko_KR16 kHzAudio multimédia204Données audio des médias coréensFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 70 Homme 303, Inconnu 25
La paroleCoréen_SM_48CoréenCoréenko-KR48 kHzMonologue scénarisé1,955Monologue scénarisé coréenEnregistrements à un seul énoncé, qui ont tendance à se situer entre 5 et 30 secondesMonoApplication mobile5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 1195 Homme 1134 Inconnu 122
La paroleMalais_GC_8MalaisMalaisms_MY8 kHzConversation générale266Données de conversation générale en malaisConversation téléphonique non scénarisée entre deux personnes. Environ. Durée audio (plage) - 15 à 60 minutes, malais en MalaisieDoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 316, Homme 176, Inconnu 0
La paroleMalais_MA_16MalaisMalaisms_MY16 kHzAudio multimédia344Données audio des médias malaisFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 236, Homme 626, Inconnu 47
La paroleMalayalam_CC_8MalayalamMalayalam (en cours) ml_INCentre d'appel60Données du centre d'appels en malayalam (en cours de développement)Conversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleMalayalam_GCMalayalamMalayalam (en cours) ml_INConversation générale100Malayalam (In Pipeline) Données de conversation généralesConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleMalayalam_MAMalayalamMalayalam (en cours) ml_INAudio multimédia40Malayalam (In Pipeline) Données audio des médiasFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleMarathie_CC_8MarathiMarathi (en cours) monsieur_INCentre d'appel60Données du centre d'appels Marathi (en cours de développement)Conversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleMarathi_GCMarathiMarathi (en cours) monsieur_INConversation générale100Marathi (In Pipeline) Données de conversation généralesConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleMarathie_MAMarathiMarathi (en cours) monsieur_INAudio multimédia40Marathi (In Pipeline) Données audio des médiasFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleMexicain_SM_48Espagnol (Mexique)Espagnol (Mexique)es-MX48 kHzMonologue scénarisé1,492Monologue scénarisé espagnol mexicainEnregistrements à un seul énoncé, qui ont tendance à se situer entre 5 et 30 secondesMonoApplication mobile5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 1016 Homme 1069 Inconnu 95
La parolePays-Bas_SM_48NéerlandaisNéerlandaisfr-FR48 kHzMonologue scénarisé1,205Monologue scénarisé néerlandaisEnregistrements à un seul énoncé, qui ont tendance à se situer entre 5 et 30 secondesMonoApplication mobile5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 1285 Homme 531 Inconnu 3
La paroleNew York anglais_CC_8Anglais new-yorkaisAnglais new-yorkaisen_US8 kHzCentre d'appel103Données du centre d'appels anglais de New YorkConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 610, Homme 532, Inconnu 0
La paroleNew York Anglais_GC_8Anglais new-yorkaisAnglais new-yorkaisen_US8 kHzConversation générale107Données de conversation générale en anglais à New YorkConversation téléphonique non scénarisée entre deux personnes. Environ. Durée audio (gamme) - 15-60 minutes, DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 118, Homme 114, Inconnu 0
La paroleNew York Anglais_MA_16Anglais new-yorkaisAnglais new-yorkaisen_US16 kHzAudio multimédia140Données audio de New York English MediaFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 66, Homme 230, Inconnu 11
La paroleNouvelle-Zélande_GC_8Anglais néo-zélandais Anglais néo-zélandais fr_NZ8 kHzConversation générale148Données de conversation générale en anglais néo-zélandaisConversation téléphonique non scénarisée entre deux personnes. Environ. Durée audio (gamme) - 15-60 minutes, DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 167, homme 121, Inconnu 4
La paroleNouvelle-Zélande_MA_16Anglais néo-zélandais Anglais néo-zélandais fr_NZ16 kHzAudio multimédia400Audio des médias anglais néo-zélandaisFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 367, homme 678, Inconnu 26
La paroleOriya_CC_8OriyaOriya (en cours) ou_INCentre d'appel60Données du centre d'appels Oriya (en cours de développement)Conversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleOriya_GCOriyaOriya (en cours) ou_INConversation générale100Oriya (In Pipeline) Données de conversation généralesConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleOriya_MAOriyaOriya (en cours) ou_INAudio multimédia40Oriya (In Pipeline) Données audio multimédiasFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La parolePolonais_MA_16PolonaisPolonaispl_PL16 kHzAudio multimédia269Audio des médias polonaisFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 173 Homme 354 Inconnu 6
La parolePolonais Pologne_SM_48Polonais (Pologne)Polonais (Pologne)pl-PL48 kHzMonologue scénarisé1,482Pologne polonaise - Monologue scénariséEnregistrements à un seul énoncé, qui ont tendance à se situer entre 5 et 30 secondesMonoApplication mobile5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 1324 Homme 701 Inconnu 24
La parolePendjabi_CC_8PunjabiPunjabi (en préparation) PunjabiCentre d'appel60Punjabi (In Pipeline) Données du centre d'appelsConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La parolePendjabi_GCPunjabiPunjabi (en préparation) PunjabiConversation générale100Punjabi (In Pipeline) Données de conversation généralesConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La parolePendjabi_MAPunjabiPunjabi (en préparation) Punjabi Audio multimédia40Punjabi (In Pipeline) Données audio des médiasFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleRusse_SM_48RusseRusseru-RU48 kHzMonologue scénarisé2,398Monologue scénarisé russeEnregistrements à un seul énoncé, qui ont tendance à se situer entre 5 et 30 secondesMonoApplication mobile5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 1689 Homme 1937 Inconnu 214
La paroleÉcossais_GC_8Écossais (accent anglais)Écossais (accent anglais)fr_AB8 kHzConversation générale292Données de conversation générale écossaiseConversation téléphonique non scénarisée entre deux personnes. Environ. Durée audio (gamme) - 15-60 minutes, DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 285, Homme 260, Inconnu 3
La paroleSingapour_CC_8Anglais de SingapourAnglais de Singapourfr_SG8 kHzCentre d'appel218Données du centre d'appels de SingapourConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 2139, Homme 884, Inconnu 21
La paroleSingapour_MA_16Anglais de SingapourAnglais de Singapourfr_SG16 kHzAudio multimédia247Données audio de Singapour MediaFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 160, Homme 455, Inconnu 37
La paroleAnglais sud-africain_CC_8Anglais sud-africainAnglais sud-africainfr_ZA8 kHzCentre d'appel261Données du centre d'appels anglais sud-africainConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 1274 , Homme 935 , Inconnu 1
La paroleAnglais sud-africain_MA_16Anglais sud-africainAnglais sud-africainfr_ZA16 kHzAudio multimédia251Données audio des médias anglais sud-africainsFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 235, Homme 432, Inconnu 36
La paroleSwahili_CC_8SwahiliSwahilisw_KE8 kHzCentre d'appel230Données du centre d'appels en swahiliConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 611, Homme 833, Inconnu 0
La paroleSwahili_MA_16SwahiliSwahilisw_KE16 kHzAudio multimédia265Données audio du média swahiliFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 118, Homme 493, Inconnu 25
La paroleSuédois_CC_8SuédoisSuédoissv_SE8 kHzCentre d'appel250Données du centre d'appels suédoisConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 1581, homme 727, Inconnu 2
La paroleSuédois_MA_16SuédoisSuédoissv_SE16 kHzAudio multimédia278Données audio des médias suédoisFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 195, homme 500, Inconnu 21
La paroleTamoul_CC_8TamoulTamoul (en cours de développement) ta_INCentre d'appel60Données du centre d'appel tamoul (en cours de développement)Conversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleTamoul_GCTamoulTamoul (en cours de développement) ta_INConversation générale100Tamil (In Pipeline) Données de conversation généralesConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleTamoul_MATamoul Tamoul (en cours de développement) ta_INAudio multimédia40Tamil (In Pipeline) Données audio des médiasFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleTelugu_GC_8telugutelugute_IN8 kHzConversation générale553Données de conversation générale en télougouConversation téléphonique non scénarisée entre deux personnes. Environ. Durée audio (gamme) - 15-60 minutes, DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 574, Homme 564, Inconnu 0
La paroleTelugu_MA_16telugutelugute_IN16 kHzAudio multimédia648Données audio Telugu MediaFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 207, Homme 963, Inconnu 2
La paroleTelugu_CC_8teluguTelugu (en cours) te_INCentre d'appel30Données du centre d'appels Telugu (In Pipeline)Conversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleTelugu_GCteluguTelugu (en cours) te_INConversation générale50Telugu (In Pipeline) Données de conversation généralesConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,Desktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleTelugu_MAteluguTelugu (en cours) te_INAudio multimédia20Telugu (In Pipeline) Données audio multimédiasFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage
La paroleThaï_GC_8ThaïlandaisThaïlandaisth_TH8 kHzConversation générale183Conversation générale thaïlandaiseConversation téléphonique non scénarisée entre deux personnes. Environ. Durée audio (gamme) - 15-60 minutes, Un registre informel utilisé entre amisDoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 338, Homme 96, Inconnu 8
La paroleThaï_MA_8ThaïlandaisThaïlandaisth_TH16 kHzAudio multimédia173Audio des médias thaïlandaisFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 143, Homme 502, Inconnu 26
La paroleTurc Turquie_SM_48Turc TurquieTurc Turquietr-TR48 kHzMonologue scénarisé2,027Turc TurquieEnregistrements à un seul énoncé, qui ont tendance à se situer entre 5 et 30 secondesMonoApplication mobile5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 1561 Homme 1241 Inconnu 31
La paroleVietnamien_GC_8VietnamienVietnamienfr_VN8 kHzConversation générale295Données de conversation générale en vietnamienConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes, nord (par exemple, Hanoi), centre et sud (par exemple, Ho Chi Minh-Ville).DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 400, homme 380, inconnus 2
La paroleVietnamien_MA_16VietnamienVietnamienfr_VN16 kHzAudio multimédia257Données audio des médias vietnamiensFichiers audio/vidéo du domaine public sous licence tels que des interviews, des podcasts, etc. - 1 à 5 personnes. Environ. Durée audio (plage) 15-60 minutesMonoSourcing Web5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 249, homme 200, inconnus 45
La paroleGallois_GC_8Gallois (accent anglais)Gallois (accent anglais)fr_WL8 kHzConversation générale278Données de conversation générale en galloisConversation téléphonique synthétique non scénarisée entre "agent" et "client", env. Durée audio (plage) 5-15 minutes,DoubleDesktop5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageFemme 270, Homme 324, Inconnu 0
La paroleAnglais britannique_WW_16Anglais britanniqueAnglais britanniquefr_fr16 kHzWake WordConférenciers 200Wake Word anglais britanniquephrases clés collecte de données
  • Haut-parleurs 200
  • 4 phrases clés uniques par intervenant
  • 25-30 enregistrements répétés de phrases clés par phrase clé unique
  • 25 à 30 fichiers audio par phrase clé unique
  • 120 paroles enregistrées au total par locuteur
1 canauxApplication mobile5.0. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageSexe : 50 % masculin, 50 % féminin, +/- 10 %.

Services offerts

La collecte de données audio par des experts n'est pas un jeu d'enfant pour les configurations complètes de l'IA. Chez Shaip, vous pouvez même envisager les services suivants pour rendre les modèles beaucoup plus répandus que d'habitude :

Collecte de données textuelles

Collecte de données textuelles
Services

La vraie valeur des services de collecte de données cognitives de Shaip est qu'ils donnent aux organisations la clé pour déverrouiller les informations critiques trouvées dans les données non structurées

Collecte de données d'images

Services de collecte de données d'images

Assurez-vous que votre modèle de vision par ordinateur identifie chaque image avec précision, pour former de manière transparente les modèles d'IA de nouvelle génération du futur

Collecte de données vidéo

Services de collecte de données vidéo

Concentrez-vous maintenant sur la vision par ordinateur avec la PNL pour entraîner vos modèles à identifier les objets, les individus, les dissuasifs et autres éléments visuels à la perfection

Shaip nous contacter

Vous souhaitez créer votre propre ensemble de données audio ?

Connectez-vous avec notre expert interne en collecte de données vocales pour mettre en place un référentiel audio qui correspond le mieux à vos besoins

  • En m'inscrivant, je suis d'accord avec Shaip Politique de confidentialité et Conditions d'utilisation et donner mon consentement pour recevoir des communications marketing B2B de Shaip.

La collecte de données vocales pour un modèle ML fait référence au processus de collecte d'enregistrements audio de la langue parlée. Cette collection aide à former et à affiner les algorithmes d'apprentissage automatique, en particulier ceux centrés sur la compréhension et le traitement des voix humaines.

Lorsque vous souhaitez collecter des données audio pour la reconnaissance automatique de la parole (ASR), vous devez commencer par définir les besoins spécifiques de votre projet, notamment la langue, l'accent et le type de parole souhaités. Après avoir défini ces paramètres, assurez-vous d'obtenir toutes les autorisations nécessaires pour respecter la confidentialité des utilisateurs. Ensuite, utilisez des appareils ou des logiciels d'enregistrement appropriés pour capturer des échantillons audio clairs. Chaque enregistrement doit être méticuleusement annoté avec sa transcription ou d'autres métadonnées pertinentes et stocké systématiquement pour un accès sans effort.

Un ensemble de données vocales dans l'apprentissage automatique est essentiel pour former, tester et valider des modèles adaptés à la reconnaissance, à la transcription ou à l'interprétation du langage parlé. De tels ensembles de données ouvrent la voie à une myriade d’applications, depuis les assistants vocaux et les services de transcription jusqu’à la biométrie vocale.

Pour collecter des données précises sur diverses langues et accents, la collaboration avec des locuteurs natifs des milieux linguistiques souhaités est vitale. Visez un échantillon varié et représentatif pour couvrir un large spectre de nuances démographiques. Utilisez un équipement d’enregistrement standardisé dans des environnements uniformes pour garantir la cohérence audio. Et surtout, annotez chaque élément de données avec des transcriptions et des métadonnées détaillées, indiquant la langue et l'accent spécifiques.