Obtenez maintenant RÉDUCTION DE 50* sur les ensembles de données prêts à l'emploi de l'IA conversationnelle

Ensemble de données vocales et audio pour les chatbots, les assistants vocaux et les appareils à reconnaissance vocale.

* Offre à durée limitée

  • En m'inscrivant, je suis d'accord avec Shaip Données privées ainsi que le Conditions d'utilisation et donner mon consentement pour recevoir des communications marketing B2B de Shaip.

Reconnu par les leaders de l'industrie

DétailsEnsemble de données linguistiques prêt à l'emploiConversations du centre d'appels 8khz*Conversations génériques 8khz*Médias et podcasts 16khz*Énoncé/Monologue scénarisé 16 khz*Volume total en heuresDialectes couvertsFormat audioFormat de transcription de texteCase StudyIdentifierCTA
La paroleAfrikaansEnsemble de données audio afrikaans6009001500Afrikaans parlé en Afrique. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleArabeEnsemble de données audio arabe80015002300Arabe des pays du Golfe. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleChinoisEnsemble de données audio chinois20002000Chinois de Chine. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleDanoisEnsemble de données audio danois40060020003000Danois du Danemark. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleNéerlandaisEnsemble de données audio néerlandais20002000Néerlandais des Pays-Bas. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleAnglais - Accent AAVEAnglais - Ensemble de données audio AAVE (anglais vernaculaire afro-américain)5005001000La variété vernaculaire (parfois connue sous le nom d'AAVE, généralement parlée par la grande majorité des Afro-Américains de la classe ouvrière et moyenne) et la variété plus standard (généralement parlée par les Afro-Américains de la classe moyenne dans des situations formelles et publiques) mais avec un accent plus fort sur le vernaculaire.. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleAnglais - Accent de Boston/New YorkAnglais - Ensemble de données audio Boston/New York225225350800Il s'agit d'une collection de plusieurs accents régionaux parlés dans et autour des villes de Boston, New York et Philadelphie. Ces accents peuvent sembler similaires aux non-locaux, mais distincts des autres accents américains. Malgré un vocabulaire local différent des autres parties du monde anglophone, ces accents sont mutuellement intelligibles avec l'anglais parlé ailleurs.. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleAnglais - Accent chinoisAnglais - Ensemble de données audio accentué chinois150300450Les locuteurs qui parlent le chinois comme première langue et qui ont déménagé/immigré aux États-Unis à l'adolescence/à l'âge adulte et ont appris l'anglais comme deuxième langue.. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleAnglais - Accent du sud profondAnglais - Ensemble de données audio Deep South2752754501000Intervenants de (i) Texas ; (ii) Caroline du Nord, Caroline du Sud, Géorgie ; (iii) La Nouvelle-Orléans ; (iv) la mendicité de la Floride ; (v) Tennessee, Arkansas, Michigan.. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleAnglais - Accent hispaniqueAnglais - Ensemble de données audio accentué hispanique400400800L'anglais hispanique fait référence aux variétés d'anglais américain parlées par les Américains hispaniques d'origine nationale diversifiée. L'accent était mis principalement sur les Américains d'origine mexicaine, locuteurs de différentes origines nationales (par exemple, Mexique, Porto Rico, République dominicaine, Équateur, Cuba, etc.) et de différentes régions (par exemple, Californie, New York, Floride). Les locuteurs inclus étaient ceux qui parlaient l'espagnol comme première langue ainsi que les locuteurs d'origine hispanique qui parlaient l'espagnol comme langue d'origine.. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleAnglais - Accent néo-zélandaisAnglais - Ensemble de données audio néo-zélandais2507501000Les locuteurs des deux îles, y compris un mélange de locuteurs plus jeunes (<40 ans) et de locuteurs plus âgés (>40 ans) dans des proportions égales.. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleAnglais - Accent de SingapourAnglais - Ensemble de données audio de Singapour4006001000Anglais standard de Singapour et anglais familier de Singapour. Singapouriens de différentes origines ethniques (par exemple chinois, malais, indiens, etc.) et de différents niveaux d'éducation.. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleAnglais - Accent sud-africainAnglais - Afrique du Sud Audio Dataset4006001000Des représentants de diverses classes socio-économiques et d'origines ethnologiques (par exemple, des Sud-Africains d'origine européenne, africaine, indienne ou mixte).. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleAnglais - Accent irlandaisEnsemble de données audio anglais - irlandais500500Anglais parlé en Irlande. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleAnglais - Accent écossaisAnglais - Ensemble de données audio écossais800800Anglais parlé par l'écossais. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleAnglais - Accent galloisEnsemble de données audio anglais - gallois800800Anglais gallois. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La parolefrançais canadienEnsemble de données audio canadiennes-françaises10001000Français canadien. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleHébreuJeu de données audio en hébreu7507501500Hébreu en Israël. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleIndonésienEnsemble de données audio indonésien100010002000bahasa indonésien. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleJaponaisJeu de données audio japonais20002000Japonais du Japon. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleCoréenEnsemble de données audio coréen10020015001800Les conférenciers se sont répandus dans toute la Corée du Sud.. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleMalaisJeu de données audio malais5005001000Malais en Malaisie. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleEspagnol mexicainEnsemble de données audio espagnol mexicain12501250Mexicain du Mexique. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La parolePolonaisEnsemble de données audio polonais25020002250Polonais de Pologne. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleRusseEnsemble de données audio russe20002000Russe de Russie. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleSwahiliEnsemble de données audio en swahili3506501000Swahili sud-africain et kenyan. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleSuédoisEnsemble de données audio suédois3506501000Suédois en Suède. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleChinois de TaïwanEnsemble de données audio chinois de Taïwan10001000Chinois de Taïwan. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleThaïlandaisEnsemble de données audio thaïlandais350450800Un registre informel utilisé entre amis,. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleTurcEnsemble de données audio turc20002000Turc de Turquie. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleVietnamienEnsemble de données audio vietnamien6004001000Nord (par exemple, Hanoi), Centre et Sud (par exemple, Ho Chi Minh-Ville).. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleHindiEnsemble de données audio hindi80020002800Hindi en Inde spécifiquement dans les régions du Nord, de l'Est et de l'Ouest. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleHinglishEnsemble de données audio en anglais indien300500800Collecté dans les villes urbaines indiennes qui sont des centres financiers du pays en raison des opportunités économiques croissantes. Ces endroits peuvent être Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad, etc.. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleAnglaisEnsemble de données audio en anglais700700. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleKannadaEnsemble de données audio Kannada6010040200Kannada du Karnataka, Inde. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleMalayalamJeu de données audio malayalam6010040200Malayalam du Kerala, Lakshadweep et Pondichéry. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleOriyaEnsemble de données audio Oriya6010040200Oriya de certaines parties de l'Odisha, du Bengale occidental, du Jharkhand et du Chhattisgarh. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La parolePunjabiEnsemble de données audio en punjabi6010040200Punjabi du Pendjab, Inde. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleTamoulEnsemble de données audio tamoul60100240400Tamoul du Tamil Nadu, Inde. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleteluguEnsemble de données audio en télougou1009509502000Telugu de l'Andhra Pradesh, Inde. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleBengaliEnsemble de données audio en bengali6010040200Bengali du Bengale occidental, Inde. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleGujaratiEnsemble de données audio gujarati6010040200Gujarati du Gujarat, Inde. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleMarathiEnsemble de données audio marathi6010040200Marathi du Maharashtra, Inde. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai
La paroleAssamaisEnsemble de données audio assamais6010040200Assamais d'Asssam, Inde. Wav.jsonASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langageShai

Expertise approfondie en IA conversationnelle

L'IA conversationnelle ou les chatbots ou les assistants virtuels/numériques ne sont aussi intelligents que la technologie et les données qui les sous-tendent. Chez Shaip, nous vous proposons un large ensemble de données audio diversifiées pour le traitement du langage naturel (NLP) qui imitent les conversations avec de vraies personnes, ce qui vous permet de donner vie à votre IA. Grâce à notre compréhension approfondie, nous vous aidons à créer et à localiser des modèles vocaux basés sur l'IA, avec la plus grande précision avec des ensembles de données riches et structurés dans plusieurs langues du monde entier. Nous proposons des services de collecte audio multilingue, de transcription audio et d'annotation audio en fonction de vos besoins, tout en personnalisant entièrement l'intention, les énoncés et la distribution démographique souhaités.

Collection de discours scénarisés

Collection de parole spontanée

Transcription de données audio

Étiquetage et annotation des données

Shaip vous permet d'entraîner avec précision votre Conversational AI Platform afin qu'elle puisse :

  • Parlez, envoyez des SMS et discutez en toute transparence sur plusieurs canaux.
  • Apprenez des interactions existantes sous forme de chat, de transcriptions vocales, de transactions, etc. et suggérez et conversez, sur la base de ces apprentissages.
  • Comprenez l'intention derrière la parole humaine et éliminez l'ambiguïté dans la compréhension du langage humain.
  • Interagissez avec vous individuellement et pouvez être formé pour identifier les utilisateurs et se souvenir des conversations passées.

Un leader mondial des données de formation à l'IA conversationnelle

Des heures de données audio dans plus de 100 langues – sourcées, transcrites et annotées

Licence de données vocales

Plus de 20 40 heures de données vocales dans plus de 55 langues et dialectes couvrant une gamme de plus de XNUMX sujets de différents domaines, à savoir les centres d'appels, les débats, les conversations générales, les discours, les podcasts, etc.

Collecte de données vocales

Collectez des données audio et vocales (monologue, conversation à 2 personnes, chat humain-bot) dans plus de 100 langues du monde entier, adaptées à vos besoins en matière d'IA.

Transcription des données vocales

Transcription audio ou annotation audio rentable grâce à un effectif solide de 30,000 XNUMX collaborateurs avec TAT, précision et économies garantis

Accélérez le développement de votre application d'IA conversationnelle avec les services de collection audio et d'annotation audio

L'avantage Shaip

Échelle​

Nous pouvons rechercher, mettre à l'échelle et fournir des données audio du monde entier dans plusieurs langues et dialectes en fonction de vos besoins.

Le Savoir-Faire

Nous avons la bonne expertise en matière de collecte de données précises et impartiales, de transcription et d'annotation de référence.

Réseau

Un réseau de plus de 30,000 XNUMX contributeurs qualifiés, qui peuvent se voir attribuer rapidement des tâches de collecte de données pour créer un modèle de formation à l'IA et des services de mise à l'échelle.

Technologie

Nous disposons d'une plate-forme entièrement basée sur l'IA avec des outils et des processus propriétaires pour tirer parti de la gestion du flux de travail 24h/7 et XNUMXj/XNUMX.

Agilité

Nous nous adaptons très rapidement aux changements des exigences des clients et aidons à accélérer le développement de l'IA avec des données vocales de qualité 5 à 10 fois plus rapides que la concurrence.

Sécurité

Nous accordons la plus haute importance à la sécurité et à la confidentialité des données et sommes également certifiés pour traiter des données sensibles hautement réglementées.

Ce que nous faisons de mieux

Données d'entraînement

Obtenez les données étiquetées de la plus haute qualité en une fraction du temps. Il est de référence, fiable et prêt à entraîner vos modèles d'IA et de ML pour atteindre les plus hauts niveaux de performances.

En savoir plus

Collecte de données, étiquetage et annotation

Avec Shaip, vous bénéficiez de plus de 15 ans d'expertise éprouvée dans la collecte, la transcription et l'annotation de données de qualité. Grâce à notre main-d'œuvre mondiale, nous pouvons collecter des données dans le monde entier, puis fournir des services d'étiquetage et d'annotation avec le niveau de compétence et l'expertise nécessaires pour vos données.

En savoir plus

Catalogues de données et licences

Grâce à notre vaste inventaire de millions d'ensembles de données, vous pouvez collecter et organiser selon vos besoins. Nous pouvons ensuite autoriser ces données de qualité pour vos besoins spécifiques d'utilisation de l'IA et du ML. De plus, ces données sont disponibles à une fraction du coût si vous deviez les créer vous-même.

En savoir plus

Vous souhaitez créer votre propre ensemble de données ?

Contactez-nous maintenant pour savoir comment nous pouvons collecter un ensemble de données personnalisé pour votre solution d'IA unique.