Obtenez maintenant RÉDUCTION DE 50* sur les ensembles de données prêts à l'emploi de l'IA conversationnelle
Ensemble de données vocales et audio pour les chatbots, les assistants vocaux et les appareils à reconnaissance vocale.
* Offre à durée limitée
Reconnu par les leaders de l'industrie
Détails | Mots-clés | Ensemble de données linguistiques prêt à l'emploi | Conversations du centre d'appels 8khz* | Conversations génériques 8khz* | Médias et podcasts 16khz* | Énoncé/Monologue scénarisé 16 khz* | Volume total en heures | Dialectes couverts | Format audio | Format de transcription de texte | Case Study | Identifier | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Afrikaans | Ensemble de données audio afrikaans | 600 | 900 | 1500 | Afrikaans parlé en Afrique | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Arabe | Ensemble de données audio arabe | 800 | 1500 | 2300 | Arabe des pays du Golfe | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Chinois | Ensemble de données audio chinois | 2000 | 2000 | Chinois de Chine | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||||
Danois | Ensemble de données audio danois | 400 | 600 | 2000 | 3000 | Danois du Danemark | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||
Néerlandais | Ensemble de données audio néerlandais | 2000 | 2000 | Néerlandais des Pays-Bas | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||||
Anglais - Accent AAVE | Anglais - Ensemble de données audio AAVE (anglais vernaculaire afro-américain) | 500 | 500 | 1000 | La variété vernaculaire (parfois connue sous le nom d'AAVE, généralement parlée par la grande majorité des Afro-Américains de la classe ouvrière et moyenne) et la variété plus standard (généralement parlée par les Afro-Américains de la classe moyenne dans des situations formelles et publiques) mais avec un accent plus fort sur le vernaculaire. | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Anglais - Accent de Boston/New York | Anglais - Ensemble de données audio Boston/New York | 225 | 225 | 350 | 800 | Il s'agit d'une collection de plusieurs accents régionaux parlés dans et autour des villes de Boston, New York et Philadelphie. Ces accents peuvent sembler similaires aux non-locaux, mais distincts des autres accents américains. Malgré un vocabulaire local différent des autres parties du monde anglophone, ces accents sont mutuellement intelligibles avec l'anglais parlé ailleurs. | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||
Anglais - Accent chinois | Anglais - Ensemble de données audio accentué chinois | 150 | 300 | 450 | Les locuteurs qui parlent le chinois comme première langue et qui ont déménagé/immigré aux États-Unis à l'adolescence/à l'âge adulte et ont appris l'anglais comme deuxième langue. | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Anglais - Accent du sud profond | Anglais - Ensemble de données audio Deep South | 275 | 275 | 450 | 1000 | Intervenants de (i) Texas ; (ii) Caroline du Nord, Caroline du Sud, Géorgie ; (iii) La Nouvelle-Orléans ; (iv) la mendicité de la Floride ; (v) Tennessee, Arkansas, Michigan. | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||
Anglais - Accent hispanique | Anglais - Ensemble de données audio accentué hispanique | 400 | 400 | 800 | L'anglais hispanique fait référence aux variétés d'anglais américain parlées par les Américains hispaniques d'origine nationale diversifiée. L'accent était mis principalement sur les Américains d'origine mexicaine, locuteurs de différentes origines nationales (par exemple, Mexique, Porto Rico, République dominicaine, Équateur, Cuba, etc.) et de différentes régions (par exemple, Californie, New York, Floride). Les locuteurs inclus étaient ceux qui parlaient l'espagnol comme première langue ainsi que les locuteurs d'origine hispanique qui parlaient l'espagnol comme langue d'origine. | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Anglais - Accent néo-zélandais | Anglais - Ensemble de données audio néo-zélandais | 250 | 750 | 1000 | Les locuteurs des deux îles, y compris un mélange de locuteurs plus jeunes (<40 ans) et de locuteurs plus âgés (>40 ans) dans des proportions égales. | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Anglais - Accent de Singapour | Anglais - Ensemble de données audio de Singapour | 400 | 600 | 1000 | Anglais standard de Singapour et anglais familier de Singapour. Singapouriens de différentes origines ethniques (par exemple chinois, malais, indiens, etc.) et de différents niveaux d'éducation. | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Anglais - Accent sud-africain | Anglais - Afrique du Sud Audio Dataset | 400 | 600 | 1000 | Des représentants de diverses classes socio-économiques et d'origines ethnologiques (par exemple, des Sud-Africains d'origine européenne, africaine, indienne ou mixte). | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Anglais - Accent irlandais | Ensemble de données audio anglais - irlandais | 500 | 500 | Anglais parlé en Irlande | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||||
Anglais - Accent écossais | Anglais - Ensemble de données audio écossais | 800 | 800 | Anglais parlé par l'écossais | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||||
Anglais - Accent gallois | Ensemble de données audio anglais - gallois | 800 | 800 | Anglais gallois | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||||
français canadien | Ensemble de données audio canadiennes-françaises | 1000 | 1000 | Français canadien | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||||
Hébreu | Jeu de données audio en hébreu | 750 | 750 | 1500 | Hébreu en Israël | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Indonésien | Ensemble de données audio indonésien | 1000 | 1000 | 2000 | bahasa indonésien | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Japonais | Jeu de données audio japonais | 2000 | 2000 | Japonais du Japon | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||||
Coréen | Ensemble de données audio coréen | 100 | 200 | 1500 | 1800 | Les conférenciers se sont répandus dans toute la Corée du Sud. | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||
Malais | Jeu de données audio malais | 500 | 500 | 1000 | Malais en Malaisie | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Espagnol mexicain | Ensemble de données audio espagnol mexicain | 1250 | 1250 | Mexicain du Mexique | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||||
Polonais | Ensemble de données audio polonais | 250 | 2000 | 2250 | Polonais de Pologne | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Russe | Ensemble de données audio russe | 2000 | 2000 | Russe de Russie | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||||
Swahili | Ensemble de données audio en swahili | 350 | 650 | 1000 | Swahili sud-africain et kenyan | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Suédois | Ensemble de données audio suédois | 350 | 650 | 1000 | Suédois en Suède | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Chinois de Taïwan | Ensemble de données audio chinois de Taïwan | 1000 | 1000 | Chinois de Taïwan | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||||
Thaïlandais | Ensemble de données audio thaïlandais | 350 | 450 | 800 | Un registre informel utilisé entre amis, | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Turc | Ensemble de données audio turc | 2000 | 2000 | Turc de Turquie | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||||
Vietnamien | Ensemble de données audio vietnamien | 600 | 400 | 1000 | Nord (par exemple, Hanoi), Centre et Sud (par exemple, Ho Chi Minh-Ville). | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Hindi | Ensemble de données audio hindi | 800 | 2000 | 2800 | Hindi en Inde spécifiquement dans les régions du Nord, de l'Est et de l'Ouest | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Hinglish | Ensemble de données audio en anglais indien | 300 | 500 | 800 | Collecté dans les villes urbaines indiennes qui sont des centres financiers du pays en raison des opportunités économiques croissantes. Ces endroits peuvent être Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad, etc. | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||
Anglais | Ensemble de données audio en anglais | 700 | 700 | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | |||||
Kannada | Ensemble de données audio Kannada | 60 | 100 | 40 | 200 | Kannada du Karnataka, Inde | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||
Malayalam | Jeu de données audio malayalam | 60 | 100 | 40 | 200 | Malayalam du Kerala, Lakshadweep et Pondichéry | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||
Oriya | Ensemble de données audio Oriya | 60 | 100 | 40 | 200 | Oriya de certaines parties de l'Odisha, du Bengale occidental, du Jharkhand et du Chhattisgarh | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||
Punjabi | Ensemble de données audio en punjabi | 60 | 100 | 40 | 200 | Punjabi du Pendjab, Inde | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||
Tamoul | Ensemble de données audio tamoul | 60 | 100 | 240 | 400 | Tamoul du Tamil Nadu, Inde | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||
telugu | Ensemble de données audio en télougou | 100 | 950 | 950 | 2000 | Telugu de l'Andhra Pradesh, Inde | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||
Bengali | Ensemble de données audio en bengali | 60 | 100 | 40 | 200 | Bengali du Bengale occidental, Inde | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||
Gujarati | Ensemble de données audio gujarati | 60 | 100 | 40 | 200 | Gujarati du Gujarat, Inde | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||
Marathi | Ensemble de données audio marathi | 60 | 100 | 40 | 200 | Marathi du Maharashtra, Inde | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact | ||
Assamais | Ensemble de données audio assamais | 60 | 100 | 40 | 200 | Assamais d'Asssam, Inde | . Wav | .json | ASR, assistant virtuel, chatbot, IA conversationnelle, analyse de la parole, TTS, modélisation du langage | Shai | Contact Contact |
Expertise approfondie en IA conversationnelle
L'IA conversationnelle ou les chatbots ou les assistants virtuels/numériques ne sont aussi intelligents que la technologie et les données qui les sous-tendent. Chez Shaip, nous vous proposons un large ensemble de données audio diversifiées pour le traitement du langage naturel (NLP) qui imitent les conversations avec de vraies personnes, ce qui vous permet de donner vie à votre IA. Grâce à notre compréhension approfondie, nous vous aidons à créer et à localiser des modèles vocaux basés sur l'IA, avec la plus grande précision avec des ensembles de données riches et structurés dans plusieurs langues du monde entier. Nous proposons des services de collecte audio multilingue, de transcription audio et d'annotation audio en fonction de vos besoins, tout en personnalisant entièrement l'intention, les énoncés et la distribution démographique souhaités.
Collection de discours scénarisés
Collection de parole spontanée
Transcription de données audio
Étiquetage et annotation des données
Shaip vous permet d'entraîner avec précision votre Conversational AI Platform afin qu'elle puisse :
- Parlez, envoyez des SMS et discutez en toute transparence sur plusieurs canaux.
- Apprenez des interactions existantes sous forme de chat, de transcriptions vocales, de transactions, etc. et suggérez et conversez, sur la base de ces apprentissages.
- Comprenez l'intention derrière la parole humaine et éliminez l'ambiguïté dans la compréhension du langage humain.
- Interagissez avec vous individuellement et pouvez être formé pour identifier les utilisateurs et se souvenir des conversations passées.
Un leader mondial des données de formation à l'IA conversationnelle
Des heures de données audio dans plus de 100 langues – sourcées, transcrites et annotées
Licence de données vocales
Plus de 20 40 heures de données vocales dans plus de 55 langues et dialectes couvrant une gamme de plus de XNUMX sujets de différents domaines, à savoir les centres d'appels, les débats, les conversations générales, les discours, les podcasts, etc.
Collecte de données vocales
Collectez des données audio et vocales (monologue, conversation à 2 personnes, chat humain-bot) dans plus de 100 langues du monde entier, adaptées à vos besoins en matière d'IA.
Transcription des données vocales
Transcription audio ou annotation audio rentable grâce à un effectif solide de 30,000 XNUMX collaborateurs avec TAT, précision et économies garantis
Accélérez le développement de votre application d'IA conversationnelle avec les services de collection audio et d'annotation audio
L'avantage Shaip
Échelle
Nous pouvons rechercher, mettre à l'échelle et fournir des données audio du monde entier dans plusieurs langues et dialectes en fonction de vos besoins.
Le Savoir-Faire
Nous avons la bonne expertise en matière de collecte de données précises et impartiales, de transcription et d'annotation de référence.
Réseau
Un réseau de plus de 30,000 XNUMX contributeurs qualifiés, qui peuvent se voir attribuer rapidement des tâches de collecte de données pour créer un modèle de formation à l'IA et des services de mise à l'échelle.
Technologie
Nous disposons d'une plate-forme entièrement basée sur l'IA avec des outils et des processus propriétaires pour tirer parti de la gestion du flux de travail 24h/7 et XNUMXj/XNUMX.
Agilité
Nous nous adaptons très rapidement aux changements des exigences des clients et aidons à accélérer le développement de l'IA avec des données vocales de qualité 5 à 10 fois plus rapides que la concurrence.
Sécurité
Nous accordons la plus haute importance à la sécurité et à la confidentialité des données et sommes également certifiés pour traiter des données sensibles hautement réglementées.
Ce que nous faisons de mieux
Données d'entraînement
Obtenez les données étiquetées de la plus haute qualité en une fraction du temps. Il est de référence, fiable et prêt à entraîner vos modèles d'IA et de ML pour atteindre les plus hauts niveaux de performances.
Collecte de données, étiquetage et annotation
Avec Shaip, vous bénéficiez de plus de 15 ans d'expertise éprouvée dans la collecte, la transcription et l'annotation de données de qualité. Grâce à notre main-d'œuvre mondiale, nous pouvons collecter des données dans le monde entier, puis fournir des services d'étiquetage et d'annotation avec le niveau de compétence et l'expertise nécessaires pour vos données.
Catalogues de données et licences
Grâce à notre vaste inventaire de millions d'ensembles de données, vous pouvez collecter et organiser selon vos besoins. Nous pouvons ensuite autoriser ces données de qualité pour vos besoins spécifiques d'utilisation de l'IA et du ML. De plus, ces données sont disponibles à une fraction du coût si vous deviez les créer vous-même.
Vous souhaitez créer votre propre ensemble de données ?
Contactez-nous maintenant pour savoir comment nous pouvons collecter un ensemble de données personnalisé pour votre solution d'IA unique.