Analyse des émotions et des sentiments de la parole
Des centres d'appels plus intelligents grâce à des informations basées sur l'IA
Tirer parti de l'expertise de Shaip en matière de collecte et d'annotation de données audio pour améliorer la détection des émotions et des sentiments en temps réel afin d'améliorer le service client.
Analyse automatisée des émotions et des sentiments de la parole
Le client s'est associé à Shaip pour développer un modèle automatisé d'analyse des émotions et des sentiments pour les centres d'appels. Le projet impliquait la collecte et l'annotation de 250 heures de données audio de centres d'appels dans quatre dialectes anglais : américain, britannique, australien et indien. Cela a permis au client d'améliorer ses modèles d'IA pour détecter des émotions telles que la joie, la neutralité et la colère, et des sentiments tels que l'insatisfaction et la satisfaction dans les interactions avec les clients en temps réel.
Le projet a surmonté des défis tels que la détection du sarcasme, la variation des longueurs audio et les indices verbaux subtils d’insatisfaction, offrant des résultats précis et évolutifs.
Principales statistiques
Données audio du centre d'appels collectées et annotées dans 4 dialectes anglais
Hrs 250
Nombre de langues
Anglais américain, anglais britannique, anglais australien et anglais indien
Cas d'usage
Analyse automatisée des émotions et des sentiments de la parole
Description du projet
Collectez et annotez 250 heures de données audio du centre d'appels dans quatre dialectes anglais :
- Anglais américain (30 %)
- Anglais britannique (30 %)
- Anglais australien (20 %)
- Anglais indien (20 %)
Portée
Le projet se compose de trois parties :
- Données audio avec des entités spécifiques, y compris des métadonnées.
- Fichiers transcrits correspondants avec détails de segmentation et d'horodatage.
- Annotations d'émotions et de sentiments :
- Émotion audio : Heureux, Neutre, En colère
- Transcription du sentiment : Extrêmement insatisfait, insatisfait, neutre, satisfait, extrêmement satisfait
Défis
Diversité des dialectes
Il peut s'avérer difficile de garantir que les données audio représentent avec précision les dialectes spécifiés (États-Unis, Royaume-Uni, Australie et Inde). Différentes régions au sein de ces catégories peuvent utiliser un vocabulaire, des accents et une prononciation variés.
Exigence d'expertise
L’annotation audio et les transcriptions d’émotions et de sentiments nécessitent des annotateurs formés et familiarisés avec les nuances culturelles et les subtilités linguistiques de chaque dialecte.
Complexité des émotions et des sentiments
Les émotions audio et les sentiments de transcription ne sont pas toujours cohérents. Par exemple, une personne peut sembler en colère mais exprimer en réalité de la satisfaction. Par exemple, les conversations sarcastiques avec des phrases sarcastiques telles que « Oh, c'est formidable, une autre personne qui ne peut pas résoudre mon problème » doivent être correctement annotées pour l'émotion et le sentiment.
Qualité audio
La qualité des enregistrements audio peut varier, ce qui affecte la précision de la transcription et la détection des émotions. Le bruit de fond, les conversations qui se chevauchent et les différents équipements d'enregistrement peuvent poser des problèmes importants.
Capture précise
Insatisfaction par des signaux verbaux comme des expirations lourdes ou d’autres signes de frustration.
Solution
En s'appuyant sur des techniques avancées de traitement du langage naturel (NLP), les solutions suivantes ont été mises en œuvre :
Collecte des Données
- 250 heures de données audio réparties en quotas spécifiques à chaque dialecte.
- Anglais américain (30 % ou 75 heures)
- Anglais britannique (30 % ou 75 heures)
- Anglais australien (20% ou 50 heures)
- Anglais indien (20% ou 50 heures)
- Utilisateurs d'accent natif des États-Unis, du Royaume-Uni, d'Australie et d'Inde.
- Exemples de discours contenant des tons variés, avec un accent particulier sur les cas où l'émotion de la voix est en colère et le sentiment du texte est insatisfait ou extrêmement insatisfait.
Classification/annotation de textes
- Annotation des émotions et des sentiments en fonction de catégories spécifiques :
- Émotion audio : Heureux, neutre, en colère.
- Transcription du sentiment : Extrêmement insatisfait, insatisfait, neutre, Satisfait, extrêmement satisfait.
- Chaque segment audio ne contenait qu’une seule émotion principale.
- Différents segments de délai (de 2 à 30 secondes) appliqués au sein des conversations.
- Le format de transcription a suivi la sortie JSON, y compris les informations sur les locuteurs gauche et droit, les balises de sentiment et le sentiment du segment final.
QA
Précision de la transcription :
- Nous avons assuré que 250 heures d'audio ont été livrées avec un minimum de :
- Taux d'erreur de transcription (TER) de 90 % de précision.
- Taux de reconnaissance des mots (WER) de 95 % de précision.
Processus d'assurance qualité :
- Des audits réguliers d’échantillons sélectionnés au hasard à partir de l’ensemble de données ont été effectués.
- Des outils automatisés ont été utilisés pour mesurer le TER et le WER sur l'ensemble des données.
- L’examen manuel des sections signalées a permis de garantir que les seuils de précision étaient respectés.
Le résultat
Les données de formation soutiendront le développement d'un modèle automatisé de détection des émotions et des sentiments, offrant :
- Détection d'émotions en temps réel dans les interactions du centre d'appels.
- Traitement plus efficace des cas complexes, tels que le sarcasme ou l’insatisfaction.
- Évolutivité pour les projets futurs, s'adaptant facilement à des volumes de données accrus et à davantage de langues.
(produits) livrables
- 250 heures de fichiers audio (au format PCM WAV 8 kHz, mono)
- Fichiers de transcription (avec segmentation, balises de sentiment et identifiants de locuteur)
- Métadonnées (durée audio, détails de l'intervenant, etc.)
Le partenariat avec Shaip pour notre projet de données de centre d'appels a été un moment crucial dans l'avancement de nos solutions d'IA. Leur équipe a collecté et annoté de manière experte 250 heures de données audio dans quatre dialectes anglais clés (États-Unis, Royaume-Uni, Australie et Inde), garantissant ainsi la plus haute qualité et précision. L'attention portée aux nuances linguistiques dans ces régions a considérablement amélioré la précision de nos modèles de reconnaissance vocale. De plus, l'expertise de Shaip dans la gestion de projets complexes d'annotation de données nous a permis de créer des modèles fiables et conformes à grande échelle.

