Collecte de données pour l'IA conversationnelle

Comment aborder la collecte de données pour l'IA conversationnelle

Aujourd'hui, nous avons des robots parlants comme des chatbots, des assistants virtuels, etc. .

Et si vous avez utilisé un assistant comme Siri ou Alexa, vous vous rendriez également compte qu'ils deviennent de plus en plus excentriques de jour en jour. Leurs réponses sont pleines d'esprit, ils répondent, ils snobent, rendent des compliments et se comportent de manière plus humaine que certains de vos collègues que vous connaissez peut-être. Nous ne plaisantons pas. Selon PwC, 27% des utilisateurs qui ont interagi avec leur récent associé du service client ne savaient pas s'ils parlaient à un humain ou à un chatbot.

Développer de tels systèmes et dispositifs conversationnels complexes est très complexe et intimidant. C'est un jeu de balle complètement différent avec des approches de développement distinctes. C'est pourquoi nous avons pensé que nous devrions le décomposer pour vous pour une compréhension plus facile. Donc, si vous cherchez à développer un moteur d'IA conversationnel ou un assistant virtuel, ce guide vous aidera à obtenir plus de clarté.

Importance de l'IA conversationnelle

Alors que la technologie devient un aspect plus intégré de nos vies sous la forme de nouveaux appareils et systèmes, il devient nécessaire de repousser les barrières, de briser les conventions et de trouver de nouvelles façons d'interagir avec elles. De la simple utilisation de périphériques connectés comme la souris et le clavier, nous sommes passés à des tapis de souris plus pratiques. Nous avons ensuite migré vers des écrans tactiles qui offraient une plus grande commodité pour l'alimentation des entrées et l'exécution des tâches.

Les appareils devenant des extensions de nous-mêmes, nous déverrouillons maintenant un nouveau moyen de commander par la voix. Nous n'avons même pas besoin d'être à proximité d'un appareil pour le faire fonctionner. Tout ce que nous avons à faire est d'utiliser notre voix pour le déverrouiller et commander nos entrées. Depuis une pièce voisine, lorsque vous conduisez, tout en utilisant un autre appareil simultanément, l'IA conversationnelle exécute les tâches prévues de manière transparente. Alors, par où commencer ? Tout commence avec des données vocales de haute qualité pour former des modèles de ML.

Les bases de la collecte de données d'entraînement vocal

La collecte et l'annotation des données d'entraînement de l'IA pour l'IA conversationnelle sont très différentes. Il y a des tonnes de subtilités impliquées dans les commandes humaines et diverses mesures doivent être mises en œuvre pour s'assurer que chaque aspect est pris en compte pour des résultats percutants. Regardons quelques-uns des principes fondamentaux des données vocales.

Compréhension du langage naturel (NLU)

Pour que les chatbots et les assistants virtuels comprennent et répondent à ce que nous textons ou commandons, un processus appelé NLU est implémenté. Ça signifie Compréhension du langage naturel et implique trois concepts technologiques pour interpréter et traiter divers types d'entrées.

  • Intention

    Tout commence par l'intention. Qu'est-ce qu'un utilisateur particulier essaie de transmettre, de communiquer ou d'atteindre via une commande ? L'utilisateur recherche-t-il des informations ? Attendent-ils des mises à jour pour une action ? Commandent-ils une instruction à exécuter par le système ? Comment le commandent-ils ? Est-ce par une question ou une demande ? Tous ces aspects aident les machines à comprendre et à classer les intentions et les objectifs pour proposer respectivement des réponses étanches.

  • Collection d'énoncés

    Il y a une différence entre la commande « Où est le guichet automatique le plus proche ? » et la commande « Trouvez-moi un guichet automatique à proximité. » Maintenant, les humains reconnaîtraient que les deux signifient la même chose, mais les machines doivent être expliquées avec cette différence. Ils sont les mêmes en termes d'intention, mais la façon dont l'intention a été façonnée est complètement différente.

    La collecte d'énoncés consiste à définir et à mapper différents énoncés et phrases vers des objectifs spécifiques pour l'exécution précise des tâches et des réponses. Techniquement, les spécialistes de l'annotation de données travaillent sur des données vocales ou des données textuelles pour aider les machines à les différencier.

  • Extraction d'entité

    Chaque phrase a des mots ou des phrases spécifiques qui mettent l'accent sur le poids et c'est cet accent qui conduit à une interprétation du contexte et du but. Les machines, comme les systèmes rigides qu'elles sont, ont besoin d'être nourries à la cuillère de telles entités. Par exemple, « Où puis-je trouver les cordes de ma guitare près de la 6e Avenue ? »

    Si vous affinez la phrase, trouvez l'entité un, les cordes sont deux, la guitare est trois et la 6ème avenue est 4. Ces entités sont associées par des machines pour récupérer les résultats appropriés et pour que cela se produise, des experts travaillent en backend.

Ensembles de données voix/parole/audio prêts à l'emploi pour former plus rapidement votre modèle d'IA conversationnelle

Concevoir des dialogues pour l'IA conversationnelle

L'objectif de l'IA a principalement été de reproduire le comportement humain à travers des gestes, des actions et des réponses. L'esprit humain conscient a la capacité innée de comprendre le contexte, l'intention, le ton, les émotions et d'autres facteurs et de réagir en conséquence. Mais comment les machines peuvent-elles différencier ces aspects ? 

Concevoir des dialogues pour IA conversationnel est très complexe et surtout, tout à fait impossible de déployer un modèle universel. Chaque individu a une façon différente de penser, de parler et de répondre. Même dans les réponses, nous articulons tous nos pensées de manière unique. Ainsi, les machines doivent écouter et réagir en conséquence. 

Cependant, ce n'est pas lisse non plus. Lorsque les humains parlent, des facteurs tels que les accents, la prononciation, l'origine ethnique, la langue, etc. entrent en jeu et il n'est pas facile pour les machines de mal comprendre et de mal interpréter les mots et de répondre.. Un mot particulier peut être compris par les machines d'une myriade de façons lorsqu'il est dicté par un Indien, un Britannique, un Américain et un Mexicain. Il y a des tonnes de barrières linguistiques qui entrent en jeu et le moyen le plus pratique de proposer un système de réponse consiste à utiliser une programmation visuelle basée sur un organigramme. 

Grâce à des blocs dédiés pour gestes, réponses et déclencheurs, les auteurs et les experts peuvent aider les machines à développer un personnage. Cela ressemble plus à un algorithme que la machine peut utiliser pour trouver les bonnes réponses. Lorsqu'une entrée est alimentée, les informations circulent à travers les facteurs correspondants, ce qui conduit à la bonne réponse à fournir par les machines. 

Composez le D pour la diversité

Comme nous l'avons mentionné, les interactions humaines sont très uniques. Les gens du monde entier viennent de différents horizons, origines, nationalités, données démographiques, ethnies, accents, diction, prononciation, etc. 

Pour qu'un bot conversationnel ou un système soit utilisable de manière universelle, il doit être entraîné avec des données d'entraînement aussi diverses que possible. Si, par exemple, un modèle n'a été entraîné qu'avec les données vocales d'une langue ou d'une ethnie particulière, un nouvel accent perturberait le système et l'obligerait à fournir des résultats erronés. Ce n'est pas seulement embarrassant pour les propriétaires d'entreprise, mais aussi insultant pour les utilisateurs. 

C'est pourquoi la phase de développement devrait impliquer des données de formation à l'IA provenant d'un riche pool d'ensembles de données divers composés de personnes de tous les horizons possibles. Plus votre système comprendra d'accents et d'ethnies, plus il sera universel. En outre, ce qui agacerait davantage les utilisateurs, ce n'est pas une récupération incorrecte des informations, mais une incapacité à comprendre leurs entrées en premier lieu. 

L'élimination des biais devrait être une priorité clé et les entreprises pourraient y parvenir en optant pour des données de crowdsourcing. Lorsque vous externalisez vos données vocales ou vos données textuelles, vous permettez à des personnes du monde entier de contribuer à vos besoins, rendant votre pool de données uniquement sain (lisez notre blogue pour comprendre les avantages et les pièges de l'externalisation des données auprès des travailleurs de crowdsourcing). Désormais, votre modèle comprendra différents accents et prononciations et réagira en conséquence. 

La voie à suivre

Développer une IA conversationnelle est aussi difficile que d'élever un bébé. La seule différence est que le nourrisson finira par grandir pour comprendre les choses et mieux communiquer de manière autonome. Ce sont les machines qui doivent être constamment poussées. Il y a actuellement plusieurs défis dans cet espace et nous devons reconnaître le fait que nous avons certains des systèmes d'IA conversationnelle les plus révolutionnaires malgré ces défis. Attendons de voir ce que l'avenir réserve à nos sympathiques chatbots de quartier et assistants virtuels. Pendant ce temps, si vous avez l'intention de développer une IA conversationnelle comme Google Home pour votre entreprise, contactez-nous pour vos besoins en matière de données de formation et d'annotation d'IA.

Partager