Améliorer la compréhension des requêtes de recherche grâce à l'annotation humaine

Tirer parti du jugement humain et d'une taxonomie structurée pour gérer de manière cohérente les cas limites ambigus et améliorer la pertinence de la recherche pour un conglomérat de commerce électronique de premier plan basé en Pologne.

Amélioration de la requête de recherche

Résumé du projet

Le client, un leader polonais du e-commerce, reçoit des millions de requêtes de recherche chaque jour. Nombre de ces requêtes sont ambigu, comprendre fautes d'orthographe, ou se référer à plusieurs catégories de produits, créant des défis pour les moteurs de recherche automatisés.

Pour améliorer sprécision de la recherche et expérience clientShaip a développé un cadre d'annotation structuré inspiré de l'étude de Baymard. Les requêtes ont été systématiquement classées en catégories 11 (par exemple, catégorie de produit, thème, attribut spécifique, exact, marchand, symptôme, non-produit, etc.) avec règles de préséance pour assurer une catégorisation cohérente.

 

Amélioration de la requête de recherche

Principales statistiques

Plus de 50 000 requêtes annotées

dans plusieurs catégories

11 Classes d'annotation

avec des définitions claires et des règles de priorité

Flux de travail en 3 étapes

Annotation ➔ Assurance qualité ➔ Arbitrage PME

Description du projet

Le projet était centré sur la construction d'un taxonomie complète Capturer l'ensemble des comportements de recherche des utilisateurs sur une plateforme de marché à grande échelle. Le projet comprenait :

  • Développer une taxonomie de 11 catégories avec des définitions claires et une hiérarchie de priorité pour traiter les cas où les requêtes pourraient s'intégrer dans plusieurs classes.
  • Annoter des milliers de requêtes réelles dans les domaines des produits et des non-produits pour former et calibrer le système de classification.
  • Résoudre les requêtes ambiguës en faisant remonter les informations aux experts en la matière (EM), en garantissant la cohérence dans la manière dont les cas extrêmes ont été traités.
  • Fournir des exemples annotés et des justifications pour l'étalonnage de l'assurance qualité, créer un ensemble de formation sur lequel les futurs annotateurs pourraient s'appuyer comme référence.

Exemples d'annotations inclus :

  • De dietrich ELENSIO ➔ Exact
  • E 91 ➔ Difficile à dire
  • tezfiles ➔ Marchand
  • Subaru BRZ Toyota GT86 ➔ Non-Produit
  • okulary BHP ➔ Catégorie de produit
  • stawu skokowego ➔ Symptôme

Défis

Le projet a dû surmonter plusieurs problèmes de complexité des données qui sont typiques dans les environnements de recherche de commerce électronique :

Ambiguïté

Des requêtes telles que « E 91 » peuvent correspondre à des produits très différents (un modèle de voiture, un porte-fusible, une empreinte de capsule), ce qui rend l’interprétation très incertaine.

Fautes de frappe et variantes

Les fautes d’orthographe ou les abréviations, telles que « lampa uf zestaw », nécessitaient une interprétation humaine contextuelle pour être comprises comme « lampa UV zestaw ».

Catégories qui se chevauchent

Les requêtes correspondent souvent à plusieurs classes (par exemple, attribut exact, compatible ou spécifique), nécessitant des règles de priorité pour garantir la cohérence.

Entrées invalides

Les codes de série ou les identifiants sans aucune correspondance de produit devaient être étiquetés comme « Phrase non valide » au lieu d'être mal classés.

Évolutivité

Appliquer de manière cohérente des règles de classification nuancées des dizaines de milliers de requêtes exigeait une gouvernance solide en matière d’assurance qualité et d’annotation.

Solution

Pour relever ces défis, un cadre d'annotation structuré a été introduit, équilibrant l'automatisation avec la surveillance humaine :

Directives d'annotation

Des définitions détaillées, des exemples et des instructions ont été créés pour aider les annotateurs à classer de manière cohérente, même dans des scénarios complexes.

Règles de priorité

Une hiérarchie a été établie (par exemple, Compatible > Exact > Attribut spécifique) afin que les cas de chevauchement soient résolus systématiquement.

Processus d'assurance qualité à plusieurs niveaux

  1. Annotation initiale par des annotateurs formés.
  2. Examen secondaire par des spécialistes de l'assurance qualité.
  3. Escalade vers les PME pour arbitrage sur les cas limites ou les désaccords

Application pratique des lignes directrices aux requêtes du monde réel

  • 4008146044786 ➔ Phrase invalide
  • miraculum królika Attribut thématique
  • zcd gris galactique Compatibilité
  • owczarek belge Thème

 Cela a assuré alignement, qualité et fiabilité à travers le pipeline d'annotation.

Résultat

L’initiative a apporté des améliorations mesurables à l’écosystème de recherche du client :

  • Plus de 50 000 requêtes classées avec une grande précision, formant un ensemble de données de formation robuste pour les améliorations de recherche.
  • Amélioration de la pertinence des résultats de recherche, augmentant directement la satisfaction des utilisateurs et réduisant la frustration liée aux correspondances non pertinentes.
  • Ambiguïté réduite en résolvant systématiquement les cas limites grâce à des règles d’arbitrage et de priorité pilotées par les PME.
  • Découvrabilité améliorée des produits, garantissant que les utilisateurs puissent trouver des éléments plus précisément dans toutes les catégories, attributs et thèmes.

Dans l’ensemble, le projet a jeté les bases d’une une expérience de recherche plus intelligente et centrée sur l'utilisateur, aidant le client à maintenir son avantage concurrentiel sur le marché du commerce électronique.

Le processus d'annotation humaine a clarifié les requêtes de recherche complexes. La taxonomie structurée et les règles de priorité ont considérablement amélioré la précision de notre moteur de recherche et simplifié l'expérience utilisateur.

– Responsable de la recherche et de la découverte, conglomérat de commerce électronique basé en Pologne

Or-5 étoiles