Améliorer la compréhension des requêtes de recherche grâce à l'annotation humaine
Tirer parti du jugement humain et d'une taxonomie structurée pour gérer de manière cohérente les cas limites ambigus et améliorer la pertinence de la recherche pour un conglomérat de commerce électronique de premier plan basé en Pologne.
Résumé du projet
Le client, un leader polonais du e-commerce, reçoit des millions de requêtes de recherche chaque jour. Nombre de ces requêtes sont ambigu, comprendre fautes d'orthographe, ou se référer à plusieurs catégories de produits, créant des défis pour les moteurs de recherche automatisés.
Pour améliorer sprécision de la recherche et expérience clientShaip a développé un cadre d'annotation structuré inspiré de l'étude de Baymard. Les requêtes ont été systématiquement classées en catégories 11 (par exemple, catégorie de produit, thème, attribut spécifique, exact, marchand, symptôme, non-produit, etc.) avec règles de préséance pour assurer une catégorisation cohérente.
Principales statistiques
Plus de 50 000 requêtes annotées
dans plusieurs catégories
11 Classes d'annotation
avec des définitions claires et des règles de priorité
Flux de travail en 3 étapes
Annotation ➔ Assurance qualité ➔ Arbitrage PME
Description du projet
Le projet était centré sur la construction d'un taxonomie complète Capturer l'ensemble des comportements de recherche des utilisateurs sur une plateforme de marché à grande échelle. Le projet comprenait :
- Développer une taxonomie de 11 catégories avec des définitions claires et une hiérarchie de priorité pour traiter les cas où les requêtes pourraient s'intégrer dans plusieurs classes.
- Annoter des milliers de requêtes réelles dans les domaines des produits et des non-produits pour former et calibrer le système de classification.
- Résoudre les requêtes ambiguës en faisant remonter les informations aux experts en la matière (EM), en garantissant la cohérence dans la manière dont les cas extrêmes ont été traités.
- Fournir des exemples annotés et des justifications pour l'étalonnage de l'assurance qualité, créer un ensemble de formation sur lequel les futurs annotateurs pourraient s'appuyer comme référence.
Exemples d'annotations inclus :
- De dietrich ELENSIO ➔ Exact
- E 91 ➔ Difficile à dire
- tezfiles ➔ Marchand
- Subaru BRZ Toyota GT86 ➔ Non-Produit
- okulary BHP ➔ Catégorie de produit
- stawu skokowego ➔ Symptôme
Défis
Le projet a dû surmonter plusieurs problèmes de complexité des données qui sont typiques dans les environnements de recherche de commerce électronique :
Ambiguïté
Des requêtes telles que « E 91 » peuvent correspondre à des produits très différents (un modèle de voiture, un porte-fusible, une empreinte de capsule), ce qui rend l’interprétation très incertaine.
Fautes de frappe et variantes
Les fautes d’orthographe ou les abréviations, telles que « lampa uf zestaw », nécessitaient une interprétation humaine contextuelle pour être comprises comme « lampa UV zestaw ».
Catégories qui se chevauchent
Les requêtes correspondent souvent à plusieurs classes (par exemple, attribut exact, compatible ou spécifique), nécessitant des règles de priorité pour garantir la cohérence.
Entrées invalides
Les codes de série ou les identifiants sans aucune correspondance de produit devaient être étiquetés comme « Phrase non valide » au lieu d'être mal classés.
Évolutivité
Appliquer de manière cohérente des règles de classification nuancées des dizaines de milliers de requêtes exigeait une gouvernance solide en matière d’assurance qualité et d’annotation.
Solution
Pour relever ces défis, un cadre d'annotation structuré a été introduit, équilibrant l'automatisation avec la surveillance humaine :
Directives d'annotation
Des définitions détaillées, des exemples et des instructions ont été créés pour aider les annotateurs à classer de manière cohérente, même dans des scénarios complexes.
Règles de priorité
Une hiérarchie a été établie (par exemple, Compatible > Exact > Attribut spécifique) afin que les cas de chevauchement soient résolus systématiquement.
Processus d'assurance qualité à plusieurs niveaux
- Annotation initiale par des annotateurs formés.
- Examen secondaire par des spécialistes de l'assurance qualité.
- Escalade vers les PME pour arbitrage sur les cas limites ou les désaccords
Application pratique des lignes directrices aux requêtes du monde réel
- 4008146044786 ➔ Phrase invalide
- miraculum królika ➔ Attribut thématique
- zcd gris galactique ➔ Compatibilité
- owczarek belge ➔ Thème
Cela a assuré alignement, qualité et fiabilité à travers le pipeline d'annotation.
Résultat
L’initiative a apporté des améliorations mesurables à l’écosystème de recherche du client :
- Plus de 50 000 requêtes classées avec une grande précision, formant un ensemble de données de formation robuste pour les améliorations de recherche.
- Amélioration de la pertinence des résultats de recherche, augmentant directement la satisfaction des utilisateurs et réduisant la frustration liée aux correspondances non pertinentes.
- Ambiguïté réduite en résolvant systématiquement les cas limites grâce à des règles d’arbitrage et de priorité pilotées par les PME.
- Découvrabilité améliorée des produits, garantissant que les utilisateurs puissent trouver des éléments plus précisément dans toutes les catégories, attributs et thèmes.
Dans l’ensemble, le projet a jeté les bases d’une une expérience de recherche plus intelligente et centrée sur l'utilisateur, aidant le client à maintenir son avantage concurrentiel sur le marché du commerce électronique.
Le processus d'annotation humaine a clarifié les requêtes de recherche complexes. La taxonomie structurée et les règles de priorité ont considérablement amélioré la précision de notre moteur de recherche et simplifié l'expérience utilisateur.
– Responsable de la recherche et de la découverte, conglomérat de commerce électronique basé en Pologne