Reconnaissance des entités nommées (NER)

Reconnaissance d'entité nommée (NER) - Le concept, les types et les applications

Chaque fois que nous entendons un mot ou lisons un texte, nous avons la capacité naturelle d'identifier et de catégoriser le mot en personnes, lieu, emplacement, valeurs, etc. Les humains peuvent rapidement reconnaître un mot, le catégoriser et comprendre le contexte. Par exemple, lorsque vous entendez le mot "Steve Jobs", vous pouvez immédiatement penser à au moins trois ou quatre attributs et séparer l'entité en catégories,

  • Personne: Steve Jobs
  • Société: Apple
  • Lieu: Californie

Puisque les ordinateurs n'ont pas cette capacité naturelle, ils ont besoin de notre aide pour identifier des mots ou du texte et les catégoriser. C'est là que Reconnaissance d'entité nommée (NER) entre en scène.

Essayons de comprendre brièvement le NER et sa relation avec la PNL.

Qu'est-ce que la reconnaissance d'entité nommée ?

La reconnaissance d'entité nommée fait partie du traitement du langage naturel. L'objectif premier de TNS est de traiter données structurées et non structurées et classer ces entités nommées dans des catégories prédéfinies. Certaines catégories courantes incluent le nom, le lieu, l'entreprise, l'heure, les valeurs monétaires, les événements, etc.

En quelques mots, NER s'occupe de :

  • Reconnaissance/détection d'entités nommées – Identification d'un mot ou d'une série de mots dans un document.
  • Classification des entités nommées – Classement de chaque entité détectée dans des catégories prédéfinies.

Mais comment le NER est-il lié à la PNL ?

Le traitement du langage naturel aide à développer des machines intelligentes capables d'extraire le sens de la parole et du texte. L'apprentissage automatique aide ces systèmes intelligents à continuer à apprendre en s'entraînant sur de grandes quantités de langage naturel ensembles de données.

Généralement, la PNL se compose de trois grandes catégories :

  • Comprendre la structure et les règles de la langue – Syntaxe
  • Déduire le sens des mots, du texte et de la parole et identifier leurs relations - Sémantique
  • Identifier et reconnaître les mots parlés et les transformer en texte - Parole

NER aide dans la partie sémantique de la PNL, extrayant le sens des mots, les identifiant et les localisant en fonction de leurs relations.

Exemples courants de NER

Certains des exemples courants d'un catégorisation d'entité sont:

Exemples de ner
Exemples de ner

Personne: Michael Jackson, Oprah Winfrey, Barack Obama, Susan Sarandon

Lieu: Canada, Honolulu, Bangkok, Brésil, Cambridge

Organisation: Samsung, Disney, Université de Yale, Google

Heure : 15.35h12, XNUMXh,

Les autres catégories incluent les valeurs numériques, l'expression, les adresses e-mail et l'installation.

Ambiguïté dans la reconnaissance d'entité nommée

La catégorie à laquelle appartient un terme est intuitivement assez claire pour les êtres humains. Cependant, ce n'est pas le cas des ordinateurs – ils rencontrent des problèmes de classification. Par example:

Manchester City (Organisation) a remporté le trophée de la Premier League alors que dans la phrase suivante, l'organisation est utilisée différemment. Manchester City (Localisation) était une centrale électrique textile et industrielle.

Votre modèle NER a besoin données d'entraînement mener avec précision extraction d'entité et classement. Si vous entraînez votre modèle sur l'anglais shakespearien, il va sans dire qu'il ne pourra pas déchiffrer Instagram.

Différentes approches NER

L'objectif premier d'un Modèle NER consiste à étiqueter des entités dans des documents texte et à les catégoriser. Les trois approches suivantes sont généralement utilisées à cette fin. Cependant, vous pouvez également choisir de combiner une ou plusieurs méthodes.

Discutons aujourd'hui de vos besoins en données de formation en IA.

Les différentes approches pour créer des systèmes NER sont :

  • Systèmes basés sur un dictionnaire

    Le système basé sur un dictionnaire est peut-être l'approche NER la plus simple et la plus fondamentale. Il utilisera un dictionnaire avec de nombreux mots, des synonymes et une collection de vocabulaire. Le système vérifiera si une entité particulière présente dans le texte est également disponible dans le vocabulaire. En utilisant un algorithme de mise en correspondance de chaînes, une vérification croisée des entités est effectuée.

    Un inconvénient de l'utilisation de cette approche est qu'il est nécessaire de mettre à jour constamment l'ensemble de données de vocabulaire pour le fonctionnement efficace du modèle NER.

  • Systèmes basés sur des règles

    Dans cette approche, les informations sont extraites sur la base d'un ensemble de règles prédéfinies. Il existe deux principaux ensembles de règles utilisées,

    Règles basées sur des modèles – Comme son nom l'indique, une règle basée sur un modèle suit un modèle morphologique ou une chaîne de mots utilisée dans le document.

    Règles basées sur le contexte – Les règles contextuelles dépendent de la signification ou du contexte du mot dans le document.

  • Systèmes basés sur l'apprentissage automatique

    Dans les systèmes basés sur l'apprentissage automatique, la modélisation statistique est utilisée pour détecter les entités. Une représentation basée sur les caractéristiques du document texte est utilisée dans cette approche. Vous pouvez surmonter plusieurs inconvénients des deux premières approches puisque le modèle peut reconnaître types d'entités malgré de légères variations dans leur orthographe.

Cas d'utilisation et exemples de reconnaissance d'entités nommées ?

Dévoilement de la polyvalence de la reconnaissance d'entités nommées (NER) :

  1. Chatbots: NER aide les chatbots comme ChatGPT d'OpenAI à comprendre les requêtes des utilisateurs en identifiant les entités clés.
  2. Service à la Clientèle: Il organise les commentaires des clients par noms de produits, accélérant ainsi les temps de réponse.
  3. Finances: NER extrait des données cruciales des rapports financiers, facilitant l'analyse des tendances et l'évaluation des risques.
  4. Soins de santé: Il extrait les informations essentielles des dossiers cliniques, favorisant ainsi une analyse plus rapide des données.
  5. HEURE: Il rationalise le recrutement en résumant les profils des candidats et en canalisant les commentaires des employés.
  6. Fournisseurs de nouvelles : NER catégorise le contenu en informations et tendances pertinentes, accélérant ainsi la création de rapports.
  7. Moteurs de recommandation : Des entreprises comme Netflix utilisent NER pour personnaliser les recommandations en fonction du comportement des utilisateurs.
  8. Moteurs de recherche: En catégorisant le contenu Web, NER améliore la précision des résultats de recherche.
  9. Analyse des sentiments: NER extrait les mentions de marque à partir des avis, alimentant ainsi les outils d'analyse des sentiments.

Applications du NER

NER a plusieurs cas d'utilisation dans de nombreux domaines liés au traitement du langage naturel et à la création d'ensembles de données de formation pour machine learning et l'apprentissage en profondeur solutions. Certaines des applications de NER sont:

  • Assistance client simplifiée

    Un système NER peut facilement repérer les plaintes, requêtes et commentaires pertinents des clients en fonction d'informations cruciales telles que les noms de produits, les spécifications, l'emplacement des succursales, etc. La plainte ou le commentaire est correctement classé et redirigé vers le bon service en filtrant les mots-clés prioritaires.

  • Des ressources humaines efficaces

    NER aide les équipes de ressources humaines à améliorer leur processus de recrutement et à réduire les délais en résumant rapidement les CV des candidats. Les outils NER peuvent analyser le CV et extraire les informations pertinentes : nom, âge, adresse, qualification, université, etc.

    De plus, le service RH peut également utiliser les outils NER pour rationaliser les flux de travail internes en filtrant les plaintes des employés et en les transmettant aux chefs de service concernés.

  • Classification simplifiée du contenu

    La classification du contenu est une tâche colossale pour les fournisseurs d'informations. La classification du contenu en différentes catégories facilite la découverte, l'obtention d'informations, l'identification des tendances et la compréhension des sujets. Un nommé Reconnaissance d'entité outil peut être utile pour les fournisseurs de nouvelles. Il peut analyser de nombreux articles, identifier les mots-clés prioritaires et extraire des informations en fonction des personnes, de l'organisation, de l'emplacement, etc.

  • Optimisation des moteurs de recherche

    L'optimisation des moteurs de recherche (SEO) TNS aide à simplifier et à améliorer la vitesse et la pertinence des résultats de recherche. Au lieu d'exécuter la requête de recherche pour des milliers d'articles, un modèle NER peut exécuter la requête une fois et enregistrer les résultats. Ainsi, sur la base des balises de la requête de recherche, les articles associés à la requête peuvent être rapidement récupérés.

     

  • Recommandation de contenu précise

    Plusieurs applications modernes dépendent des outils NER pour offrir une expérience client optimisée et personnalisée. Par exemple, Netflix fournit des recommandations personnalisées basées sur l'historique de recherche et de visualisation de l'utilisateur à l'aide de la reconnaissance d'entité nommée.

La reconnaissance d'entité nommée rend votre machine learning modèles plus performants et plus fiables. Cependant, vous avez besoin d'ensembles de données d'entraînement de qualité pour que vos modèles fonctionnent à leur niveau optimal et atteignent les objectifs visés. Tout ce dont vous avez besoin est un partenaire de service expérimenté qui peut vous fournir des ensembles de données de qualité prêts à l'emploi. Si tel est le cas, Shaip est votre meilleur pari pour le moment. Contactez-nous pour obtenir des ensembles de données NER complets afin de vous aider à développer des solutions ML efficaces et avancées pour vos modèles d'IA.

[A également lu: Étude de cas : Reconnaissance d'entités nommées (NER) pour la PNL clinique]

Comment fonctionne la reconnaissance des entités nommées ?

Plonger dans le domaine de la reconnaissance d'entités nommées (NER) dévoile un parcours systématique comprenant plusieurs phases :

  • tokenization

    Initialement, les données textuelles sont divisées en unités plus petites, appelées jetons, qui peuvent aller des mots aux phrases. Par exemple, la déclaration « Barack Obama était le président des États-Unis » est segmentée en jetons comme « Barack », « Obama », « était », « le », « président », « de », « le » et « ETATS-UNIS".

  • Détection d'entité

    En utilisant une concoction de directives linguistiques et de méthodologies statistiques, les entités nommées potentielles sont mises en lumière. Reconnaître des modèles tels que la majuscule dans les noms (« Barack Obama ») ou des formats distincts (comme les dates) est crucial à cette étape.

  • Classement des entités

    Après la détection, les entités sont triées dans des catégories prédéfinies telles que « Personne », « Organisation » ou « Emplacement ». Les modèles d’apprentissage automatique, nourris sur des ensembles de données étiquetés, déterminent souvent cette classification. Ici, « Barack Obama » est étiqueté comme « Personne » et « États-Unis » comme « Lieu ».

  • Évaluation contextuelle

    Les prouesses des systèmes NER sont souvent amplifiées par l’évaluation du contexte environnant. Par exemple, dans l'expression « Washington a été témoin d'un événement historique », le contexte aide à discerner « Washington » comme un lieu plutôt que comme le nom d'une personne.

  • Affinement post-évaluation

    Après l’identification et la classification initiales, un affinement post-évaluation peut s’ensuivre pour affiner les résultats. Cette étape pourrait résoudre les ambiguïtés, fusionner des entités multi-jetons ou utiliser des bases de connaissances pour augmenter les données d'entité.

Cette approche délimitée non seulement démystifie le cœur du NER, mais optimise également le contenu pour les moteurs de recherche, améliorant ainsi la visibilité du processus complexe qu'incarne le NER.

Avantages et défis du NER ?

Avantages :

  1. Extraction de l'information: NER identifie les données clés, facilitant ainsi la récupération d'informations.
  2. Organisation du contenu: Il permet de catégoriser le contenu, utile pour les bases de données et les moteurs de recherche.
  3. Expérience utilisateur améliorée: NER affine les résultats de recherche et personnalise les recommandations.
  4. Analyse approfondie: Il facilite l'analyse des sentiments et la détection des tendances.
  5. Flux de travail automatisé: NER favorise l'automatisation, en économisant du temps et des ressources.

Limites/Défis :

  1. Résolution d'ambiguïté: Luttes pour distinguer des entités similaires.
  2. Adaptation spécifique au domaine: gourmand en ressources dans divers domaines.
  3. Dépendance linguistique: L'efficacité varie selon les langues.
  4. Rareté des données étiquetées: Nécessite de grands ensembles de données étiquetés pour la formation.
  5. Gestion des données non structurées: Nécessite des techniques avancées.
  6. Mesure du rendement: Une évaluation précise est complexe.
  7. Traitement en temps réel: Équilibrer vitesse et précision est un défi.

Partager

Vous aimeriez aussi