Définition
La reconnaissance d'entités nommées (NER) est une tâche NLP qui identifie et classe les entités dans le texte, telles que les personnes, les organisations, les lieux, les dates ou les produits.
Interet
L'objectif est de structurer du texte non structuré en extrayant des entités clés. Il prend en charge la recherche, l'extraction d'informations et la création de graphes de connaissances.
Importance
- Fondamental pour la recherche d'informations et les pipelines NLP.
- Les erreurs se propagent aux applications en aval.
- Le NER spécifique à un domaine (par exemple, médical, juridique) nécessite des ensembles de données personnalisés.
- Lié à des tâches telles que la liaison d'entités et l'extraction de relations.
Aide
- Collecter et prétraiter le texte.
- Annotez les ensembles de données avec des catégories d’entités.
- Modèles de trains sur des exemples étiquetés (CRF, transformateurs).
- Prédire les entités dans un texte invisible.
- Valider l’exactitude avec des données de test.
Exemples (monde réel)
- spaCy : bibliothèque NLP open source avec NER intégré.
- Stanford CoreNLP : fournit des outils de reconnaissance d'entités nommées.
- PNL financière : extrait les noms des entreprises à partir de rapports.
Références / Lectures complémentaires
- Jurafsky et Martin. Traitement de la parole et du langage. Stanford.
- Lample et al. « Architectures neuronales pour la reconnaissance d'entités nommées. » ACL.
- Modèles Transformers NER à visage câlin.
- Qu'est-ce que la reconnaissance d'entités nommées (NER)