Annotation des données – NER

Annotation Named Entity Recognition (NER) pour la PNL clinique

Annotation plus récente

Données textuelles cliniques bien annotées et Gold Standard pour former/développer la PNL clinique afin de créer la prochaine version de l'API Healthcare

L’importance du traitement clinique du langage naturel (PNL) a été de plus en plus reconnue au cours des dernières années et a conduit à des avancées transformatrices. La PNL clinique permet aux ordinateurs de comprendre la richesse du sens qui se cache derrière l’analyse écrite d’un patient par un médecin. La PNL clinique peut avoir de multiples cas d'utilisation allant de l'analyse de la santé de la population à l'amélioration de la documentation clinique, en passant par la reconnaissance vocale, l'appariement des essais cliniques, etc.

Pour développer et former des modèles cliniques de PNL, vous avez besoin d’ensembles de données précis, impartiaux et bien annotés dans d’énormes volumes. Gold Standard et diverses données contribuent à améliorer la précision et le rappel des moteurs PNL.

Volume

Nombre de documents annotés
10
Nombre de pages annotées
10 +
Durée du projet
< 1 mois

Défis

Le client était impatient de former et de développer sa plate-forme de traitement du langage naturel (NLP) avec de nouveaux types d'entités et également d'identifier la relation entre les différents types. De plus, ils évaluaient des fournisseurs qui offraient une grande précision, respectaient les lois locales et possédaient les connaissances médicales requises pour annoter un large ensemble de données.

La tâche consistait à étiqueter et annoter jusqu'à 20,000 15,000 dossiers étiquetés, dont jusqu'à 5,000 1 dossiers étiquetés provenant de données de dossiers de santé électroniques (DSE) de patients hospitalisés et ambulatoires et jusqu'à 2 XNUMX dossiers étiquetés provenant de dictées médicales transcrites, répartis également entre (XNUMX) provenances géographiques et ( XNUMX) spécialités médicales disponibles.

Donc, pour résumer les défis :

  • Organisez des données cliniques hétérogènes pour former la plateforme PNL
  • Identifier la relation entre les différentes entités pour obtenir des informations critiques
  • Capacité et expertise pour étiqueter/annoter un large ensemble de documents cliniques complexes
  • Garder le contrôle des coûts pour étiqueter/annoter un grand volume de données afin de former la PNL clinique dans les délais impartis
  • Annotez les entités dans l’ensemble de données cliniques composé à 75 % d’enregistrements DSE et à 25 % de dictée.
  • Désidentification des données au moment de la livraison

Autres défis dans la compréhension du langage naturel

Ambiguïté

Les mots sont uniques mais peuvent avoir des significations différentes selon le contexte, ce qui entraîne une ambiguïté aux niveaux lexical, syntaxique et sémantique.

Synonymie

On peut exprimer la même idée avec différents termes qui sont aussi synonymes : grand et grand signifient la même chose pour décrire un objet.

Coreference

Le processus de recherche de toutes les expressions faisant référence à la même entité dans un texte est appelé résolution de coréférence.

Personnalité, intention, émotions

Selon la personnalité de l'orateur, son intention et ses émotions peuvent être exprimées différentement pour la même idée.

Solution

Un volume important de données et de connaissances médicales est disponible, sous forme de documents médicaux, mais principalement sous un format non structuré. Avec l'annotation d'entité médicale / annotation de reconnaissance d'entité nommée (NER), Shaip a pu convertir des données non structurées en un format structuré en annotant des informations utiles provenant de divers types de dossiers cliniques. Une fois les entités identifiées, les relations entre elles ont également été cartographiées pour identifier les informations critiques.

Portée des travaux : Annotation de la mention de l'entité de soins de santé

9 types d'entités

  • Condition médicale
  • Procédure médicale
  • Structure anatomique
  • et Médicales
  • Dispositif médical
  • Mesure du corps
  • L'abus de substances
  • Données de laboratoire
  • Fonction corporelle

17 modificateurs

  • Modificateurs de médicaments : force, unité, dose, de, fréquence, voie, durée, statut
  • Modificateurs de mesure corporelle : valeur, unité, résultat
  • Modificateurs de procédure : méthode
    • Modificateur de données de laboratoire : valeur de laboratoire, unité de laboratoire, résultat de laboratoire
  • Gravité
  • Résultat de la procédure

27 Relations et statut du patient

Résultat

Les données annotées seraient utilisées pour développer et former la plateforme PNL clinique du Client, qui serait intégrée dans la prochaine version de son API Healthcare. Les avantages que le client en a retirés étaient les suivants :

  • Les données étiquetées/annotées respectaient les directives d'annotation de données standard du Client.
  • Des ensembles de données hétérogènes ont été utilisés pour entraîner la plateforme NLP à une plus grande précision.
  • Les relations entre différentes entités, c'est-à-dire structure anatomique du corps <> dispositif médical, état médical <> dispositif médical, état médical <> médicament, état médical <> procédure, ont été identifiées pour obtenir des informations médicales critiques.
  • Le vaste ensemble de données étiquetées/annotées a également été anonymisé au moment de la livraison.

Notre collaboration avec Shaip a considérablement fait progresser notre projet en matière de technologie ambiante et d'IA conversationnelle dans le domaine de la santé. Leur expertise dans la création et la transcription de dialogues synthétiques sur les soins de santé a fourni une base solide, démontrant le potentiel des données synthétiques pour surmonter les défis réglementaires. Avec Shaip, nous avons surmonté ces obstacles et sommes désormais sur le point de concrétiser notre vision de solutions de soins de santé intuitives.

Or-5 étoiles

Accélérez votre IA conversationnelle
développement d'applications à 100%