Étude de cas : Licences d'ensembles de données médicales

Transformer les soins pédiatriques et gynécologiques grâce à une formation précise à la conservation et à l'annotation des données

Libérer la puissance des données médicales : conservation complète des données, désidentification, CM ICD-10 et annotation pour une formation supérieure des modèles d'IA.

Licences d'ensembles de données médicales

Résumé du projet

Shaip s'est associé à une entreprise leader dans le domaine de l'IA médicale pour organiser et annoter des ensembles de données médicales anonymisées de haute qualité afin de former des modèles NLP avancés. Le projet s'est concentré sur les spécialités pédiatriques et gynécologiques, fournissant des dossiers de patients externes annotés avec les codes CIM-10 CM via une infrastructure API robuste.

L'ensemble de données a été structuré pour faciliter la formation de l'IA sur la documentation des soins de santé du monde réel, améliorant ainsi la capacité du modèle à comprendre les récits cliniques.

Licences d'ensembles de données médicales

Principales statistiques

750 pages / ~300 dossiers de patients externes

375 pages Pédiatrie

375 pages OB-GYN

Annotations des codes médicaux CIM-10 CM 2023

Description du projet

Type de jeu de données Projets spéciaux Volume Métadonnées capturées Remarques
Notes médicales Pédiatrie 375 pages (~150 enregistrements) Nom du fichier, spécialité,
Type de document, classe de patient (ambulatoire)
Comprend les sections Évaluation/Plan
OB-GYN 375 pages (~150 enregistrements)
Annotations CIM-10 CM (2023) Ensemble de données complet Cartographie de code via API La validation du code par les codeurs est hors de portée

Défis

Le projet a présenté plusieurs défis critiques qui ont nécessité une planification et une exécution méticuleuses :

1. Collecte de données spécifiques à la spécialité

Obtenir des dossiers de consultation externe de haute qualité, exclusivement auprès des spécialités pédiatriques et gynécologiques, était un défi. Chaque document devait inclure des sections cliniques clés, comme l'évaluation et le plan, pour permettre des annotations précises.

2. Désidentification complète des PHI

Garantir la suppression complète de toutes les informations personnelles identifiables (IPI) tout en préservant le contexte médical était essentiel pour la conformité à la loi HIPAA. Cela nécessitait des examens approfondis pour prévenir toute atteinte à la vie privée.

3. Annotation CM complexe de la CIM-10

L'application de codes précis de la CIM-10 CM (2023) via l'API était complexe en raison de la diversité des styles narratifs et de la terminologie médicale. La cohérence et la précision du codage étaient essentielles pour garantir un entraînement fiable des modèles d'IA.

4. Exactitude et cohérence des métadonnées

La capture et la validation sans divergence des métadonnées telles que la spécialité, le type de document et la catégorie de patients étaient essentielles. Toute incohérence pouvait impacter l'entraînement du modèle et l'utilisabilité des données.

5. Filtrage strict des patients externes

Le fait de s’assurer que tous les dossiers étaient strictement ambulatoires a ajouté de la complexité, car de nombreux documents cliniques peuvent contenir des classes de patients mixtes ou des sections incomplètes.

6. Normes d'assurance qualité et de précision

Atteindre le seuil de précision de 90 % nécessitait des examens à plusieurs niveaux pour éliminer les doublons, valider l'alignement des spécialités et garantir la désidentification, avec des dispositions pour les retouches si nécessaire.

Solution

Licences et annotations complètes des données

  • Dossiers de consultation externe pédiatrique et gynécologique agréés
  • Inclusion assurée des sections critiques : plainte principale, historique, ROS, évaluation, plan
  • Annotation CM ICD-10 basée sur l'API (version 2023)

Désidentification et conformité

  • Remplacement des PHI par des espaces réservés (PERSON_NAME, DATE, LOCATION, etc.)
  • Assurer le respect des normes de confidentialité des données de santé

Marquage des métadonnées

  • Métadonnées détaillées capturées par fichier :
    • Nom du fichier
    • Spécialité (pédiatrie ou gynécologie-obstétrique)
    • Type de document (suivi, H&P, consultation)
    • Cours pour patients (consultation externe uniquement)

Contrôle Qualité

  • Des évaluations de qualité rigoureuses avec :
    • Aucun doublon
    • Validation de correspondance de spécialité
    • Contrôle ambulatoire uniquement
    • Vérification de la cohérence des métadonnées
  • Remplacement ou correction des enregistrements dont le seuil de précision est inférieur à 90 %

Résultat

Shaip a fourni un ensemble de données de notes médicales structurées et annotées qui a permis au client de :

  • Former des modèles d'IA pour une prédiction précise du code ICD-10 CM
  • Améliorer les capacités de la PNL dans des scénarios de soins de santé réels
  • Maintenir la conformité avec les normes de confidentialité et réglementaires
  • Adaptez les modèles d'IA de santé aux domaines de la pédiatrie et de l'obstétrique-gynécologie

L'approche structurée de Shaip en matière de curation et d'annotation des ensembles de données a dépassé nos attentes. La précision, l'anonymisation et la précision des métadonnées ont considérablement renforcé notre pipeline d'entraînement des modèles d'IA.

Or-5 étoiles