Étude de cas : Licences d'ensembles de données médicales
Transformer les soins pédiatriques et gynécologiques grâce à une formation précise à la conservation et à l'annotation des données
Libérer la puissance des données médicales : conservation complète des données, désidentification, CM ICD-10 et annotation pour une formation supérieure des modèles d'IA.
Résumé du projet
Shaip s'est associé à une entreprise leader dans le domaine de l'IA médicale pour organiser et annoter des ensembles de données médicales anonymisées de haute qualité afin de former des modèles NLP avancés. Le projet s'est concentré sur les spécialités pédiatriques et gynécologiques, fournissant des dossiers de patients externes annotés avec les codes CIM-10 CM via une infrastructure API robuste.
L'ensemble de données a été structuré pour faciliter la formation de l'IA sur la documentation des soins de santé du monde réel, améliorant ainsi la capacité du modèle à comprendre les récits cliniques.
Principales statistiques
750 pages / ~300 dossiers de patients externes
375 pages Pédiatrie
375 pages OB-GYN
Annotations des codes médicaux CIM-10 CM 2023
Description du projet
| Type de jeu de données | Projets spéciaux | Volume | Métadonnées capturées | Remarques |
|---|---|---|---|---|
| Notes médicales | Pédiatrie | 375 pages (~150 enregistrements) |
Nom du fichier, spécialité, Type de document, classe de patient (ambulatoire) |
Comprend les sections Évaluation/Plan |
| OB-GYN | 375 pages (~150 enregistrements) | |||
| Annotations | CIM-10 CM (2023) | Ensemble de données complet | Cartographie de code via API | La validation du code par les codeurs est hors de portée |
Défis
Le projet a présenté plusieurs défis critiques qui ont nécessité une planification et une exécution méticuleuses :
1. Collecte de données spécifiques à la spécialité
Obtenir des dossiers de consultation externe de haute qualité, exclusivement auprès des spécialités pédiatriques et gynécologiques, était un défi. Chaque document devait inclure des sections cliniques clés, comme l'évaluation et le plan, pour permettre des annotations précises.
2. Désidentification complète des PHI
Garantir la suppression complète de toutes les informations personnelles identifiables (IPI) tout en préservant le contexte médical était essentiel pour la conformité à la loi HIPAA. Cela nécessitait des examens approfondis pour prévenir toute atteinte à la vie privée.
3. Annotation CM complexe de la CIM-10
L'application de codes précis de la CIM-10 CM (2023) via l'API était complexe en raison de la diversité des styles narratifs et de la terminologie médicale. La cohérence et la précision du codage étaient essentielles pour garantir un entraînement fiable des modèles d'IA.
4. Exactitude et cohérence des métadonnées
La capture et la validation sans divergence des métadonnées telles que la spécialité, le type de document et la catégorie de patients étaient essentielles. Toute incohérence pouvait impacter l'entraînement du modèle et l'utilisabilité des données.
5. Filtrage strict des patients externes
Le fait de s’assurer que tous les dossiers étaient strictement ambulatoires a ajouté de la complexité, car de nombreux documents cliniques peuvent contenir des classes de patients mixtes ou des sections incomplètes.
6. Normes d'assurance qualité et de précision
Atteindre le seuil de précision de 90 % nécessitait des examens à plusieurs niveaux pour éliminer les doublons, valider l'alignement des spécialités et garantir la désidentification, avec des dispositions pour les retouches si nécessaire.
Solution
Licences et annotations complètes des données
- Dossiers de consultation externe pédiatrique et gynécologique agréés
- Inclusion assurée des sections critiques : plainte principale, historique, ROS, évaluation, plan
- Annotation CM ICD-10 basée sur l'API (version 2023)
Désidentification et conformité
- Remplacement des PHI par des espaces réservés (PERSON_NAME, DATE, LOCATION, etc.)
- Assurer le respect des normes de confidentialité des données de santé
Marquage des métadonnées
- Métadonnées détaillées capturées par fichier :
-
- Nom du fichier
- Spécialité (pédiatrie ou gynécologie-obstétrique)
- Type de document (suivi, H&P, consultation)
- Cours pour patients (consultation externe uniquement)
Contrôle Qualité
- Des évaluations de qualité rigoureuses avec :
- Aucun doublon
- Validation de correspondance de spécialité
- Contrôle ambulatoire uniquement
- Vérification de la cohérence des métadonnées
- Remplacement ou correction des enregistrements dont le seuil de précision est inférieur à 90 %
Résultat
Shaip a fourni un ensemble de données de notes médicales structurées et annotées qui a permis au client de :
- Former des modèles d'IA pour une prédiction précise du code ICD-10 CM
- Améliorer les capacités de la PNL dans des scénarios de soins de santé réels
- Maintenir la conformité avec les normes de confidentialité et réglementaires
- Adaptez les modèles d'IA de santé aux domaines de la pédiatrie et de l'obstétrique-gynécologie
L'approche structurée de Shaip en matière de curation et d'annotation des ensembles de données a dépassé nos attentes. La précision, l'anonymisation et la précision des métadonnées ont considérablement renforcé notre pipeline d'entraînement des modèles d'IA.