L’analyse de données structurées peut contribuer à améliorer le diagnostic et les soins aux patients. En revanche, l’analyse de données non structurées peut favoriser des avancées et des découvertes médicales révolutionnaires.
C'est l'essentiel du sujet que nous allons aborder aujourd'hui. Il est très intéressant d'observer que tant d'avancées radicales dans le domaine des technologies de la santé ont eu lieu avec seulement 10 à 20 % des données de santé exploitables.
Les statistiques révèlent que plus de 90 % des données de ce spectre ne sont pas structurées, ce qui se traduit par des données moins exploitables et plus difficiles à comprendre, à interpréter et à appliquer. Des données analogiques telles qu'une ordonnance médicale aux données numériques sous forme d'imagerie médicale et de données audiovisuelles, les données non structurées sont de différents types.
Ces volumes massifs de données non structurées recèlent des informations incroyables qui peuvent accélérer les progrès de la santé de plusieurs décennies. Qu'il s'agisse de contribuer à la découverte de médicaments pour les maladies auto-immunes critiques et mortelles ou de données pouvant aider les compagnies d'assurance maladie à évaluer les risques, les données non structurées peuvent ouvrir la voie à des possibilités inconnues.
Lorsque de telles ambitions sont en place, l'interprétabilité et l'interopérabilité des données de santé deviennent cruciales. Avec des directives strictes et l'application de la conformité réglementaire comme le RGPD et la HIPAA en place, ce qui devient inévitable est désidentification des données de santé.
Nous avons déjà couvert un article complet sur la démystification données de santé structurées et données de santé non structuréesIl y a un article dédié (à lire en détail) sur désidentification des données de santé ainsi. Nous vous invitons à les lire pour des informations holistiques car nous aurons cet article pour un article spécial sur désidentification des données non structurées.
Défis liés à la désidentification des données non structurées
Comme leur nom l'indique, les données non structurées ne sont pas organisées. Elles sont dispersées en termes de formats, de types de fichiers, de tailles, de contexte, etc. Le simple fait que les données non structurées existent sous forme d'audio, de texte, d'imagerie médicale, d'entrées analogiques, etc., rend d'autant plus difficile la compréhension des identifiants d'informations personnelles (PII), qui sont essentiels dans désidentification des données non structurées.
Pour vous donner un aperçu des défis fondamentaux, voici une liste rapide :
- Compréhension contextuelle – lorsqu'il est difficile pour un acteur de l'IA de comprendre le contexte spécifique derrière une partie ou un aspect particulier de données non structurées. Par exemple, comprendre si un nom est le nom d'une entreprise, le nom d'une personne ou le nom d'un produit peut poser un dilemme quant à savoir s'il doit être anonymisé.
- Données non textuelles – où l’identification d’indices auditifs ou visuels pour des noms ou des informations personnelles identifiables peut être une tâche ardue, car une partie prenante peut être amenée à regarder des heures et des heures de séquences ou d’enregistrements pour tenter de dépersonnaliser des aspects critiques.
- Ambiguïté – cela est particulièrement vrai dans le contexte des données analogiques telles qu'une ordonnance médicale ou une inscription dans un registre d'hôpital. De l'écriture manuscrite aux limitations d'expression en langage naturel, la dépersonnalisation des données pourrait s'avérer une tâche complexe.
Bonnes pratiques de désidentification des données non structurées
Le processus de suppression des informations personnelles identifiables à partir de données non structurées est assez différent de celui désidentification des données structurées mais ce n'est pas impossible. Grâce à une approche systématique et contextuelle, le potentiel des données non structurées peut être exploité de manière transparente. Examinons les différentes manières d'y parvenir.
Rédaction d'image : Cette opération concerne les données d'imagerie médicale et implique la suppression des identifiants des patients et le floutage des références et des parties anatomiques des images. Ces éléments sont remplacés par des caractères spéciaux pour conserver la fonctionnalité diagnostique et l'utilité des données d'imagerie.
Correspondance de motif : Certaines des informations personnelles les plus courantes, telles que les noms, les coordonnées et les adresses, peuvent être détectées et supprimées grâce à l’étude de modèles prédéfinis.
Confidentialité différentielle ou perturbation des données : il s'agit d'inclure un bruit contrôlé pour masquer des données ou des attributs qui peuvent être reliés à un individu. Cette méthode idéale garantit non seulement la désidentification des données, mais également la conservation des propriétés statistiques de l'ensemble de données pour les analyses.
Désidentification des données : Il s'agit de l'une des méthodes les plus fiables et les plus efficaces pour supprimer les informations personnelles identifiables des données non structurées. Cette méthode peut être mise en œuvre de deux manières :
- Enseignement supervisé – lorsqu’un modèle est formé pour classer du texte ou des données comme PII ou non-PII
- Apprentissage non supervisé – où un modèle est formé pour apprendre de manière autonome à détecter des modèles dans l’identification des informations personnelles identifiables
Cette méthode assure la sauvegarde de confidentialité des patients tout en conservant l'intervention humaine pour les aspects les plus redondants de la tâche. Les parties prenantes et les fournisseurs de données de santé qui déploient des techniques de ML pour dépersonnaliser les données non structurées peuvent simplement disposer d'un processus d'assurance qualité activé par l'homme pour garantir l'équité, la pertinence et l'exactitude des résultats.
Masquage des données : Le masquage des données est un jeu de mots numérique permettant de dépersonnaliser les données de santé, où des identifiants spécifiques sont rendus génériques ou vagues grâce à des techniques de niche telles que :
- Tokenisation – impliquant le remplacement des PII par des caractères ou des jetons
- Généralisation – en remplaçant les valeurs PII spécifiques par des valeurs génériques/vagues
- Mélange – en mélangeant les informations personnelles identifiables pour les rendre ambiguës
Cependant, cette méthode comporte une limitation : avec un modèle ou une approche sophistiquée, les données peuvent être rendues ré-identifiables.
Externalisation vers les acteurs du marché
La seule bonne approche pour garantir le processus de désidentification des données non structurées est étanche, infaillible et conforme aux directives HIPAA consiste à sous-traiter les tâches à un fournisseur de services fiable comme ShaiAvec des modèles de pointe et des protocoles d'assurance qualité rigoureux, nous garantissons surveillance humaine en matière de confidentialité des données est atténuée à tout moment.
En tant qu'entreprise dominante sur le marché depuis des années, nous comprenons l'importance de vos projets. Alors, contactez-nous dès aujourd'hui pour optimiser vos ambitions en matière de santé grâce aux données de santé anonymisées par Shaip.


