Ensembles de données sur les soins de santé

22 ensembles de données de santé libres et ouverts pour le développement de l'apprentissage automatique et de l'IA en 2025

Aujourd'hui, les soins de santé reposent de plus en plus sur l'apprentissage automatique (ML). De la prédiction des maladies à l'amélioration des diagnostics, le ML transforme les résultats des soins de santé. Cependant, tout projet de ML repose sur une pierre angulaire : des ensembles de données de qualité.

Dans ce blog, nous avons compilé des ensembles de données médicales libres et ouvertes couvrant des domaines tels que la santé générale, l'imagerie médicale, la génomique et le secteur hospitalier. Que vous soyez chercheur ou développeur, ces ensembles de données vous aideront à créer des modèles de santé robustes et innovants.

Que sont les ensembles de données sur les soins de santé ?

Un ensemble de données médicales ou de santé est un ensemble d'informations relatives à la santé, telles que les dossiers médicaux des patients, les résultats d'analyses, les images médicales ou l'historique des traitements. Les ensembles de données médicales sont souvent organisés en collections de données, qui constituent des référentiels organisés destinés à la recherche, à la santé publique et à l'usage clinique.

Ces ensembles de données servent à étudier les maladies, à améliorer les traitements et à développer des outils tels que des modèles d'IA pour améliorer le diagnostic et les soins. De nombreux ensembles de données de santé contiennent des données de santé anonymisées, garantissant ainsi la confidentialité des patients tout en permettant des recherches et des analyses précieuses.

Ils jouent un rôle clé dans l’avancement de la recherche et l’amélioration des résultats pour les patients.

Importance des ensembles de données de santé pour la formation de votre modèle d'apprentissage automatique

Importance des ensembles de données de santé

Les données de santé regroupent des informations sur les patients, telles que leurs dossiers médicaux, leurs diagnostics, leurs traitements, leurs données génétiques et leurs habitudes de vie. La science des données joue un rôle crucial dans l'analyse de ces données, permettant aux chercheurs de tirer des enseignements et de stimuler l'innovation dans les soins aux patients. Elles sont essentielles dans le monde actuel, où l'IA est de plus en plus utilisée. Voici pourquoi : les données de référence sont essentielles pour évaluer et comparer les performances des modèles d'apprentissage automatique dans le secteur de la santé.

Comprendre la santé des patients :

Les données médicales offrent aux médecins une vision complète de l'état de santé d'un patient. Par exemple, les données sur ses antécédents médicaux, ses médicaments et son mode de vie peuvent aider à prédire s'il est susceptible de développer une maladie chronique. Cela permet aux médecins d'intervenir rapidement et d'élaborer un plan de traitement adapté à chaque patient.

Aider la recherche médicale :

En étudiant les données de santé, les chercheurs médicaux peuvent analyser le traitement et la guérison des patients atteints de cancer. Ils peuvent ainsi identifier les traitements les plus efficaces en situation réelle. Par exemple, en analysant des échantillons tumoraux dans des biobanques, les chercheurs analysent souvent l'expression génétique et utilisent des données relatives à des types de tumeurs et des profils génétiques spécifiques pour comprendre la progression du cancer, ainsi que la réaction de certaines mutations et protéines cancéreuses aux différents traitements. Cette approche basée sur les données permet d'identifier des tendances qui conduisent à de meilleurs résultats pour les patients.

Un meilleur diagnostic et un meilleur traitement :

Les outils basés sur l'IA exploitent des bases de données de diagnostic médical, pouvant inclure des signes vitaux comme la fréquence cardiaque et la tension artérielle, pour identifier des tendances qui aident les médecins à diagnostiquer et à traiter les maladies plus efficacement. En radiologie, l'IA peut rapidement identifier les anomalies sur les scanners avec une précision impressionnante, permettant ainsi une détection précoce des maladies. L'évolution constante de ces bases de données favorise des innovations telles que annotation d'images médicales Les processus de diagnostic sont encore affinés et l’inclusion des données démographiques des patients dans ces ensembles de données permet d’adapter les outils de diagnostic à diverses populations, ce qui conduit à de meilleurs résultats de santé pour les patients.

Aider les initiatives de santé publique :

Imaginez une petite ville où des experts de la santé ont utilisé des ensembles de données pour suivre une épidémie de grippe. Ils ont analysé les tendances et identifié les zones touchées. Grâce à ces données, ils ont lancé des campagnes de vaccination ciblées et des campagnes d'éducation sanitaire. Cette approche, basée sur les données, a contribué à contenir la grippe. De tels ensembles de données sont également essentiels aux efforts de contrôle des maladies et au suivi des tendances en matière de nutrition infantile en santé publique. Cet article montre comment les ensembles de données de santé peuvent activement orienter et améliorer les initiatives de santé publique, le suivi de la nutrition infantile étant un élément essentiel de nombreux ensembles de données de santé publique.

Sources de données cliniques

Les données cliniques constituent l'épine dorsale des bases de données de santé modernes. Elles offrent un ensemble complet d'informations qui favorisent les progrès des soins aux patients et de la recherche médicale. Ces données proviennent de divers canaux, notamment les dossiers médicaux électroniques (DME), l'imagerie médicale et le séquençage génomique. L'Organisation mondiale de la Santé (OMS) gère un référentiel mondial de données de santé, donnant accès aux données cliniques des systèmes de santé du monde entier. Cette richesse permet aux chercheurs d'effectuer des analyses de santé et de découvrir des informations précieuses sur les schémas pathologiques, l'efficacité des traitements et les résultats pour les patients.

Des bases de données spécialisées, telles que l'Initiative de neuroimagerie de la maladie d'Alzheimer (ADNI) et l'Atlas du génome du cancer (TCGA), enrichissent encore le paysage en fournissant des données cliniques détaillées sur la progression de la maladie, les marqueurs génétiques et les réponses thérapeutiques. Ces ressources jouent un rôle essentiel dans le développement de modèles d'apprentissage automatique capables de prédire les résultats cliniques, de personnaliser les traitements et, in fine, d'améliorer les résultats des patients tout en réduisant les coûts de santé. En exploitant une collection aussi complète de données cliniques, le secteur de la santé est mieux armé pour relever les défis de santé mondiaux et stimuler l'innovation dans la recherche médicale.

Découvrez 22 ensembles de données ouverts et gratuits pour l'apprentissage des sciences médicales et de la vie

Les jeux de données ouverts sont essentiels au bon fonctionnement de tout modèle d'apprentissage automatique. Nombre d'entre eux proviennent de vastes bases de données médicales gérées par des instituts nationaux et des organismes de services sociaux. L'apprentissage automatique est déjà utilisé dans les sciences de la vie, la santé et la médecine, et ses résultats sont excellents. Il permet de prédire les maladies et de comprendre leur propagation. Il offre également des pistes pour une prise en charge optimale des personnes malades, âgées et en mauvaise santé au sein d'une communauté. Sans jeux de données de qualité, ces modèles d'apprentissage automatique seraient impossibles.

Santé générale et publique :

  • data.gov: Se concentre sur les données de santé orientées vers les États-Unis qui peuvent être facilement recherchées à l'aide de plusieurs paramètres. Les ensembles de données sont conçus pour améliorer le bien-être des personnes résidant aux États-Unis ; cependant, ces informations pourraient également s’avérer utiles pour d’autres ensembles de formation dans le domaine de la recherche ou dans d’autres domaines de la santé publique.
  • QUI: Propose des ensembles de données centrés sur les priorités mondiales en matière de santé. La plateforme intègre une fonction de recherche conviviale et fournit des informations précieuses ainsi que les ensembles de données pour une compréhension complète des sujets traités.
  • Re3Données: Propose des données couvrant plus de 2,000 XNUMX sujets de recherche classés en plusieurs grands domaines. Bien que tous les ensembles de données ne soient pas librement accessibles, la plateforme indique clairement la structure et permet une recherche facile en fonction de facteurs tels que les frais, les conditions d'adhésion et les restrictions en matière de droits d'auteur.
  • Base de données sur la mortalité humaine offre un accès à des données sur les taux de mortalité, les chiffres de la population et diverses statistiques sanitaires et démographiques pour 35 pays.
  • CHDS: Les ensembles de données des études sur la santé et le développement de l'enfant visent à étudier la transmission intergénérationnelle des maladies et de la santé. Il englobe des ensembles de données permettant de rechercher non seulement l'expression génomique, mais également l'influence de facteurs sociaux, environnementaux et culturels sur la maladie et la santé.
  • Défi d'activité moléculaire Merck: Présente des ensembles de données conçus pour promouvoir l'application de l'apprentissage automatique dans la découverte de médicaments en simulant les interactions potentielles entre diverses combinaisons de molécules.
  • 1000 projet Genomes: Contient des données de séquençage de 2,500 26 individus répartis dans XNUMX populations différentes, ce qui en fait l'un des plus grands référentiels génomiques accessibles. Cette collaboration internationale est accessible via AWS. (Notez que des subventions sont disponibles pour les projets sur le génome.)

Ensembles de données d'images médicales pour les sciences de la vie, les soins de santé et la médecine :

  • Neuro ouvert: En tant que plateforme gratuite et ouverte, OpenNeuro partage un large éventail d'images médicales, notamment des données IRM, MEG, EEG, iEEG, ECoG, ASL et PET. Avec 563 ensembles de données médicales couvrant 19,187 XNUMX participants, il constitue une ressource inestimable pour les chercheurs et les professionnels de santé.
  • Oasis: Issu de l'Open Access Series of Imaging Studies (OASIS), cet ensemble de données s'efforce de fournir gratuitement au public des données de neuroimagerie pour le bénéfice de la communauté scientifique. Il englobe 1,098 2,168 sujets répartis dans 1,608 XNUMX séances IRM et XNUMX XNUMX séances TEP, offrant une richesse d’informations aux chercheurs.
  • Initiative de neuroimagerie de la maladie d'Alzheimer: L'Alzheimer's Disease Neuroimaging Initiative (ADNI) présente les données collectées par des chercheurs du monde entier qui se consacrent à définir la progression de la maladie d'Alzheimer. L'ensemble de données comprend une collection complète d'images IRM et TEP, d'informations génétiques, de tests cognitifs et de biomarqueurs du LCR et du sang, facilitant une approche multiforme pour comprendre cette maladie complexe.
  • MIMIC-IIIUne base de données complète sur les patients en soins intensifs, comprenant des rapports d'imagerie et des informations cliniques, est accessible via MIMIC-III. Cette ressource anonymisée soutient la recherche en soins intensifs et la modélisation prédictive.
  • CheXpertPour l'interprétation automatisée des radiographies thoraciques, CheXpert fournit un vaste ensemble de données de plus de 224,000 XNUMX images radiographiques thoraciques avec des étiquettes d'incertitude. Ce système joue un rôle crucial dans la recherche en radiologie et la détection des maladies.
  • HAM10000: Faisant progresser la recherche dermatologique et la prédiction du cancer de la peau, HAM10000 propose 10,000 XNUMX images dermatoscopiques pour détecter les lésions cutanées pigmentées.

Ensembles de données hospitalières :

  • Catalogue de données du fournisseur: Accédez et téléchargez des ensembles de données complets sur les fournisseurs dans des domaines tels que les installations de dialyse, les cabinets médicaux, les services de santé à domicile, les soins palliatifs, les hôpitaux, la réadaptation pour patients hospitalisés, les hôpitaux de soins de longue durée, les maisons de retraite avec services de réadaptation, les coûts des visites chez les médecins et les répertoires de fournisseurs.
  • Projet sur le coût et l'utilisation des soins de santé (HCUP): Cette base de données complète à l'échelle nationale a été créée pour identifier, suivre et analyser les tendances nationales en matière d'utilisation, d'accès, de tarifs, de qualité et de résultats des soins de santé. Chaque ensemble de données médicales du HCUP contient des informations au niveau des rencontres sur tous les séjours des patients, les visites aux services d'urgence et les chirurgies ambulatoires dans les hôpitaux américains, fournissant ainsi une richesse de données aux chercheurs et aux décideurs politiques.
  • Base de données des soins intensifs MIMIC: Développé par le MIT à des fins de physiologie computationnelle, cet ensemble de données médicales librement disponibles comprend des données de santé anonymisées provenant de plus de 40,000 XNUMX patients en soins intensifs. L'ensemble de données MIMIC constitue une ressource précieuse pour les chercheurs qui étudient les soins intensifs et développent de nouvelles méthodes informatiques.

Ensembles de données sur le cancer :

  • Images médicales de tomodensitométrie: Conçu pour faciliter les méthodes alternatives d'examen des tendances dans les données d'images CT, cet ensemble de données présente des tomodensitogrammes de patients atteints de cancer, en se concentrant sur des facteurs tels que le contraste, la modalité et l'âge du patient. Les chercheurs peuvent exploiter ces données pour développer de nouvelles techniques d’imagerie et analyser les tendances en matière de diagnostic et de traitement du cancer.
  • Collaboration internationale sur la notification du cancer (ICCR)Les bases de données médicales de l'ICCR ont été élaborées et mises à disposition afin de promouvoir une approche factuelle de la déclaration des cas de cancer à l'échelle mondiale. En normalisant la déclaration des cas de cancer, l'ICCR vise à améliorer la qualité et la comparabilité des données sur le cancer entre les institutions et les pays.
  • SEER Incidence du cancer: fournies par le gouvernement américain, ces données sur le cancer sont segmentées en utilisant des distinctions démographiques de base telles que la race, le sexe et l'âge. L'ensemble de données SEER permet aux chercheurs d'étudier l'incidence du cancer et les taux de survie dans différents sous-groupes de population, éclairant ainsi les initiatives de santé publique et les priorités de recherche.
  • Ensemble de données sur le cancer du poumon: Cet ensemble de données gratuit contient des informations sur les cas de cancer du poumon remontant à 1995. Les chercheurs peuvent utiliser ces données pour étudier les tendances à long terme de l'incidence, du traitement et des résultats du cancer du poumon, ainsi que pour développer de nouveaux outils de diagnostic et de pronostic.

Ressources supplémentaires pour les données de santé :

  • Kaggle: Un référentiel d'ensembles de données polyvalent – ​​Kaggle reste une plate-forme exceptionnelle pour un large éventail d'ensembles de données, ne se limitant pas au secteur de la santé. Idéal pour ceux qui se lancent dans divers sujets ou qui ont besoin d'ensembles de données divers pour la formation de modèles, Kaggle est une ressource incontournable.
  • Subreddit: Un trésor communautaire – Les bonnes discussions de subreddit peuvent être une mine d'or pour les ensembles de données ouverts. Pour les requêtes de niche ou spécifiques non traitées par les ensembles de données publics, la communauté Reddit pourrait détenir la réponse.

Les avantages et les inconvénients des plateformes de données en libre accès

Les plateformes de données en libre accès constituent des ressources précieuses pour les chercheurs, favorisant l'innovation, la collaboration et un accès économique aux données de santé. Cependant, des défis tels que la qualité des données, les préoccupations en matière de confidentialité et les obstacles techniques peuvent limiter leur efficacité. Il est essentiel de trouver un équilibre entre ces avantages et ces inconvénients pour maximiser leur potentiel et favoriser les avancées de la recherche en santé.

Avantages Inconvénients
Accessibilité:Les ensembles de données librement disponibles permettent aux chercheurs et aux scientifiques des données d’accéder plus facilement à des informations précieuses. Problèmes de qualité des données:Les ensembles de données en libre accès peuvent manquer de normalisation ou contenir des données incomplètes ou obsolètes.
Collaboration:Encourage la collaboration intersectorielle et interdisciplinaire en matière de recherche et d’innovation. Problèmes de confidentialité:Même les ensembles de données anonymisés peuvent présenter des risques de réidentification d’informations sensibles.
Innovation: Dirige le développement de modèles et d’outils d’apprentissage automatique pour l’analyse et la recherche en matière de soins de santé. Portée limitée:Certains ensembles de données peuvent ne pas représenter des populations diverses ou ne pas couvrir tous les domaines de soins de santé nécessaires.
Rentable:Permet de réaliser des économies en fournissant des ressources gratuites, éliminant ainsi le besoin de données propriétaires coûteuses. Utilisation excessive de données synthétiques:Une forte dépendance aux données synthétiques peut entraîner des inexactitudes ou des biais dans les modèles.
Partage des connaissances:Favorise la transparence et accélère la diffusion des résultats de la recherche. Barrières techniques:L’accès et l’analyse de grands ensembles de données peuvent nécessiter des compétences techniques et des ressources avancées.

Qualité et sécurité des données dans les ensembles de données médicales

Maintenir des normes élevées de qualité et de sécurité des données est primordial lorsqu'on travaille avec des ensembles de données médicales. Garantir la qualité des données implique des processus rigoureux de validation et de nettoyage afin d'éliminer les erreurs et les incohérences, ce qui est essentiel pour produire des résultats de recherche fiables. Côté sécurité, des mesures robustes telles que le chiffrement, les contrôles d'accès et le stockage sécurisé sont essentielles pour protéger les informations médicales sensibles.

L'anonymisation des données est une pratique essentielle, permettant aux chercheurs d'exploiter des données de santé anonymisées à des fins d'analyse tout en préservant la confidentialité des patients. Des techniques avancées comme l'indexation sémantique biomédicale améliorent encore la convivialité et la précision des données médicales, facilitant ainsi l'organisation et la récupération des informations pertinentes. En privilégiant la qualité et la sécurité des données, les établissements de santé peuvent instaurer la confiance, favoriser la conformité et permettre une utilisation sûre et efficace des données médicales pour la recherche et l'innovation.

Accélérez vos projets d'IA dans le domaine de la santé avec les ensembles de données médicales haut de gamme et prêts à l'emploi de Shaip

Ensemble de données sur les conversations entre médecins et patients

Notre ensemble de données contient des fichiers audio de conversations entre médecins et patients concernant leur santé et leurs projets de traitement. Les dossiers couvrent 31 spécialités médicales différentes.

Ce qui est inclu?

  • 257,977 XNUMX heures de véritables dictées audio de médecins pour former des modèles vocaux de soins de santé
  • Audio provenant de divers appareils tels que des téléphones, des enregistreurs numériques, des micros vocaux et des smartphones
  • Audio et transcriptions avec informations personnelles supprimées pour respecter les lois sur la confidentialité

Ensemble de données d'images CT SCAN

Nous proposons des ensembles de données d'images tomodensitométriques de premier ordre pour la recherche et le diagnostic médical. Nous disposons de milliers d’images de haute qualité provenant de vrais patients, traitées à l’aide des techniques les plus récentes. Nos ensembles de données aident les médecins et les chercheurs à mieux comprendre divers problèmes de santé, tels que le cancer, les troubles cérébraux et les maladies cardiaques.

Les données indiquent que les tomodensitogrammes les plus courants concernent la poitrine (6000 4350) et la tête (XNUMX XNUMX), avec un nombre important d'analyses également effectuées pour l'abdomen, le bassin et d'autres parties du corps. Le tableau révèle également que certaines analyses spécialisées, telles que le CT Covid HRCT et l'angio-pulmonaire, sont principalement réalisées en Inde, en Asie, en Europe et dans d'autres.

Ensemble de données sur les dossiers de santé électroniques (DSE)

Les dossiers de santé électroniques (DSE) sont des versions numériques des antécédents médicaux d'un patient. Ils comprennent des informations telles que les diagnostics, les médicaments, les plans de traitement, les dates de vaccination, les allergies, les images médicales (telles que les tomodensitogrammes, les IRM et les radiographies), les tests de laboratoire, etc.

Caractéristiques de notre ensemble de données DSE prêt à l'emploi :

  • Plus de 5.1 millions de dossiers et fichiers audio de médecins couvrant 31 spécialités médicales
  • Dossiers médicaux authentiques, idéaux pour la formation en PNL clinique et autres modèles Document AI
  • Métadonnées comprenant le MRN anonymisé, les dates d'admission et de sortie, la durée du séjour, le sexe, la classe de patient, le payeur, la classe financière, l'état, la décision de sortie, l'âge, le DRG, la description du DRG, le remboursement, l'AMLOS, le GMLOS, le risque de mortalité, la gravité de la maladie, mérou et code postal de l'hôpital
  • Dossiers couvrant toutes les classes de patients : patients hospitalisés, patients ambulatoires (cliniques, réadaptation, récurrents, soins de jour chirurgicaux) et urgences
  • Documents contenant des informations personnellement identifiables (PII) expurgés, conformément aux directives HIPAA Safe Harbor

Ensemble de données d'images IRM

Nous fournissons des ensembles de données d’images IRM haut de gamme pour soutenir la recherche et le diagnostic médicaux. Notre vaste collection comprend des milliers d’images haute résolution provenant de patients réels, toutes traitées à l’aide de méthodes de pointe. En utilisant nos ensembles de données, les professionnels de la santé et les chercheurs peuvent approfondir leur compréhension d’un large éventail de conditions médicales, conduisant ainsi à de meilleurs résultats pour les patients.

Ensemble de données d'images IRM de diverses parties du corps, la colonne vertébrale et le cerveau ayant le nombre le plus élevé, soit 5000 XNUMX chacun. Les données sont réparties dans les régions de l’Inde, de l’Asie centrale, de l’Europe et de l’Asie centrale.

Ensemble de données d'images radiographiques

Ensembles de données d'images radiographiques de la meilleure qualité pour la recherche et le diagnostic médical. Nous disposons de milliers d’images haute résolution provenant de patients réels, traitées à l’aide des techniques les plus récentes. Avec Shaip, vous pouvez accéder à des données médicales fiables pour améliorer vos recherches et les résultats pour les patients.

Répartition des ensembles de données radiographiques sur diverses parties du corps, la poitrine ayant le nombre le plus élevé, soit 1000 850, en Asie centrale. Les membres inférieurs et supérieurs comptent au total XNUMX chacun, répartis entre les régions d’Asie centrale et d’Asie centrale et d’Europe.

Conclusion

En résumé, les données de santé constituent une ressource précieuse pour améliorer les résultats des patients, réduire les coûts des soins et faire progresser la recherche médicale et sanitaire. En exploitant diverses sources de données cliniques, notamment les dossiers médicaux électroniques (DME), l'imagerie médicale et les référentiels de santé mondiaux, les data scientists et les chercheurs peuvent créer de puissants modèles d'apprentissage automatique permettant de prédire la progression des maladies et d'identifier les patients à risque. Les plateformes de données en libre accès et les projets d'utilisation offrent de nouvelles possibilités d'analyse des coûts et de l'utilisation des soins de santé, offrant ainsi des informations précieuses pour éclairer les politiques et les pratiques.

Garantir la qualité et la sécurité des données de santé est essentiel pour préserver la confiance et obtenir des résultats fiables. Alors que le secteur de la santé continue d'adopter l'innovation fondée sur les données, l'utilisation responsable des données médicales sera essentielle pour améliorer l'équité en santé, optimiser les coûts et l'utilisation des soins, et offrir de meilleurs résultats pour tous. En donnant la priorité à l'accessibilité, à la qualité et à la sécurité des données, nous pouvons exploiter tout le potentiel des données de santé et façonner un avenir meilleur pour l'analyse des données et la recherche médicale.

Partager