Ensembles de données sur les soins de santé

Meilleurs ensembles de données de santé open source pour les projets d'apprentissage automatique

  • Le système de santé mondial produit quotidiennement de grandes quantités de données médicales, qui pourraient potentiellement être utilisées pour des applications d’apprentissage automatique. Dans tous les secteurs, les données sont considérées comme un atout précieux qui permet aux entreprises d’acquérir un avantage concurrentiel, et le secteur de la santé n’est pas différent.

Cet article abordera de manière concise les obstacles rencontrés lors du traitement des données médicales et fournira un résumé des ensembles de données de santé accessibles au public.

Importance des ensembles de données sur les soins de santé

Importance des ensembles de données de santé

Les ensembles de données de santé sont des collections d'informations sur les patients, telles que les dossiers médicaux, les diagnostics, les traitements, les données génétiques et les détails de leur mode de vie. Ils sont très importants dans le monde d’aujourd’hui, où l’IA est de plus en plus utilisée. Voici pourquoi:

Comprendre la santé des patients :

Les ensembles de données de santé donnent aux médecins une image complète de la santé d'un patient. Par exemple, les données sur les antécédents médicaux, les médicaments et le mode de vie d'un patient peuvent aider à prédire s'il risque de développer une maladie chronique. Cela permet aux médecins d’intervenir tôt et d’élaborer un plan de traitement uniquement pour ce patient.

Aider la recherche médicale :

En étudiant des ensembles de données sur les soins de santé, les chercheurs en médecine peuvent examiner comment les patients atteints de cancer sont traités et comment ils se rétablissent. Ils peuvent trouver les traitements qui fonctionnent le mieux dans le monde réel. Par exemple, en examinant des échantillons de tumeurs dans des biobanques et les antécédents de traitement des patients, les chercheurs peuvent apprendre comment des mutations spécifiques et des protéines cancéreuses réagissent à différents traitements. Cette approche basée sur les données permet de découvrir des tendances qui conduisent à de meilleurs résultats pour les patients.

Un meilleur diagnostic et un meilleur traitement :

Les médecins utilisent des outils d’IA pour examiner des ensembles de données sur les soins de santé et trouver des modèles importants. Cela les aide à mieux diagnostiquer et traiter les maladies. En radiologie, l’IA peut détecter les problèmes dans les scans plus rapidement et avec plus de précision que les humains. Cela signifie que les médecins peuvent détecter les maladies plus tôt et commencer le traitement approprié plus tôt. L’annotation d’images médicales peut conduire à un diagnostic plus rapide et meilleur, ce qui améliore la santé des patients.

Aider les initiatives de santé publique :

Imaginez une petite ville où des experts de la santé utilisent des ensembles de données pour suivre une épidémie de grippe. Ils ont examiné les tendances et trouvé les zones touchées. Grâce à ces données, ils ont lancé des campagnes de vaccination ciblées et des campagnes d’éducation sanitaire. Cette approche basée sur les données a permis de contenir la grippe. Il montre comment les ensembles de données sur les soins de santé peuvent activement guider et améliorer les initiatives de santé publique.

Ensembles de données médicales open source pour l'apprentissage automatique

Les ensembles de données ouverts sont essentiels au bon fonctionnement de tout modèle d’apprentissage automatique. L'apprentissage automatique est déjà utilisé dans les sciences de la vie, les soins de santé et la médecine, et donne d'excellents résultats. Cela aide à prédire les maladies et à comprendre comment elles se propagent. L’apprentissage automatique donne également des idées sur la façon dont nous pouvons prendre soin correctement des personnes malades, âgées et malades dans une communauté. Sans de bons ensembles de données, ces modèles d’apprentissage automatique ne seraient pas possibles.

Santé générale et publique :

  • data.gov: Se concentre sur les données de santé orientées vers les États-Unis qui peuvent être facilement recherchées à l'aide de plusieurs paramètres. Les ensembles de données sont conçus pour améliorer le bien-être des personnes résidant aux États-Unis ; cependant, ces informations pourraient également s’avérer utiles pour d’autres ensembles de formation dans le domaine de la recherche ou dans d’autres domaines de la santé publique.
  • WHO: Propose des ensembles de données centrés sur les priorités mondiales en matière de santé. La plateforme intègre une fonction de recherche conviviale et fournit des informations précieuses ainsi que les ensembles de données pour une compréhension complète des sujets traités.
  • Re3Données: Propose des données couvrant plus de 2,000 XNUMX sujets de recherche classés en plusieurs grands domaines. Bien que tous les ensembles de données ne soient pas librement accessibles, la plateforme indique clairement la structure et permet une recherche facile en fonction de facteurs tels que les frais, les conditions d'adhésion et les restrictions en matière de droits d'auteur.
  • Base de données sur la mortalité humaine offre un accès à des données sur les taux de mortalité, les chiffres de la population et diverses statistiques sanitaires et démographiques pour 35 pays.
  • CHDS: Les ensembles de données des études sur la santé et le développement de l'enfant visent à étudier la transmission intergénérationnelle des maladies et de la santé. Il englobe des ensembles de données permettant de rechercher non seulement l'expression génomique, mais également l'influence de facteurs sociaux, environnementaux et culturels sur la maladie et la santé.
  • Défi d'activité moléculaire Merck: Présente des ensembles de données conçus pour promouvoir l'application de l'apprentissage automatique dans la découverte de médicaments en simulant les interactions potentielles entre diverses combinaisons de molécules.
  • 1000 projet Genomes: Contient des données de séquençage de 2,500 26 individus répartis dans XNUMX populations différentes, ce qui en fait l'un des plus grands référentiels génomiques accessibles. Cette collaboration internationale est accessible via AWS. (Notez que des subventions sont disponibles pour les projets sur le génome.)

Ensembles de données d'images pour les sciences de la vie, la santé et la médecine :

  • Neuro ouvert: En tant que plateforme gratuite et ouverte, OpenNeuro partage un large éventail d'images médicales, notamment des données IRM, MEG, EEG, iEEG, ECoG, ASL et PET. Avec 563 ensembles de données médicales couvrant 19,187 XNUMX participants, il constitue une ressource inestimable pour les chercheurs et les professionnels de santé.
  • Oasis: Issu de l'Open Access Series of Imaging Studies (OASIS), cet ensemble de données s'efforce de fournir gratuitement au public des données de neuroimagerie pour le bénéfice de la communauté scientifique. Il englobe 1,098 2,168 sujets répartis dans 1,608 XNUMX séances IRM et XNUMX XNUMX séances TEP, offrant une richesse d’informations aux chercheurs.
  • Initiative de neuroimagerie de la maladie d'Alzheimer: L'Alzheimer's Disease Neuroimaging Initiative (ADNI) présente les données collectées par des chercheurs du monde entier qui se consacrent à définir la progression de la maladie d'Alzheimer. L'ensemble de données comprend une collection complète d'images IRM et TEP, d'informations génétiques, de tests cognitifs et de biomarqueurs du LCR et du sang, facilitant une approche multiforme pour comprendre cette maladie complexe.

Ensembles de données hospitalières :

  • Catalogue de données du fournisseur: Accédez et téléchargez des ensembles de données complets sur les fournisseurs dans des domaines tels que les installations de dialyse, les cabinets médicaux, les services de santé à domicile, les soins palliatifs, les hôpitaux, la réadaptation pour patients hospitalisés, les hôpitaux de soins de longue durée, les maisons de retraite avec services de réadaptation, les coûts des visites chez les médecins et les répertoires de fournisseurs.
  • Projet sur le coût et l'utilisation des soins de santé (HCUP): Cette base de données complète à l'échelle nationale a été créée pour identifier, suivre et analyser les tendances nationales en matière d'utilisation, d'accès, de tarifs, de qualité et de résultats des soins de santé. Chaque ensemble de données médicales du HCUP contient des informations au niveau des rencontres sur tous les séjours des patients, les visites aux services d'urgence et les chirurgies ambulatoires dans les hôpitaux américains, fournissant ainsi une richesse de données aux chercheurs et aux décideurs politiques.
  • Base de données des soins intensifs MIMIC: Développé par le MIT à des fins de physiologie computationnelle, cet ensemble de données médicales librement disponibles comprend des données de santé anonymisées provenant de plus de 40,000 XNUMX patients en soins intensifs. L'ensemble de données MIMIC constitue une ressource précieuse pour les chercheurs qui étudient les soins intensifs et développent de nouvelles méthodes informatiques.

Ensembles de données sur le cancer :

  • Images médicales de tomodensitométrie: Conçu pour faciliter les méthodes alternatives d'examen des tendances dans les données d'images CT, cet ensemble de données présente des tomodensitogrammes de patients atteints de cancer, en se concentrant sur des facteurs tels que le contraste, la modalité et l'âge du patient. Les chercheurs peuvent exploiter ces données pour développer de nouvelles techniques d’imagerie et analyser les tendances en matière de diagnostic et de traitement du cancer.
  • Collaboration internationale sur la notification du cancer (ICCR) : Les ensembles de données médicales de l'ICCR ont été développés et fournis pour promouvoir une approche fondée sur des preuves en matière de reporting sur le cancer dans le monde entier. En normalisant les rapports sur le cancer, l'ICCR vise à améliorer la qualité et la comparabilité des données sur le cancer entre les institutions et les pays.
  • SEER Incidence du cancer: fournies par le gouvernement américain, ces données sur le cancer sont segmentées en utilisant des distinctions démographiques de base telles que la race, le sexe et l'âge. L'ensemble de données SEER permet aux chercheurs d'étudier l'incidence du cancer et les taux de survie dans différents sous-groupes de population, éclairant ainsi les initiatives de santé publique et les priorités de recherche.
  • Ensemble de données sur le cancer du poumon: Cet ensemble de données gratuit contient des informations sur les cas de cancer du poumon remontant à 1995. Les chercheurs peuvent utiliser ces données pour étudier les tendances à long terme de l'incidence, du traitement et des résultats du cancer du poumon, ainsi que pour développer de nouveaux outils de diagnostic et de pronostic.

Ressources supplémentaires pour les données de santé :

  • Kaggle: Un référentiel d'ensembles de données polyvalent – ​​Kaggle reste une plate-forme exceptionnelle pour un large éventail d'ensembles de données, ne se limitant pas au secteur de la santé. Idéal pour ceux qui se lancent dans divers sujets ou qui ont besoin d'ensembles de données divers pour la formation de modèles, Kaggle est une ressource incontournable.
  • Subreddit: Un trésor communautaire – Les bonnes discussions de subreddit peuvent être une mine d'or pour les ensembles de données ouverts. Pour les requêtes de niche ou spécifiques non traitées par les ensembles de données publics, la communauté Reddit pourrait détenir la réponse.

Accélérez vos projets d'IA dans le domaine de la santé avec les ensembles de données médicales haut de gamme et prêts à l'emploi de Shaip

Ensemble de données sur les conversations entre médecins et patients

Notre ensemble de données contient des fichiers audio de conversations entre médecins et patients concernant leur santé et leurs projets de traitement. Les dossiers couvrent 31 spécialités médicales différentes.

Ce qui est inclu?

  • 257,977 XNUMX heures de véritables dictées audio de médecins pour former des modèles vocaux de soins de santé
  • Audio provenant de divers appareils tels que des téléphones, des enregistreurs numériques, des micros vocaux et des smartphones
  • Audio et transcriptions avec informations personnelles supprimées pour respecter les lois sur la confidentialité

Ensemble de données d'images CT SCAN

Nous proposons des ensembles de données d'images tomodensitométriques de premier ordre pour la recherche et le diagnostic médical. Nous disposons de milliers d’images de haute qualité provenant de vrais patients, traitées à l’aide des techniques les plus récentes. Nos ensembles de données aident les médecins et les chercheurs à mieux comprendre divers problèmes de santé, tels que le cancer, les troubles cérébraux et les maladies cardiaques.

Les données indiquent que les tomodensitogrammes les plus courants concernent la poitrine (6000 4350) et la tête (XNUMX XNUMX), avec un nombre important d'analyses également effectuées pour l'abdomen, le bassin et d'autres parties du corps. Le tableau révèle également que certaines analyses spécialisées, telles que le CT Covid HRCT et l'angio-pulmonaire, sont principalement réalisées en Inde, en Asie, en Europe et dans d'autres.

Ensemble de données sur les dossiers de santé électroniques (DSE)

Les dossiers de santé électroniques (DSE) sont des versions numériques des antécédents médicaux d'un patient. Ils comprennent des informations telles que les diagnostics, les médicaments, les plans de traitement, les dates de vaccination, les allergies, les images médicales (telles que les tomodensitogrammes, les IRM et les radiographies), les tests de laboratoire, etc.

Caractéristiques de notre ensemble de données DSE prêt à l'emploi :

  • Plus de 5.1 millions de dossiers et fichiers audio de médecins couvrant 31 spécialités médicales
  • Dossiers médicaux authentiques, idéaux pour la formation en PNL clinique et autres modèles Document AI
  • Métadonnées comprenant le MRN anonymisé, les dates d'admission et de sortie, la durée du séjour, le sexe, la classe de patient, le payeur, la classe financière, l'état, la décision de sortie, l'âge, le DRG, la description du DRG, le remboursement, l'AMLOS, le GMLOS, le risque de mortalité, la gravité de la maladie, mérou et code postal de l'hôpital
  • Dossiers couvrant toutes les classes de patients : patients hospitalisés, patients ambulatoires (cliniques, réadaptation, récurrents, soins de jour chirurgicaux) et urgences
  • Documents contenant des informations personnellement identifiables (PII) expurgés, conformément aux directives HIPAA Safe Harbor

Ensemble de données d'images IRM

Nous fournissons des ensembles de données d’images IRM haut de gamme pour soutenir la recherche et le diagnostic médicaux. Notre vaste collection comprend des milliers d’images haute résolution provenant de patients réels, toutes traitées à l’aide de méthodes de pointe. En utilisant nos ensembles de données, les professionnels de la santé et les chercheurs peuvent approfondir leur compréhension d’un large éventail de conditions médicales, conduisant ainsi à de meilleurs résultats pour les patients.

Ensemble de données d'images IRM de diverses parties du corps, la colonne vertébrale et le cerveau ayant le nombre le plus élevé, soit 5000 XNUMX chacun. Les données sont réparties dans les régions de l’Inde, de l’Asie centrale, de l’Europe et de l’Asie centrale.

Ensemble de données d'images radiographiques

Ensembles de données d'images radiographiques de la meilleure qualité pour la recherche et le diagnostic médical. Nous disposons de milliers d’images haute résolution provenant de patients réels, traitées à l’aide des techniques les plus récentes. Avec Shaip, vous pouvez accéder à des données médicales fiables pour améliorer vos recherches et les résultats pour les patients.

Répartition des ensembles de données radiographiques sur diverses parties du corps, la poitrine ayant le nombre le plus élevé, soit 1000 850, en Asie centrale. Les membres inférieurs et supérieurs comptent au total XNUMX chacun, répartis entre les régions d’Asie centrale et d’Asie centrale et d’Europe.

Partager