Jeux de données ouverts

Découvrez des ensembles de données open source qui vous permettent de former des modèles de ML

Jeux de données ouverts

Ensembles de données open source pour vous initier aux modèles AI/ML

Le résultat de vos modèles d'IA et de ML n'est aussi bon que les données que vous utilisez pour l'entraîner. La précision que vous appliquez à l'agrégation des données, au marquage et à l'identification de ces données est donc importante !

Donc, si vous souhaitez lancer une nouvelle initiative d'IA/ML et que vous réalisez maintenant rapidement que la recherche de données d'entraînement de haute qualité sera l'un des aspects les plus difficiles de votre projet, car les ensembles de données de haute qualité sont le carburant qui maintient l'IA/ Moteur ML en marche. Nous avons accumulé une liste d'ensembles de données ouverts qui sont libres d'utiliser et d'entraîner vos modèles AI/ML du futur.

SpécialisationType de donnéesNom du jeu de donnéesIndustrie / DépartementAnnotation/cas d'utilisationDescriptionLien
PNLTexteCritiques AmazonE-commerceAnalyse des sentimentsUn ensemble de 35 millions d'avis et d'évaluations des 18 dernières années en texte brut avec les détails de l'utilisateur et du produit.Lien
PNLTexteDonnées de liens WikipédiaGénéralePlus de 4 Mn. articles contenant 1.9 milliard. mot qui comprend des mots et des phrases ainsi que des paragraphes.Lien
PNLTexteBanc d'arbres de Standford SentimentDivertissementAnalyse des sentimentsEnsemble de données d'annotations de sentiments pour plus de 10,000 XNUMX articles de critiques de Rotten Tomatoes au format de fichier HTMLLien
PNLTexteTwitter Sentiment des compagnies aériennes américainesCompagnie aérienneAnalyse des sentimentsLes tweets de 2015 sur US Airlines se sont divisés en tons positifs, négatifs et neutresLien
CVImage(s) Visages étiquetés dans la natureGénéraleLa reconnaissance facialeEnsemble de données contenant plus de 13,000 XNUMX visages recadrés avec deux images différentes pour l'entraînement à la reconnaissance faciale.Lien
CVVidéo, ImageEnsemble de données UMDFacesGénéraleLa reconnaissance facialeEnsemble de données annoté contenant plus de 367,000 8,000 visages de plus de XNUMX XNUMX sujets comprenant des images fixes et vidéo.Lien
CVImage(s) ImagenetGénéraleEnsemble de données avec plus de 14 Mn. images dans divers formats de fichiers, organisés selon la hiérarchie WordNet.Lien
CVImage(s) Les images ouvertes de GoogleGénérale9 minutes. URL pour catégoriser les images publiques parmi plus de 6,000 XNUMX catégories.Lien
PNLTexteBase de données des soins intensifs MIMICServices de santéEnsembles de données de physiologie computationnelle avec des données anonymisées de 40,000 XNUMX patients en soins intensifs. L'ensemble de données contient des informations telles que les données démographiques, les signes vitaux, les médicaments, etc.Lien
CVImage(s)Office national des voyages et du tourisme des États-UnisTourismeFournit de larges photographies de l'industrie du tourisme avec des bases de données fiables, couvrant des sujets tels que les voyages entrants et sortants et les informations touristiques internationales.Lien
PNLTexteMinistère des TransportsTourismeEnsembles de données touristiques comprenant les parcs nationaux, les registres des conducteurs, les ponts et les informations ferroviaires, etc.Lien
PNLAudioCorpus de sous-titres audio FlickrGénéralePlus de 40 8,000 légendes parlées à partir de XNUMX XNUMX photographies conçues pour des modèles de discours non supervisésLien
PNLAudioEnsemble de données de commandes vocalesGénéraleReconnaissance vocale, annotation audio1 seconde d'énoncés de milliers d'individus, pour créer une interface vocale de base.Lien
PNLAudioEnsembles de données audio environnementalesGénéraleEnsembles de données audio d'environnement qui contiennent des tables de sons d'événements et des tables de scènes acoustiques.Lien
PNLTexteEnsemble de données de recherche ouverte COVID-19 Services de santéIA médicaleUn ensemble de données de recherche composé de 45,000 19 articles scientifiques sur COVID-XNUMX et la famille de virus des coronavirus.Lien
CVImage(s)Ensemble de données ouvert Waymo AutomobileLes ensembles de données de conduite autonome les plus divers publiés par WaymoLien
CVImage(s)Génome visuel GénéraleSous-titrage d'imagesUne base de connaissances visuelles avec un sous-titrage détaillé de plus de 100 XNUMX imagesLien
CVImage(s)Labelme Gouvernement public.Grand ensemble d'images annotées accessibles via le Labelme MatlabLien
CVImage(s)BOBINE100GénéralePlus de 100 objets variés photographiés sous plusieurs angles (c'est-à-dire 360 ​​degrés)Lien
CVImage(s)Ensemble de données sur les chiens de StanfordGénéralePlus de 20,500 120+ images classées dans un ensemble d'images de XNUMX races de chiens différentesLien
CVImage(s)Reconnaissance de scènes d'intérieurGénéraleReconnaissance de scèneUn jeu de données spécifique composé de 15620 images de 67 catégories d'intérieur pour construire des modèles de reconnaissance de scèneLien
CVImage(s)VisualQAGénéraleUn ensemble de données qui comprend des questions ouvertes relatives à 265,016 XNUMX photos qui nécessitent une compréhension de la vision et du langage pour répondre.Lien
PNLTexteEnsemble de données d'analyse des sentiments multidomainesE-commerceAnalyse des sentimentsEnsemble de données contenant des critiques de produits d'AmazonLien
PNLTexteAvis sur IMDBDivertissementAnalyse des sentimentsEnsemble de données contenant 25000 XNUMX critiques de films pour l'analyse des sentimentsLien
PNLTexteSentiment140GénéraleAnalyse des sentimentsEnsemble de données contenant 160,000 XNUMX tweets avec des émoticônes pré-supprimées pour une plus grande précisionLien
PNLTexteCorpus des blogueursGénéraleAnalyse KeypraseEnsemble de données contenant 681,288 200 articles de blog de blogger.com comprenant au moins XNUMX occurrences de mots anglais largement utilisés.Lien
PNLTexteJeopardyGénéraleFormation sur les chatbotsEnsemble de données avec plus de 200,000 XNUMX questions pouvant être utilisées pour entraîner des modèles d'apprentissage automatique afin de répondre automatiquement et de manière intelligenteLien
PNLTexteCollection de spams SMS en anglaisTélécomReconnaissance des spamsUn ensemble de données de messages de spam composé de 5,574 XNUMX SMS en anglaisLien
PNLTexteAvis sur YelpGénéraleAnalyse des sentimentsUn ensemble de données avec une revue de plus de 5 mn publiée par YelpLien
PNLTexteSpambase de l'UCIEntrepriseReconnaissance des spamsUn grand ensemble de données de courriers indésirables, utile pour le filtrage du courrier indésirable.Lien
CVVidéo, ImageBerkeley DeepDrive BDD100kAutomobileVéhicules autonomesL'un des plus grands ensembles de données pour l'IA d'auto-conduite contenant 1,100 100,000 heures d'expériences de conduite dans plus de XNUMX XNUMX vidéos à différents moments de la journée de la région de New York et de San Francisco.Lien
CVvidéoVirgule.aiAutomobileVéhicules autonomes Un ensemble de données de conduite sur autoroute de 7 heures comprenant des informations sur la vitesse, l'accélération, l'angle de braquage et les coordonnées GPS de la voitureLien
CVVidéo, ImageEnsemble de données de paysage urbainAutomobileÉtiquette sémantique pour véhicule autonomeUn ensemble de données de 5,000 20,000 annotations au niveau des pixels plus un ensemble plus vaste de 50 XNUMX images faiblement annotées dans des séquences vidéo stéréo, enregistrées à partir de XNUMX villes différentesLien
CVImage(s)Ensemble de données de panneaux de signalisation KUL BelgiqueAutomobileVéhicules autonomesPlus de 10000+ annotations de panneaux de signalisation de la région flamande basées sur des panneaux de signalisation physiquement distincts de toute la Belgique.Lien
CVImage(s)LISA : Laboratoire pour les automobiles intelligentes et sûres, ensembles de données de l'UC San DiegoAutomobileVéhicules autonomesUn ensemble de données riche contenant des panneaux de signalisation, la détection de véhicules, des feux de circulation et des modèles de trajectoire.Lien
CVImage(s)CIFAR-10GénéraleReconnaissance d'objetsUn jeu de données composé de 50,000 10,000 images et de 60,000 32 images de test (soit 32 10 images XNUMX×XNUMX couleurs dans XNUMX classes) pour la reconnaissance d'objets.Lien
CVImage(s)Mode MNISTModeUn jeu de données d'images composé de 60,000 10,000 exemples et un jeu de test de 28 28 exemples en images 10xXNUMX en niveaux de gris, associé à un label de XNUMX classes.Lien
CVImage(s)Ensemble de données IMDB-WikiDivertissementLa reconnaissance facialeUn grand ensemble de données d'images faciales avec des étiquettes telles que le sexe et l'âge. Sur un total de 523,051 460,723 images de visage, 20,284 62,328 images proviennent de XNUMX XNUMX célébrités d'IMDB et XNUMX XNUMX de Wikipedia.Lien
CVvidéoCinétique-700GénéralePour chaque classe d'action, l'ensemble de données de haute qualité se compose de 650,000 700 clips vidéo et comprend 600 classes d'action humaine avec au moins 10 clips vidéo. Ici, chaque clip dure environ XNUMX secondes.Lien
CVImage(s)Mme CocoGénéraleDétection d'objets, SegmentationL'ensemble de données contient 328 2.5 images et un total de 91 millions d'instances et XNUMX images d'objets pour former des modèles ML liés à la détection d'objets à grande échelle, à la segmentation et au sous-titrage des données.Lien
CVImage(s)Ensemble de données de pose humaine MPIIGénéraleEnviron 25 40 photographies contenant plus de 410 XNUMX individus avec des articulations corporelles annotées sont incluses dans l'ensemble de données, qui est utilisé pour articuler l'estimation de la pose humaine. Globalement, l'ensemble de données couvre XNUMX activités humaines et chaque image est fournie avec une étiquette d'activité.Lien
CVImage(s)Images ouvertesGénéraleAnnotations d'emplacement d'objetEnsemble de données d'images avec environ 9 Mn d'images annotées avec des étiquettes au niveau de l'image, des cadres de délimitation d'objets, une segmentation d'objets, etc. L'ensemble de données comprend également 16 Mn. cadres de délimitation pour 600 classes d'objets sur 1.9 Mn d'images.Lien
CVvidéoPlateforme ouverte Apollo, par Baidu Inc, ChineAutomobileBoîte englobante, LiDARUn ensemble de données de conduite autonome riche, qui fournit aux développeurs les données requises en conduite autonome pour accélérer l'efficacité de l'itération innovante.Lien
CVVidéo, ImageArgo, par Argo, États-UnisAutomobileCadre de délimitation, flux optique, étiquette comportementale, étiquette sémantique, marquage de voieUn jeu de données autonome qui se compose de cartes HD avec des métadonnées géométriques et sémantiques, c'est-à-dire les axes des voies, la direction des voies et la zone de conduite. L'ensemble de données est utilisé pour former des modèles ML, pour créer des algorithmes de perception plus précis, qui aideront les véhicules autonomes à naviguer en toute sécurité.Lien
CVvidéoPetits feux de circulation Bosch, par Bosch North America ResearchAutomobileBounding BoxUn ensemble de données composé de 13427 images de caméra avec une résolution de 1280 * 720 pour construire un système de détection de feux de circulation basé sur la vision. L'ensemble de données contient plus de 24000 XNUMX feux de circulation annotés.Lien
CVvidéoBrain4Cars, par Cornell Univ., États-UnisAutomobileÉtiquette comportementaleUn jeu de données composé d'un ensemble de capteurs de cabine (caméras, capteurs tactiles, appareils intelligents, etc.) afin d'extraire des statistiques utiles sur la vigilance du conducteur. Nos algorithmes peuvent détecter les conducteurs somnolents ou distraits et augmenter les alarmes nécessaires pour améliorer la protection.Lien
CVImage(s)CULane, par Chinese Univ. de Hong Kong, Pékin, ChineAutomobileMarquage de voieUn ensemble de données de vision par ordinateur sur la détection des voies de circulation, composé de 55 heures de vidéos dont 133,235 88880 (ensemble d'entraînement 9675, ensemble de validation 34680 et ensemble de test XNUMX) ont été extraites. Il est collecté par des caméras montées sur six véhicules différents conduits par différents conducteurs à Pékin.Lien
CVvidéoDAVIS, par Univ. de Zurich,ETH ¨ Zurich, Allemagne, SuisseAutomobileUn ensemble de données de formation à la conduite de véhicule de bout en bout qui utilise une caméra événement + cadre DAVIS. Les données de voiture telles que la direction, l'accélérateur, le GPS, etc. sont utilisées pour évaluer la fusion des données de trame et d'événement pour les applications automobiles.Lien
CVvidéoDBNet, par Shanghai Jiao Tong Univ., Xiamen Univ., ChineAutomobileNuage de points, LiDARDes données de conduite réelles de 1000 XNUMX km, comprenant une vidéo alignée, un nuage de points, un GPS et le comportement du conducteur pour une recherche approfondie sur les comportements de conduite.Lien
CVvidéoDr(eye)ve, par Univ. de Modène et Reggio Emilia, Modène, ItalieAutomobileÉtiquette comportementaleEnsemble de données contenant 74 séquences vidéo de 5 minutes chacune, qui ont été annotées dans plus de 500,000 XNUMX images. L'ensemble de données comprend des emplacements géoréférencés, la vitesse de conduite, le parcours, ainsi que les fixations du regard des conducteurs et leur intégration temporelle fournissant des cartes spécifiques aux tâches.Lien
CVvidéoETH Pedestrian (2009), par ETH Zurich, Zurich, SuisseGénéraleBounding BoxUn jeu de données de 74 séquences vidéo de 5 minutes chacune, annotées en plus de 500,000 XNUMX images. L'ensemble de données fournit des positions géoréférencées, la vitesse de conduite, la direction, et également des étiquettes de fixations du regard pour les conducteurs et leur intégration temporelle, y compris des cartes spécifiques aux tâches.Lien
CVvidéoFord (2009), par Univ. du Michigan, Michigan, États-UnisAutomobileBoîte englobante, , LiDARUn ensemble de données compilé par un véhicule terrestre automatisé armé d'un scanner 3D-lidar Velodyne, de deux lidars Rieg à balayage prospectif, d'une unité de mesure inertielle (IMU) technique et grand public et d'un système de caméra omnidirectionnel Point Gray Ladybug3.Lien
CVvidéoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, AllemagneGénéraleUn ensemble de données de plusieurs millions d'images provenant de scènes vidéo capturées qui incluent un large éventail de conditions météorologiques diverses, plusieurs couches de mouvement et de profondeur ; situations en ville et à la campagne, etc.Lien
CVvidéoJAAD, par l'Université York, Ukraine, CanadaAutomobileCadre de délimitation, étiquette comportementale"JAAD est un ensemble de données pour étudier l'attention conjointe dans le contexte de la conduite autonome. L'accent est mis sur les comportements des piétons et des conducteurs au point de passage à niveau et les facteurs qui les influencent. À cette fin, l'ensemble de données JAAD fournit une collection richement annotée de 346 courtes vidéos clips (d'une durée de 5 à 10 secondes) extraits de plus de 240 heures de séquences de conduite à plusieurs endroits en Amérique du Nord et en Europe de l'Est. Des cadres de délimitation avec balises d'occlusion sont utilisés pour tous les piétons, ce qui rend cet ensemble de données adapté à la détection des piétons. Les annotations de comportement spécifient les comportements des piétons qui interagissent avec ou nécessitent l'attention du conducteur. Pour chaque vidéo, il existe plusieurs balises (météo, lieux, etc.) et des étiquettes de comportement horodatées (par exemple, arrêté, marchant, regardant, etc.). De plus, une liste d'attributs démographiques est fourni pour chaque piéton (par exemple, l'âge, le sexe, la direction du mouvement, etc.) ainsi qu'une liste des éléments visibles de la scène de circulation (par exemple, un panneau d'arrêt, un feu de circulation, etc.) dans chaque cadre."Lien
CVvidéoKAIST Urban, par KAIST, Corée du SudGénéraleLiDARLa collecte de données comprend de nombreux capteurs de localisation pour les données LiDAR et les images stéréo ciblant une zone urbaine très complexe (par exemple, les zones métropolitaines, les bâtiments complexes et les zones résidentielles).Lien
CVImage(s)Panneau de signalisation LISA, par Univ. de Californie, San Diego, États-UnisAutomobileBounding BoxL'ensemble de données contenant des vidéos et des cadres annotés contenant des panneaux de signalisation américains. Il est publié en deux étapes, une avec uniquement les images et une avec à la fois des images et des vidéos.Lien
CVImage(s)Mapillary Vistas, par Mapillary AB, GlobalAutomobileÉtiquette sémantiqueUn ensemble de données photographiques au niveau de la rue pour interpréter des scènes de rue à travers le monde avec des annotations humaines précises au pixel près et spécifiques à l'instance.Lien
CVVidéo, ImageSémantique KITTI, par l'Université de Bonn, Karlsruhe, AllemagneAutomobileCadre de délimitation, étiquette sémantique, marquage de voieUn jeu de données qui inclut une annotation sémantique pour toutes les séquences d'Odometry Benchmark. L'ensemble de données annote divers types de trafic en mouvement et immobile : y compris les voitures, les vélos, les vélos, les piétons et les cyclistes, permettant d'étudier les objets de la scène.Lien
CVvidéoStanford Track, par Stanford Univ., États-UnisAutomobileDétection d'objets / Classification LiDAR, GPS, CodesUn ensemble de données qui comprend 14,000 64 pistes d'objets étiquetées telles qu'observées par un LIDAR Velodyne HDL-2E S3 dans des scènes de rue naturelles, qui peut être utilisé pour former des modèles d'apprentissage automatique pour la reconnaissance d'objets XNUMXD.Lien
CVVidéo, ImageLe jeu de données Boxy, par Bosch, États-UnisAutomobileZone de délimitation / Détection de véhiculeUn ensemble de données de détection de véhicules contenant 2 millions de véhicules annotés pour la formation et l'analyse des stratégies de reconnaissance d'objets pour les voitures autonomes sur les autoroutes.Lien
CVvidéoAutoroute TME, par Czech Technical Univ., Italie du NordAutomobileBounding BoxUn jeu de données de 28 clips pour un total de 27 minutes divisé en plus de 30,000 XNUMX cadres d'annotation de véhicules. L'annotation a été produite de manière semi-automatique à l'aide des données du scanner laser. Cette collecte de données implique des scénarios de trafic variables, le nombre de voies, la courbure de la route et l'éclairage, couvrant une grande partie des conditions de l'acquisition complète.Lien
CVvidéoLamas non supervisés, par Bosch, États-UnisAutomobileMarquage des voies, LiDARL'ensemble de données Lamas non supervisés a été annoté en générant des cartes de conduite automatique haute définition, y compris des marqueurs de voie basés sur Lidar. Le véhicule autonome peut être aligné sur ces cartes et les marquages ​​au sol sont projetés dans le cadre de la caméra. La projection 3D est optimisée en minimisant l'écart entre les marqueurs d'image déjà observés et prédits.Lien
PNLAudioFacebook AI multilingue LibriSpeech (MLS)GénéraleAnnotation audio/reconnaissance vocaleFacebook AI Multilingual LibriSpeech (MLS) est un ensemble de données open source à grande échelle conçu pour aider à faire avancer la recherche sur la reconnaissance automatique de la parole (ASR). MLS fournit plus de 50,000 8 heures d'audio dans XNUMX langues : anglais, allemand, néerlandais, français, espagnol, italien, portugais et polonais. Lien