Jeux de données ouverts

Découvrez des ensembles de données open source qui vous permettent de former des modèles de ML

Ensembles de données open source pour vous initier aux modèles AI/ML

Le résultat de vos modèles d'IA et de ML n'est aussi bon que les données que vous utilisez pour l'entraîner. La précision que vous appliquez à l'agrégation des données, au marquage et à l'identification de ces données est donc importante !

Donc, si vous souhaitez lancer une nouvelle initiative d'IA/ML et que vous réalisez maintenant rapidement que la recherche de données d'entraînement de haute qualité sera l'un des aspects les plus difficiles de votre projet, car les ensembles de données de haute qualité sont le carburant qui maintient l'IA/ Moteur ML en marche. Nous avons accumulé une liste d'ensembles de données ouverts qui sont libres d'utiliser et d'entraîner vos modèles AI/ML du futur.

Spécialisation	Type de données	Nom du jeu de données	Industrie / Département	Annotation/cas d'utilisation	Description	Lien
PNL	Texte	Critiques Amazon	E-commerce	Analyse des sentiments	Un ensemble de 35 millions d'avis et d'évaluations des 18 dernières années en texte brut avec les détails de l'utilisateur et du produit.	Lien
PNL	Texte	Données de liens Wikipédia	Général		Plus de 4 Mn. articles contenant 1.9 milliard. mot qui comprend des mots et des phrases ainsi que des paragraphes.	Lien
PNL	Texte	Banc d'arbres de Standford Sentiment	Divertissement	Analyse des sentiments	Ensemble de données d'annotations de sentiments pour plus de 10,000 XNUMX articles de critiques de Rotten Tomatoes au format de fichier HTML	Lien
PNL	Texte	Twitter Sentiment des compagnies aériennes américaines	Compagnie aérienne	Analyse des sentiments	Les tweets de 2015 sur US Airlines se sont divisés en tons positifs, négatifs et neutres	Lien
CV	Image(s)	Visages étiquetés dans la nature	Général	La reconnaissance faciale	Ensemble de données contenant plus de 13,000 XNUMX visages recadrés avec deux images différentes pour l'entraînement à la reconnaissance faciale.	Lien
CV	Vidéo, Image	Ensemble de données UMDFaces	Général	La reconnaissance faciale	Ensemble de données annoté contenant plus de 367,000 8,000 visages de plus de XNUMX XNUMX sujets comprenant des images fixes et vidéo.	Lien
CV	Image(s)	Imagenet	Général		Ensemble de données avec plus de 14 Mn. images dans divers formats de fichiers, organisés selon la hiérarchie WordNet.	Lien
CV	Image(s)	Les images ouvertes de Google	Général		9 minutes. URL pour catégoriser les images publiques parmi plus de 6,000 XNUMX catégories.	Lien
PNL	Texte	Base de données des soins intensifs MIMIC	Système de santé		Ensembles de données de physiologie computationnelle avec des données anonymisées de 40,000 XNUMX patients en soins intensifs. L'ensemble de données contient des informations telles que les données démographiques, les signes vitaux, les médicaments, etc.	Lien
CV	Image(s)	Office national des voyages et du tourisme des États-Unis	Tourisme		Fournit de larges photographies de l'industrie du tourisme avec des bases de données fiables, couvrant des sujets tels que les voyages entrants et sortants et les informations touristiques internationales.	Lien
PNL	Texte	Ministère des Transports	Tourisme		Ensembles de données touristiques comprenant les parcs nationaux, les registres des conducteurs, les ponts et les informations ferroviaires, etc.	Lien
PNL	Audio	Corpus de sous-titres audio Flickr	Général		Plus de 40 8,000 légendes parlées à partir de XNUMX XNUMX photographies conçues pour des modèles de discours non supervisés	Lien
PNL	Audio	Ensemble de données de commandes vocales	Général	Reconnaissance vocale, annotation audio	1 seconde d'énoncés de milliers d'individus, pour créer une interface vocale de base.	Lien
PNL	Audio	Ensembles de données audio environnementales	Général		Ensembles de données audio d'environnement qui contiennent des tables de sons d'événements et des tables de scènes acoustiques.	Lien
PNL	Texte	Ensemble de données de recherche ouverte COVID-19	Système de santé	IA médicale	Un ensemble de données de recherche composé de 45,000 19 articles scientifiques sur COVID-XNUMX et la famille de virus des coronavirus.	Lien
CV	Image(s)	Ensemble de données ouvert Waymo	Automobile		Les ensembles de données de conduite autonome les plus divers publiés par Waymo	Lien
CV	Image(s)	Génome visuel	Général	Sous-titrage d'images	Une base de connaissances visuelles avec un sous-titrage détaillé de plus de 100 XNUMX images	Lien
CV	Image(s)	Labelme	Gouvernement public.		Grand ensemble d'images annotées accessibles via le Labelme Matlab	Lien
CV	Image(s)	BOBINE100	Général		Plus de 100 objets variés photographiés sous plusieurs angles (c'est-à-dire 360 degrés)	Lien
CV	Image(s)	Ensemble de données sur les chiens de Stanford	Général		Plus de 20,500 120+ images classées dans un ensemble d'images de XNUMX races de chiens différentes	Lien
CV	Image(s)	Reconnaissance de scènes d'intérieur	Général	Reconnaissance de scène	Un jeu de données spécifique composé de 15620 images de 67 catégories d'intérieur pour construire des modèles de reconnaissance de scène	Lien
CV	Image(s)	VisualQA	Général		Un ensemble de données qui comprend des questions ouvertes relatives à 265,016 XNUMX photos qui nécessitent une compréhension de la vision et du langage pour répondre.	Lien
PNL	Texte	Ensemble de données d'analyse des sentiments multidomaines	E-commerce	Analyse des sentiments	Ensemble de données contenant des critiques de produits d'Amazon	Lien
PNL	Texte	Avis sur IMDB	Divertissement	Analyse des sentiments	Ensemble de données contenant 25000 XNUMX critiques de films pour l'analyse des sentiments	Lien
PNL	Texte	Sentiment140	Général	Analyse des sentiments	Ensemble de données contenant 160,000 XNUMX tweets avec des émoticônes pré-supprimées pour une plus grande précision	Lien
PNL	Texte	Corpus des blogueurs	Général	Analyse Keyprase	Ensemble de données contenant 681,288 200 articles de blog de blogger.com comprenant au moins XNUMX occurrences de mots anglais largement utilisés.	Lien
PNL	Texte	Jeopardy	Général	Formation sur les chatbots	Ensemble de données avec plus de 200,000 XNUMX questions pouvant être utilisées pour entraîner des modèles d'apprentissage automatique afin de répondre automatiquement et de manière intelligente	Lien
PNL	Texte	Collection de spams SMS en anglais	Télécom	Reconnaissance des spams	Un ensemble de données de messages de spam composé de 5,574 XNUMX SMS en anglais	Lien
PNL	Texte	Avis sur Yelp	Général	Analyse des sentiments	Un ensemble de données avec une revue de plus de 5 mn publiée par Yelp	Lien
PNL	Texte	Spambase de l'UCI	Entreprise	Reconnaissance des spams	Un grand ensemble de données de courriers indésirables, utile pour le filtrage du courrier indésirable.	Lien
CV	Vidéo, Image	Berkeley DeepDrive BDD100k	Automobile	Véhicules autonomes	L'un des plus grands ensembles de données pour l'IA d'auto-conduite contenant 1,100 100,000 heures d'expériences de conduite dans plus de XNUMX XNUMX vidéos à différents moments de la journée de la région de New York et de San Francisco.	Lien
CV	Vidéo	Virgule.ai	Automobile	Véhicules autonomes	Un ensemble de données de conduite sur autoroute de 7 heures comprenant des informations sur la vitesse, l'accélération, l'angle de braquage et les coordonnées GPS de la voiture	Lien
CV	Vidéo, Image	Ensemble de données de paysage urbain	Automobile	Étiquette sémantique pour véhicule autonome	Un ensemble de données de 5,000 20,000 annotations au niveau des pixels plus un ensemble plus vaste de 50 XNUMX images faiblement annotées dans des séquences vidéo stéréo, enregistrées à partir de XNUMX villes différentes	Lien
CV	Image(s)	Ensemble de données de panneaux de signalisation KUL Belgique	Automobile	Véhicules autonomes	Plus de 10000+ annotations de panneaux de signalisation de la région flamande basées sur des panneaux de signalisation physiquement distincts de toute la Belgique.	Lien
CV	Image(s)	LISA : Laboratoire pour les automobiles intelligentes et sûres, ensembles de données de l'UC San Diego	Automobile	Véhicules autonomes	Un ensemble de données riche contenant des panneaux de signalisation, la détection de véhicules, des feux de circulation et des modèles de trajectoire.	Lien
CV	Image(s)	CIFAR-10	Général	Reconnaissance d'objets	Un jeu de données composé de 50,000 10,000 images et de 60,000 32 images de test (soit 32 10 images XNUMX×XNUMX couleurs dans XNUMX classes) pour la reconnaissance d'objets.	Lien
CV	Image(s)	Mode MNIST	Mode		Un jeu de données d'images composé de 60,000 10,000 exemples et un jeu de test de 28 28 exemples en images 10xXNUMX en niveaux de gris, associé à un label de XNUMX classes.	Lien
CV	Image(s)	Ensemble de données IMDB-Wiki	Divertissement	La reconnaissance faciale	Un grand ensemble de données d'images faciales avec des étiquettes telles que le sexe et l'âge. Sur un total de 523,051 460,723 images de visage, 20,284 62,328 images proviennent de XNUMX XNUMX célébrités d'IMDB et XNUMX XNUMX de Wikipedia.	Lien
CV	Vidéo	Cinétique-700	Général		Pour chaque classe d'action, l'ensemble de données de haute qualité se compose de 650,000 700 clips vidéo et comprend 600 classes d'action humaine avec au moins 10 clips vidéo. Ici, chaque clip dure environ XNUMX secondes.	Lien
CV	Image(s)	Mme Coco	Général	Détection d'objets, Segmentation	L'ensemble de données contient 328 2.5 images et un total de 91 millions d'instances et XNUMX images d'objets pour former des modèles ML liés à la détection d'objets à grande échelle, à la segmentation et au sous-titrage des données.	Lien
CV	Image(s)	Ensemble de données de pose humaine MPII	Général		Environ 25 40 photographies contenant plus de 410 XNUMX individus avec des articulations corporelles annotées sont incluses dans l'ensemble de données, qui est utilisé pour articuler l'estimation de la pose humaine. Globalement, l'ensemble de données couvre XNUMX activités humaines et chaque image est fournie avec une étiquette d'activité.	Lien
CV	Image(s)	Images ouvertes	Général	Annotations d'emplacement d'objet	Ensemble de données d'images avec environ 9 Mn d'images annotées avec des étiquettes au niveau de l'image, des cadres de délimitation d'objets, une segmentation d'objets, etc. L'ensemble de données comprend également 16 Mn. cadres de délimitation pour 600 classes d'objets sur 1.9 Mn d'images.	Lien
CV	Vidéo	Plateforme ouverte Apollo, par Baidu Inc, Chine	Automobile	Boîte englobante, LiDAR	Un ensemble de données de conduite autonome riche, qui fournit aux développeurs les données requises en conduite autonome pour accélérer l'efficacité de l'itération innovante.	Lien
CV	Vidéo, Image	Argo, par Argo, États-Unis	Automobile	Cadre de délimitation, flux optique, étiquette comportementale, étiquette sémantique, marquage de voie	Un jeu de données autonome qui se compose de cartes HD avec des métadonnées géométriques et sémantiques, c'est-à-dire les axes des voies, la direction des voies et la zone de conduite. L'ensemble de données est utilisé pour former des modèles ML, pour créer des algorithmes de perception plus précis, qui aideront les véhicules autonomes à naviguer en toute sécurité.	Lien
CV	Vidéo	Petits feux de circulation Bosch, par Bosch North America Research	Automobile	Bounding Box	Un ensemble de données composé de 13427 images de caméra avec une résolution de 1280 * 720 pour construire un système de détection de feux de circulation basé sur la vision. L'ensemble de données contient plus de 24000 XNUMX feux de circulation annotés.	Lien
CV	Vidéo	Brain4Cars, par Cornell Univ., États-Unis	Automobile	Étiquette comportementale	Un jeu de données composé d'un ensemble de capteurs de cabine (caméras, capteurs tactiles, appareils intelligents, etc.) afin d'extraire des statistiques utiles sur la vigilance du conducteur. Nos algorithmes peuvent détecter les conducteurs somnolents ou distraits et augmenter les alarmes nécessaires pour améliorer la protection.	Lien
CV	Image(s)	CULane, par Chinese Univ. de Hong Kong, Pékin, Chine	Automobile	Marquage de voie	Un ensemble de données de vision par ordinateur sur la détection des voies de circulation, composé de 55 heures de vidéos dont 133,235 88880 (ensemble d'entraînement 9675, ensemble de validation 34680 et ensemble de test XNUMX) ont été extraites. Il est collecté par des caméras montées sur six véhicules différents conduits par différents conducteurs à Pékin.	Lien
CV	Vidéo	DAVIS, par Univ. de Zurich,ETH ¨ Zurich, Allemagne, Suisse	Automobile		Un ensemble de données de formation à la conduite de véhicule de bout en bout qui utilise une caméra événement + cadre DAVIS. Les données de voiture telles que la direction, l'accélérateur, le GPS, etc. sont utilisées pour évaluer la fusion des données de trame et d'événement pour les applications automobiles.	Lien
CV	Vidéo	DBNet, par Shanghai Jiao Tong Univ., Xiamen Univ., Chine	Automobile	Nuage de points, LiDAR	Des données de conduite réelles de 1000 XNUMX km, comprenant une vidéo alignée, un nuage de points, un GPS et le comportement du conducteur pour une recherche approfondie sur les comportements de conduite.	Lien
CV	Vidéo	Dr(eye)ve, par Univ. de Modène et Reggio Emilia, Modène, Italie	Automobile	Étiquette comportementale	Ensemble de données contenant 74 séquences vidéo de 5 minutes chacune, qui ont été annotées dans plus de 500,000 XNUMX images. L'ensemble de données comprend des emplacements géoréférencés, la vitesse de conduite, le parcours, ainsi que les fixations du regard des conducteurs et leur intégration temporelle fournissant des cartes spécifiques aux tâches.	Lien
CV	Vidéo	ETH Pedestrian (2009), par ETH Zurich, Zurich, Suisse	Général	Bounding Box	Un jeu de données de 74 séquences vidéo de 5 minutes chacune, annotées en plus de 500,000 XNUMX images. L'ensemble de données fournit des positions géoréférencées, la vitesse de conduite, la direction, et également des étiquettes de fixations du regard pour les conducteurs et leur intégration temporelle, y compris des cartes spécifiques aux tâches.	Lien
CV	Vidéo	Ford (2009), par Univ. du Michigan, Michigan, États-Unis	Automobile	Boîte englobante, , LiDAR	Un ensemble de données compilé par un véhicule terrestre automatisé armé d'un scanner 3D-lidar Velodyne, de deux lidars Rieg à balayage prospectif, d'une unité de mesure inertielle (IMU) technique et grand public et d'un système de caméra omnidirectionnel Point Gray Ladybug3.	Lien
CV	Vidéo	HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Allemagne	Général		Un ensemble de données de plusieurs millions d'images provenant de scènes vidéo capturées qui incluent un large éventail de conditions météorologiques diverses, plusieurs couches de mouvement et de profondeur ; situations en ville et à la campagne, etc.	Lien
CV	Vidéo	JAAD, par l'Université York, Ukraine, Canada	Automobile	Cadre de délimitation, étiquette comportementale	"JAAD est un ensemble de données pour étudier l'attention conjointe dans le contexte de la conduite autonome. L'accent est mis sur les comportements des piétons et des conducteurs au point de passage à niveau et les facteurs qui les influencent. À cette fin, l'ensemble de données JAAD fournit une collection richement annotée de 346 courtes vidéos clips (d'une durée de 5 à 10 secondes) extraits de plus de 240 heures de séquences de conduite à plusieurs endroits en Amérique du Nord et en Europe de l'Est. Des cadres de délimitation avec balises d'occlusion sont utilisés pour tous les piétons, ce qui rend cet ensemble de données adapté à la détection des piétons. Les annotations de comportement spécifient les comportements des piétons qui interagissent avec ou nécessitent l'attention du conducteur. Pour chaque vidéo, il existe plusieurs balises (météo, lieux, etc.) et des étiquettes de comportement horodatées (par exemple, arrêté, marchant, regardant, etc.). De plus, une liste d'attributs démographiques est fourni pour chaque piéton (par exemple, l'âge, le sexe, la direction du mouvement, etc.) ainsi qu'une liste des éléments visibles de la scène de circulation (par exemple, un panneau d'arrêt, un feu de circulation, etc.) dans chaque cadre."	Lien
CV	Vidéo	KAIST Urban, par KAIST, Corée du Sud	Général	LiDAR	La collecte de données comprend de nombreux capteurs de localisation pour les données LiDAR et les images stéréo ciblant une zone urbaine très complexe (par exemple, les zones métropolitaines, les bâtiments complexes et les zones résidentielles).	Lien
CV	Image(s)	Panneau de signalisation LISA, par Univ. de Californie, San Diego, États-Unis	Automobile	Bounding Box	L'ensemble de données contenant des vidéos et des cadres annotés contenant des panneaux de signalisation américains. Il est publié en deux étapes, une avec uniquement les images et une avec à la fois des images et des vidéos.	Lien
CV	Image(s)	Mapillary Vistas, par Mapillary AB, Global	Automobile	Étiquette sémantique	Un ensemble de données photographiques au niveau de la rue pour interpréter des scènes de rue à travers le monde avec des annotations humaines précises au pixel près et spécifiques à l'instance.	Lien
CV	Vidéo, Image	Sémantique KITTI, par l'Université de Bonn, Karlsruhe, Allemagne	Automobile	Cadre de délimitation, étiquette sémantique, marquage de voie	Un jeu de données qui inclut une annotation sémantique pour toutes les séquences d'Odometry Benchmark. L'ensemble de données annote divers types de trafic en mouvement et immobile : y compris les voitures, les vélos, les vélos, les piétons et les cyclistes, permettant d'étudier les objets de la scène.	Lien
CV	Vidéo	Stanford Track, par Stanford Univ., États-Unis	Automobile	Détection d'objets / Classification LiDAR, GPS, Codes	Un ensemble de données qui comprend 14,000 64 pistes d'objets étiquetées telles qu'observées par un LIDAR Velodyne HDL-2E S3 dans des scènes de rue naturelles, qui peut être utilisé pour former des modèles d'apprentissage automatique pour la reconnaissance d'objets XNUMXD.	Lien
CV	Vidéo, Image	Le jeu de données Boxy, par Bosch, États-Unis	Automobile	Zone de délimitation / Détection de véhicule	Un ensemble de données de détection de véhicules contenant 2 millions de véhicules annotés pour la formation et l'analyse des stratégies de reconnaissance d'objets pour les voitures autonomes sur les autoroutes.	Lien
CV	Vidéo	Autoroute TME, par Czech Technical Univ., Italie du Nord	Automobile	Bounding Box	Un jeu de données de 28 clips pour un total de 27 minutes divisé en plus de 30,000 XNUMX cadres d'annotation de véhicules. L'annotation a été produite de manière semi-automatique à l'aide des données du scanner laser. Cette collecte de données implique des scénarios de trafic variables, le nombre de voies, la courbure de la route et l'éclairage, couvrant une grande partie des conditions de l'acquisition complète.	Lien
CV	Vidéo	Lamas non supervisés, par Bosch, États-Unis	Automobile	Marquage des voies, LiDAR	L'ensemble de données Lamas non supervisés a été annoté en générant des cartes de conduite automatique haute définition, y compris des marqueurs de voie basés sur Lidar. Le véhicule autonome peut être aligné sur ces cartes et les marquages au sol sont projetés dans le cadre de la caméra. La projection 3D est optimisée en minimisant l'écart entre les marqueurs d'image déjà observés et prédits.	Lien
PNL	Audio	Facebook AI multilingue LibriSpeech (MLS)	Général	Annotation audio/reconnaissance vocale	Facebook AI Multilingual LibriSpeech (MLS) est un ensemble de données open source à grande échelle conçu pour aider à faire avancer la recherche sur la reconnaissance automatique de la parole (ASR). MLS fournit plus de 50,000 8 heures d'audio dans XNUMX langues : anglais, allemand, néerlandais, français, espagnol, italien, portugais et polonais.	Lien

Jeux de données ouverts

Ensembles de données open source pour vous initier aux modèles AI/ML

Services de données IA

Spécialité

Industrie

Produits

Entreprise

Ressources

Contactez-Nous