Vision par ordinateur

27 ensembles de données d'images open source pour améliorer votre projet de vision par ordinateur [Mise à jour 2025]

Un algorithme d'IA n'est aussi bon que les données que vous lui fournissez.

Ce n'est ni une déclaration audacieuse ni une déclaration non conventionnelle. L'IA aurait pu sembler assez farfelue il y a quelques décennies, mais l'intelligence artificielle et l'apprentissage automatique ont parcouru un très long chemin depuis lors.

Vision par ordinateur aide les ordinateurs à comprendre et à interpréter les étiquettes et les images. Lorsque vous entraînez votre ordinateur à l'aide du bon type d'ensembles de données d'images, il peut acquérir la capacité de détecter, de comprendre et d'identifier diverses caractéristiques faciales, de détecter des maladies, de conduire des véhicules autonomes et également de sauver des vies grâce à l'analyse multidimensionnelle des organes.

Le marché de la vision par ordinateur devrait atteindre $ 144.46 milliards d'ici 2028 contre un modeste 7.04 milliards de dollars en 2020, augmentant à un TCAC de 45.64 % entre 2021 et 2028.

Le jeu de données d'images vous alimentez et entraînez vos tâches d'apprentissage machine et de vision par ordinateur sont cruciales pour le succès de votre projet d'IA. Un ensemble de données de qualité est assez difficile à obtenir. Selon la complexité de votre projet, l'obtention d'ensembles de données fiables et pertinents à des fins de vision par ordinateur peut prendre entre quelques jours et quelques semaines.

Nous vous proposons ici une gamme (classée pour votre facilité) d'ensembles de données d'images open source que vous pouvez utiliser immédiatement.

Liste complète des ensembles de données d'images pour former votre modèle de vision par ordinateur

Général:

  1. ImageNet

    ImageNet est un ensemble de données largement utilisé, et il est livré avec un étonnant 1.2 million d'images classées en 1000 catégories. Cet ensemble de données est organisé selon la hiérarchie WorldNet et classé en trois parties : les données d'entraînement, les étiquettes d'image et les données de validation.

  2. Cinétique 700

    Kinetics 700 est un énorme ensemble de données de haute qualité avec plus de 650,000 700 clips de 700 classes d'action humaine différentes. Chacun des recours collectifs comprend environ XNUMX clips vidéo. Les clips de l'ensemble de données ont des interactions homme-objet et homme-homme, qui s'avèrent très utiles pour reconnaître les actions humaines dans les vidéos.

  3. CIFAR-10

    CIFAR 10 est l'un des plus grands ensembles de données de vision par ordinateur, avec 60000 32 images en couleurs 32 x 6000 représentant dix classes différentes. Chaque classe contient environ XNUMX XNUMX images utilisées pour former les algorithmes de vision par ordinateur et l'apprentissage automatique.

  4. Ensemble de données d'images d'animaux de compagnie Oxford-IIIT

    L'ensemble de données d'images d'animaux de compagnie comprend 37 catégories avec 200 images par classe. Ces images varient en termes d'échelle, de pose et d'éclairage, et sont accompagnées d'annotations pour la race, le ROI de la tête et la segmentation trimap au niveau des pixels.

  5. Les images ouvertes de Google

    Avec un nombre impressionnant de 9 millions d'URL, il s'agit de l'un des plus grands ensembles de données d'images de la liste, contenant des millions d'images étiquetées dans 6,000 XNUMX catégories.

  6. Images de plantes

    Cette compilation comprend plusieurs ensembles de données d'images comprenant un nombre impressionnant d'un million d'images de plantes, couvrant environ 1 espèces.

La reconnaissance faciale:

La reconnaissance faciale

  1. Visages étiquetés dans la nature

    Labeled Faced in the Wild est un énorme ensemble de données contenant plus de 13,230 5,750 images de près de XNUMX XNUMX personnes détectées sur Internet. Cet ensemble de données de visages est conçu pour faciliter l'étude de la détection de visages sans contrainte.

  2. WebFace CASIA

    CASIA Web Face est un ensemble de données bien conçu qui facilite l'apprentissage automatique et la recherche scientifique sur la reconnaissance faciale sans contrainte. Avec plus de 494,000 10,000 images de près de XNUMX XNUMX identités réelles, il est idéal pour les tâches d'identification et de vérification des visages.

  3. Ensemble de données de visages UMD

    L'UMD fait face à un ensemble de données bien annoté qui contient deux parties : des images fixes et des images vidéo. L'ensemble de données contient plus de 367,800 3.7 annotations faciales et XNUMX millions d'images vidéo annotées de sujets.

  4. Détection de masque facial

    Cet ensemble de données comprend 853 images classées en trois classes : « avec masque », « sans masque » et « masque porté de manière incorrecte », ainsi que leurs cadres de délimitation au format PASCAL VOC.

  5. Féret

    La FERET (Facial Recognition Technology Database) est un ensemble de données d'images complet contenant plus de 14,000 XNUMX images annotées de visages humains.

Reconnaissance de l'écriture manuscrite :

  1. Base de données MNIST

    MNIST est une base de données contenant des échantillons de chiffres manuscrits de 0 à 9, et elle contient 60,000 10,000 et 1999 XNUMX images d'entraînement et de test. Sorti en XNUMX, MNIST facilite le test des systèmes de traitement d'images en Deep Learning.

  2. Ensemble de données de caractères artificiels

    L'ensemble de données de caractères artificiels est, comme son nom l'indique, des données générées artificiellement qui décrivent la structure de la langue anglaise en dix lettres majuscules. Il est livré avec plus de 6000 images.

Discutons aujourd'hui de vos besoins en données de formation en IA.

Détection d'objets:

  1. Mme COCO

    MS COCO ou Common Objects in Context est un ensemble de données de détection et de sous-titrage d'objets.

    Il contient plus de 328,000 80 images avec détection de point clé, détection multi-objets, sous-titrage et annotations de masque de segmentation. Il est livré avec XNUMX catégories d'objets et cinq légendes par image.

  2. LSUN

    LSUN, abréviation de Large-scale Scene Understanding, contient plus d'un million d'images étiquetées dans 20 catégories d'objets et 10 catégories de scènes. Certaines catégories ont près de 300,000 300 images, avec 1000 images spécifiquement pour la validation et XNUMX images pour les données de test.

  3. Objets d’intérieur

    L'ensemble de données Home Objects contient des images annotées d'objets aléatoires de la maison - cuisine, salon et salle de bain. Cet ensemble de données contient également quelques vidéos annotées et 398 photos non annotées conçues pour les tests.

Automobile:

  1. Jeu de données de paysage urbain

    Cityscape est l'ensemble de données à consulter pour rechercher diverses séquences vidéo enregistrées à partir de scènes de rue de plusieurs villes. Ces images ont été capturées sur une longue période et dans différentes conditions météorologiques et lumineuses. Les annotations concernent 30 classes d'images réparties en huit catégories différentes.

  2. Barkley Deep Drive

    Barkley DeepDrive est spécialement conçu pour la formation aux véhicules autonomes et contient plus de 100 XNUMX séquences vidéo annotées. C'est l'une des données d'entraînement les plus utiles pour les véhicules autonomes en raison des conditions changeantes de la route et de la conduite.

  3. Mapillaire

    Mapillary compte plus de 750 millions de scènes de rue et de panneaux de signalisation dans le monde, ce qui est très utile pour former des modèles de perception visuelle dans les algorithmes d'apprentissage automatique et d'IA. Il vous permet de développer des véhicules autonomes qui s'adaptent à diverses conditions d'éclairage, météorologiques et points de vue.

L'imagerie médicale:

  1. Ensemble de données de recherche ouvert Covid-19

    Cet ensemble de données original contient environ 6500 517 segmentations pulmonaires polygonales en pixels sur les radiographies pulmonaires AP/PA. De plus, 19 images de radiographies de patients Covid-XNUMX avec des étiquettes contenant le nom, l'emplacement, les détails de l'admission, le résultat, etc. sont disponibles.

  2. Base de données NIH de 100,000 XNUMX radiographies pulmonaires

    La base de données du NIH est l'un des ensembles de données accessibles au public les plus complets contenant 100,000 XNUMX images de radiographies pulmonaires et des données connexes utiles pour la communauté scientifique et de recherche. Il contient même des images de patients atteints de maladies pulmonaires avancées.

  3. Atlas de pathologie numérique

    Atlas of Digital Pathology propose plusieurs images de patchs histopathologiques, plus de 17,000 100 au total, à partir de près de XNUMX lames annotées de différents organes. Cet ensemble de données est utile pour développer des logiciels de vision par ordinateur et de reconnaissance de formes.

Reconnaissance de scène :

Reconnaissance de scène

  1. Reconnaissance de scènes d'intérieur

    La reconnaissance de scènes d'intérieur est un jeu de données hautement catégorisé avec près de 15620 images d'objets et de paysages d'intérieur à utiliser dans l'apprentissage automatique et la formation aux données. Il est livré avec plus de 65 catégories, et chaque catégorie a un minimum de 100 images.

  2. xVoir

    En tant que l'un des ensembles de données accessibles au public les plus connus, xView contient des tonnes d'images aériennes annotées provenant de diverses scènes complexes et volumineuses. Avec environ 60 classes et plus d'un million d'instances d'objets, le but de cet ensemble de données est de fournir une meilleure assistance en cas de catastrophe en utilisant l'imagerie satellite.

  3. Des endroits

    Places, un ensemble de données fourni par le MIT, contient plus de 1.8 million d'images provenant de 365 catégories de scènes différentes. Il y a environ 50 images dans chacune de ces catégories pour la validation et 900 images pour les tests. L'apprentissage des fonctionnalités de scènes profondes pour établir des tâches de reconnaissance de scène ou de reconnaissance visuelle est possible.

Divertissement:

  1. Ensemble de données IMDB WIKI

    IMDB - Wiki est l'une des bases de données publiques les plus populaires de visages étiquetés de manière adéquate avec l'âge, le sexe et les noms. Il compte également environ 20 62 visages de célébrités et XNUMX XNUMX de Wikipedia.

  2. Visages de célébrités

    Celeb Faces est une base de données à grande échelle contenant 200,000 XNUMX images annotées de célébrités. Les images sont accompagnées de bruit de fond et de variations de pose, ce qui les rend précieuses pour l'entraînement des ensembles de tests aux tâches de vision par ordinateur. Il est très bénéfique pour obtenir une plus grande précision dans la reconnaissance faciale, l'édition, la localisation des parties du visage, etc.

Maintenant que vous disposez d'une liste massive d'ensembles de données d'images open source pour alimenter votre machine d'intelligence artificielle. Le résultat de vos modèles d'IA et d'apprentissage automatique dépend principalement de la qualité des ensembles de données sur lesquels vous les alimentez et les formez. Si vous voulez que votre modèle d'IA produise des prédictions précises, il a besoin d'ensembles de données de qualité qui sont agrégés, étiquetés et étiquetés à la perfection. Pour amplifier le succès de votre système de vision par ordinateur, vous devez utiliser des bases de données d'images de qualité pertinentes à la vision de votre projet. Si vous recherchez plus de tels ensembles de données Cliquez ici

Partager

Vous aimeriez aussi