Vision par ordinateur

31 jeux d'images gratuits pour la vision par ordinateur pour booster votre projet [Mise à jour 2025]

Un algorithme d'IA n'est aussi bon que les données que vous lui fournissez.

Ce n'est ni une déclaration audacieuse ni une déclaration non conventionnelle. L'IA aurait pu sembler assez farfelue il y a quelques décennies, mais l'intelligence artificielle et l'apprentissage automatique ont parcouru un très long chemin depuis lors.

La vision par ordinateur permet aux ordinateurs de comprendre et d'interpréter les étiquettes et les images. En entraînant votre ordinateur avec les jeux de données d'images appropriés, il peut acquérir la capacité de détecter, de comprendre et d'identifier divers traits du visage, de détecter des maladies, de conduire des véhicules autonomes et de sauver des vies grâce à l'imagerie multidimensionnelle des organes.

Le marché de la vision par ordinateur devrait atteindre 144.46 $ Billion par 2028 d'un modeste 7.04 milliards de dollars en 2020, poussant à un CAGR de 45.64% entre 2021 et 2028.

Le jeu de données d'images que vous alimentez et entraînez pour vos tâches de Machine Learning et de vision par ordinateur est essentiel à la réussite de votre projet d'IA. Obtenir un jeu de données de qualité est difficile. Utiliser une collection d'images diversifiée est essentiel pour garantir un entraînement robuste du modèle et mieux refléter la complexité du monde réel.

Selon la complexité de votre projet, l'obtention d'ensembles de données fiables et pertinents pour la vision par ordinateur peut prendre de quelques jours à quelques semaines. Un large éventail d'ensembles de données est nécessaire pour couvrir diverses tâches de vision par ordinateur et scénarios réels. Les chercheurs recherchent souvent un ensemble de données conséquent à des fins de recherche afin de garantir une évaluation complète des modèles et de soutenir un large éventail d'applications.

Nous vous proposons ici une gamme (classée pour votre facilité) d'ensembles de données d'images open source que vous pouvez utiliser immédiatement.

Tâches liées aux jeux de données d'images : classification, segmentation, détection, etc.

Ensembles de données d'images Les images sont au cœur de la vision par ordinateur moderne, alimentant un large éventail de tâches permettant aux machines d'interpréter et de comprendre les informations visuelles. Que vous construisiez un modèle pour véhicules autonomes, développiez une technologie de reconnaissance faciale ou travailliez sur l'analyse d'images médicales, disposer d'un ensemble de données d'images adapté est un outil essentiel à la réussite.

Classification des images est l'une des tâches les plus fondamentales de la vision par ordinateur. Ce processus permet à un modèle d'apprendre à attribuer une étiquette à une image entière en fonction de son contenu. Par exemple, un jeu de données de classification d'images peut aider un modèle à distinguer des images de chats et de chiens, ou à identifier différents types de plantes. Cette tâche est cruciale pour des applications telles que l'étiquetage automatique de photos, le diagnostic de maladies à partir d'images médicales et les benchmarks de catégorisation de scènes.

Détection d'objets va encore plus loin en identifiant non seulement la présence d'objets dans une image, mais aussi leur emplacement précis grâce à des cadres de délimitation. Les jeux de données pour la détection d'objets, tels que ceux contenant des images annotées avec des cadres de délimitation, sont essentiels pour des applications telles que la détection de piétons dans les véhicules autonomes, la surveillance de sécurité et l'analyse du commerce de détail. La détection d'objets est également un élément clé du développement d'algorithmes de vision par ordinateur robustes pour des scénarios réels.

Segmentation sémantique Il s'agit de classer chaque pixel d'une image dans une catégorie spécifique, offrant ainsi une compréhension détaillée de la scène. Cette segmentation trimap au niveau du pixel est particulièrement importante pour des tâches comme l'imagerie médicale, où une délimitation précise des organes ou des tumeurs est requise, et dans les environnements urbains pour la conduite autonome, où la distinction entre les routes, les trottoirs et les véhicules est essentielle.

Au-delà de ces tâches principales, les jeux de données d'images prennent également en charge la segmentation d'instances (différence entre les objets d'une même classe), le sous-titrage (génération de texte descriptif) et la reconnaissance faciale (identification ou vérification des visages humains sur les images). Chacune de ces tâches de vision par ordinateur s'appuie sur des images annotées de haute qualité pour entraîner et valider les modèles d'apprentissage automatique.

En exploitant des jeux de données d'images diversifiés et bien annotés, les data scientists et les spécialistes de l'apprentissage automatique peuvent relever divers défis en vision par ordinateur, de la reconnaissance et de la classification d'images aux problèmes complexes de segmentation et de détection. Un jeu de données adapté accélère non seulement la recherche et le développement, mais garantit également la précision des systèmes de vision par ordinateur dans les applications concrètes.

Liste complète des ensembles de données d'images pour former votre modèle de vision par ordinateur

Général:

  1. ImageNet

    ImageNet est un ensemble de données largement utilisé, et il est livré avec un étonnant 1.2 million d'images classées en 1000 catégories. Cet ensemble de données est organisé selon la hiérarchie WorldNet et classé en trois parties : les données d'entraînement, les étiquettes d'image et les données de validation.

  2. Cinétique 700

    Kinetics 700 est un énorme ensemble de données de haute qualité avec plus de 650,000 700 clips de 700 classes d'action humaine différentes. Chacun des recours collectifs comprend environ XNUMX clips vidéo. Les clips de l'ensemble de données ont des interactions homme-objet et homme-homme, qui s'avèrent très utiles pour reconnaître les actions humaines dans les vidéos.

  3. CIFAR-10

    CIFAR 10 est l'un des plus grands ensembles de données de vision par ordinateur, avec 60000 32 images en couleurs 32 x 6000 représentant dix classes différentes. Chaque classe contient environ XNUMX XNUMX images utilisées pour former les algorithmes de vision par ordinateur et l'apprentissage automatique.

  4. Ensemble de données d'images d'animaux de compagnie Oxford-IIIT

    L'ensemble de données d'images d'animaux de compagnie comprend 37 catégories avec 200 images par classe. Ces images varient en termes d'échelle, de pose et d'éclairage, et sont accompagnées d'annotations pour la race, le ROI de la tête et la segmentation trimap au niveau des pixels.

  5. Les images ouvertes de Google

    Avec un nombre impressionnant de 9 millions d'URL, il s'agit de l'un des plus grands ensembles de données d'images de la liste, contenant des millions d'images étiquetées dans 6,000 XNUMX catégories.

  6. Images de plantes

    Cette compilation comprend plusieurs ensembles de données d'images comprenant un nombre impressionnant d'un million d'images de plantes, couvrant environ 1 espèces.

  7. LSUN

    LSUN est un jeu de données d'images à grande échelle comprenant des millions d'images étiquetées dans diverses catégories de scènes et d'objets. Ce jeu de données comprend un ensemble de tests dédié à l'évaluation du modèle.

La reconnaissance faciale:

La reconnaissance faciale

  1. Visages étiquetés dans la nature

    Labeled Faced in the Wild est un énorme ensemble de données contenant plus de 13,230 5,750 images de près de XNUMX XNUMX personnes détectées sur Internet. Cet ensemble de données de visages est conçu pour faciliter l'étude de la détection de visages sans contrainte.

  2. WebFace CASIA

    CASIA Web Face est un ensemble de données bien conçu qui facilite l'apprentissage automatique et la recherche scientifique sur la reconnaissance faciale sans contrainte. Avec plus de 494,000 10,000 images de près de XNUMX XNUMX identités réelles, il est idéal pour les tâches d'identification et de vérification des visages.

  3. Ensemble de données de visages UMD

    L'UMD fait face à un ensemble de données bien annoté qui contient deux parties : des images fixes et des images vidéo. L'ensemble de données contient plus de 367,800 3.7 annotations faciales et XNUMX millions d'images vidéo annotées de sujets.

  4. Détection de masque facial

    Cet ensemble de données comprend 853 images classées en trois classes : « avec masque », « sans masque » et « masque porté de manière incorrecte », ainsi que leurs cadres de délimitation au format PASCAL VOC.

  5. Féret

    La FERET (Facial Recognition Technology Database) est un ensemble de données d'images complet contenant plus de 14,000 XNUMX images annotées de visages humains.

Reconnaissance de l'écriture manuscrite :

  1. Base de données MNIST

    MNIST est une base de données contenant des échantillons de chiffres manuscrits de 0 à 9, et elle contient 60,000 10,000 et 1999 XNUMX images d'entraînement et de test. Sorti en XNUMX, MNIST facilite le test des systèmes de traitement d'images en Deep Learning.

  2. Ensemble de données de caractères artificiels

    L'ensemble de données de caractères artificiels est, comme son nom l'indique, des données générées artificiellement qui décrivent la structure de la langue anglaise en dix lettres majuscules. Il est livré avec plus de 6000 images.

Détection d'objets:

  1. Mme COCO

    MS COCO ou Common Objects in Context est un ensemble de données de détection et de sous-titrage d'objets.

    Il contient plus de 328,000 80 images avec détection de point clé, détection multi-objets, sous-titrage et annotations de masque de segmentation. Il est livré avec XNUMX catégories d'objets et cinq légendes par image.

  2. LSUN

    LSUN, abréviation de Large-scale Scene Understanding, contient plus d'un million d'images étiquetées dans 20 catégories d'objets et 10 catégories de scènes. Certaines catégories ont près de 300,000 300 images, avec 1000 images spécifiquement pour la validation et XNUMX images pour les données de test.

  3. Objets d’intérieur

    L'ensemble de données Home Objects contient des images annotées d'objets aléatoires de la maison - cuisine, salon et salle de bain. Cet ensemble de données contient également quelques vidéos annotées et 398 photos non annotées conçues pour les tests.

  4. Génome visuel

    Visual Genome est une base de connaissances visuelles complète contenant plus de 108,000 XNUMX images légendées. Elle fournit des annotations détaillées sur les objets, les attributs et les relations, ce qui la rend précieuse pour la reconnaissance d'objets, le sous-titrage d'images et les tâches d'apprentissage multimodal.

Automobile:

  1. Jeu de données de paysage urbain

    Cityscape est l'ensemble de données à consulter pour rechercher diverses séquences vidéo enregistrées à partir de scènes de rue de plusieurs villes. Ces images ont été capturées sur une longue période et dans différentes conditions météorologiques et lumineuses. Les annotations concernent 30 classes d'images réparties en huit catégories différentes.

  2. Barkley Deep Drive

    Barkley DeepDrive est spécialement conçu pour la formation aux véhicules autonomes et contient plus de 100 XNUMX séquences vidéo annotées. C'est l'une des données d'entraînement les plus utiles pour les véhicules autonomes en raison des conditions changeantes de la route et de la conduite.

  3. Mapillaire

    Mapillary compte plus de 750 millions de scènes de rue et de panneaux de signalisation dans le monde, ce qui est très utile pour former des modèles de perception visuelle dans les algorithmes d'apprentissage automatique et d'IA. Il vous permet de développer des véhicules autonomes qui s'adaptent à diverses conditions d'éclairage, météorologiques et points de vue.

L'imagerie médicale:

  1. Ensemble de données de recherche ouvert Covid-19

    Cet ensemble de données original contient environ 6500 517 segmentations pulmonaires polygonales en pixels sur les radiographies pulmonaires AP/PA. De plus, 19 images de radiographies de patients Covid-XNUMX avec des étiquettes contenant le nom, l'emplacement, les détails de l'admission, le résultat, etc. sont disponibles.

  2. Base de données NIH de 100,000 XNUMX radiographies pulmonaires

    La base de données du NIH est l'un des ensembles de données accessibles au public les plus complets contenant 100,000 XNUMX images de radiographies pulmonaires et des données connexes utiles pour la communauté scientifique et de recherche. Il contient même des images de patients atteints de maladies pulmonaires avancées.

  3. Atlas de pathologie numérique

    Atlas of Digital Pathology propose plusieurs images de patchs histopathologiques, plus de 17,000 100 au total, à partir de près de XNUMX lames annotées de différents organes. Cet ensemble de données est utile pour développer des logiciels de vision par ordinateur et de reconnaissance de formes.

Reconnaissance de scène :

Reconnaissance de scène

  1. Reconnaissance de scènes d'intérieur

    La reconnaissance de scènes d'intérieur est un jeu de données hautement catégorisé avec près de 15620 images d'objets et de paysages d'intérieur à utiliser dans l'apprentissage automatique et la formation aux données. Il est livré avec plus de 65 catégories, et chaque catégorie a un minimum de 100 images.

  2. xVoir

    En tant que l'un des ensembles de données accessibles au public les plus connus, xView contient des tonnes d'images aériennes annotées provenant de diverses scènes complexes et volumineuses. Avec environ 60 classes et plus d'un million d'instances d'objets, le but de cet ensemble de données est de fournir une meilleure assistance en cas de catastrophe en utilisant l'imagerie satellite.

  3. Des endroits

    Places, un ensemble de données fourni par le MIT, contient plus de 1.8 million d'images provenant de 365 catégories de scènes différentes. Il y a environ 50 images dans chacune de ces catégories pour la validation et 900 images pour les tests. L'apprentissage des fonctionnalités de scènes profondes pour établir des tâches de reconnaissance de scène ou de reconnaissance visuelle est possible.

  4. Base de données SUN

    La base de données SUN est un référentiel complet de catégorisation de scènes largement utilisé en vision par ordinateur. Elle contient des milliers d'images couvrant un large éventail d'environnements intérieurs et extérieurs, avec des annotations détaillées pour chaque scène. Reconnue pour sa couverture de scènes variées, elle sert de référence standard pour l'évaluation des algorithmes de compréhension de scènes.

Divertissement:

  1. Ensemble de données IMDB WIKI

    IMDB - Wiki est l'une des bases de données publiques les plus populaires de visages étiquetés de manière adéquate avec l'âge, le sexe et les noms. Il compte également environ 20 62 visages de célébrités et XNUMX XNUMX de Wikipedia.

  2. Visages de célébrités

    Celeb Faces est une base de données à grande échelle contenant 200,000 XNUMX images annotées de célébrités. Les images sont accompagnées de bruit de fond et de variations de pose, ce qui les rend précieuses pour l'entraînement des ensembles de tests aux tâches de vision par ordinateur. Il est très bénéfique pour obtenir une plus grande précision dans la reconnaissance faciale, l'édition, la localisation des parties du visage, etc.

  3. Ensemble de données YouTube-8M

    YouTube-8M est un vaste ensemble de données vidéo étiquetées contenant des millions d'identifiants vidéo YouTube accompagnés d'annotations visuelles de haute qualité générées automatiquement. Cet ensemble de données est largement utilisé pour la compréhension vidéo à grande échelle et l'entraînement d'algorithmes de vision, car il relie le contenu vidéo aux métadonnées via les identifiants vidéo YouTube, permettant ainsi une collecte et une annotation évolutives des données vidéo.

Vous disposez désormais d'une vaste liste de jeux de données d'images open source pour alimenter votre machine d'intelligence artificielle. Le résultat de vos modèles d'IA et de machine learning dépend principalement de la qualité des jeux de données que vous alimentez et entraînez. Pour que votre modèle d'IA produise des prédictions précises, il a besoin de jeux de données de qualité, agrégés, étiquetés et étiquetés à la perfection. Travailler avec ces jeux de données est un excellent moyen de développer et d'améliorer vos compétences en machine learning grâce à des projets concrets et pratiques. Pour optimiser le succès de votre système de vision par ordinateur, vous devez utiliser des bases de données d'images de qualité, adaptées à la vision de votre projet.

Cet article vous a plu ? Suivez Shaip sur LinkedIn pour plus d’actualités.

Partager