Vision par ordinateur

Plus de 22 ensembles de données open source les plus recherchés pour la vision par ordinateur

Un algorithme d'IA n'est aussi bon que les données que vous lui fournissez.

Ce n'est ni une déclaration audacieuse ni une déclaration non conventionnelle. L'IA aurait pu sembler assez farfelue il y a quelques décennies, mais l'intelligence artificielle et l'apprentissage automatique ont parcouru un très long chemin depuis lors.

Vision par ordinateur aide les ordinateurs à comprendre et à interpréter les étiquettes et les images. Lorsque vous entraînez votre ordinateur à l'aide du bon type d'images, il peut acquérir la capacité de détecter, de comprendre et d'identifier diverses caractéristiques faciales, de détecter des maladies, de conduire des véhicules autonomes et de sauver des vies grâce à la numérisation d'organes multidimensionnelle.

Le marché de la vision par ordinateur devrait atteindre $ 144.46 milliards d'ici 2028 contre un modeste 7.04 milliards de dollars en 2020, augmentant à un TCAC de 45.64 % entre 2021 et 2028.

Certains des cas d'utilisation de la vision par ordinateur sont :

  • L'imagerie médicale
  • Véhicule autonome
  • Reconnaissance faciale et d'objet
  • Identification des défauts
  • Détection de scène

La jeu de données d'images vous alimentez et entraînez vos tâches d'apprentissage machine et de vision par ordinateur sont cruciales pour le succès de votre projet d'IA. Un ensemble de données de qualité est assez difficile à obtenir. Selon la complexité de votre projet, l'obtention d'ensembles de données fiables et pertinents à des fins de vision par ordinateur peut prendre entre quelques jours et quelques semaines.

Ici, nous vous proposons une gamme (classée pour votre facilité) d'ensembles de données open source que vous pouvez utiliser immédiatement.

Liste complète des ensembles de données de vision par ordinateur

Général:

  1. ImageNet (Lien)

    ImageNet est un ensemble de données largement utilisé, et il est livré avec un étonnant 1.2 million d'images classées en 1000 catégories. Cet ensemble de données est organisé selon la hiérarchie WorldNet et classé en trois parties : les données d'entraînement, les étiquettes d'image et les données de validation.

  2. Cinétique 700 (Lien)

    Kinetics 700 est un énorme ensemble de données de haute qualité avec plus de 650,000 700 clips de 700 classes d'action humaine différentes. Chacun des recours collectifs comprend environ XNUMX clips vidéo. Les clips de l'ensemble de données ont des interactions homme-objet et homme-homme, qui s'avèrent très utiles pour reconnaître les actions humaines dans les vidéos.

  3. CIFAR-10 (Lien)

    CIFAR 10 est l'un des plus grands ensembles de données de vision par ordinateur, avec 60000 32 images en couleurs 32 x 6000 représentant dix classes différentes. Chaque classe contient environ XNUMX XNUMX images utilisées pour former les algorithmes de vision par ordinateur et l'apprentissage automatique.

La reconnaissance faciale:

La reconnaissance faciale

  1. Visages étiquetés dans la nature (Lien)

    Labeled Faced in the Wild est un énorme ensemble de données contenant plus de 13,230 5,750 images de près de XNUMX XNUMX personnes détectées sur Internet. Cet ensemble de données de visages est conçu pour faciliter l'étude de la détection de visages sans contrainte.

  2. WebFace CASIA (Lien)

    CASIA Web Face est un ensemble de données bien conçu qui facilite l'apprentissage automatique et la recherche scientifique sur la reconnaissance faciale sans contrainte. Avec plus de 494,000 10,000 images de près de XNUMX XNUMX identités réelles, il est idéal pour les tâches d'identification et de vérification des visages.

  3. Ensemble de données de visages UMD (Lien)

    L'UMD fait face à un ensemble de données bien annoté qui contient deux parties : des images fixes et des images vidéo. L'ensemble de données contient plus de 367,800 3.7 annotations faciales et XNUMX millions d'images vidéo annotées de sujets.

Reconnaissance de l'écriture manuscrite :

  1. Base de données MNIST (Lien)

    MNIST est une base de données contenant des échantillons de chiffres manuscrits de 0 à 9, et elle contient 60,000 10,000 et 1999 XNUMX images d'entraînement et de test. Sorti en XNUMX, MNIST facilite le test des systèmes de traitement d'images en Deep Learning.

  2. Ensemble de données de caractères artificiels (Lien)

    L'ensemble de données de caractères artificiels est, comme son nom l'indique, des données générées artificiellement qui décrivent la structure de la langue anglaise en dix lettres majuscules. Il est livré avec plus de 6000 images.

Discutons aujourd'hui de vos besoins en données de formation en IA.

Détection d'objets:

  1. Mme COCO (Lien)

    MS COCO ou Common Objects in Context est un ensemble de données de détection et de sous-titrage d'objets.

    Il contient plus de 328,000 80 images avec détection de point clé, détection multi-objets, sous-titrage et annotations de masque de segmentation. Il est livré avec XNUMX catégories d'objets et cinq légendes par image.

  2. LSUN(Lien)

    LSUN, abréviation de Large-scale Scene Understanding, contient plus d'un million d'images étiquetées dans 20 catégories d'objets et 10 catégories de scènes. Certaines catégories ont près de 300,000 300 images, avec 1000 images spécifiquement pour la validation et XNUMX images pour les données de test.

  3. Objets d’intérieur(Lien)

    L'ensemble de données Home Objects contient des images annotées d'objets aléatoires de la maison - cuisine, salon et salle de bain. Cet ensemble de données contient également quelques vidéos annotées et 398 photos non annotées conçues pour les tests.

Automobile:

  1. Jeu de données de paysage urbain (Lien)

    Cityscape est l'ensemble de données à consulter pour rechercher diverses séquences vidéo enregistrées à partir de scènes de rue de plusieurs villes. Ces images ont été capturées sur une longue période et dans différentes conditions météorologiques et lumineuses. Les annotations concernent 30 classes d'images réparties en huit catégories différentes.

  2. Barkley Deep Drive (Lien)

    Barkley DeepDrive est spécialement conçu pour la formation aux véhicules autonomes et contient plus de 100 XNUMX séquences vidéo annotées. C'est l'une des données d'entraînement les plus utiles pour les véhicules autonomes en raison des conditions changeantes de la route et de la conduite.

  3. Mapillaire (Lien)

    Mapillary compte plus de 750 millions de scènes de rue et de panneaux de signalisation dans le monde, ce qui est très utile pour former des modèles de perception visuelle dans les algorithmes d'apprentissage automatique et d'IA. Il vous permet de développer des véhicules autonomes qui s'adaptent à diverses conditions d'éclairage, météorologiques et points de vue.

L'imagerie médicale:

  1. Ensemble de données de recherche ouvert Covid-19 (Lien)

    Cet ensemble de données original contient environ 6500 517 segmentations pulmonaires polygonales en pixels sur les radiographies pulmonaires AP/PA. De plus, 19 images de radiographies de patients Covid-XNUMX avec des étiquettes contenant le nom, l'emplacement, les détails de l'admission, le résultat, etc. sont disponibles.

  2. Base de données NIH de 100,000 XNUMX radiographies pulmonaires (Lien)

    La base de données du NIH est l'un des ensembles de données accessibles au public les plus complets contenant 100,000 XNUMX images de radiographies pulmonaires et des données connexes utiles pour la communauté scientifique et de recherche. Il contient même des images de patients atteints de maladies pulmonaires avancées.

  3. Atlas de pathologie numérique (Lien)

    Atlas of Digital Pathology propose plusieurs images de patchs histopathologiques, plus de 17,000 100 au total, à partir de près de XNUMX lames annotées de différents organes. Cet ensemble de données est utile pour développer des logiciels de vision par ordinateur et de reconnaissance de formes.

Reconnaissance de scène :

Reconnaissance de scène

  1. Reconnaissance de scènes d'intérieur (Lien)

    La reconnaissance de scènes d'intérieur est un jeu de données hautement catégorisé avec près de 15620 images d'objets et de paysages d'intérieur à utiliser dans l'apprentissage automatique et la formation aux données. Il est livré avec plus de 65 catégories, et chaque catégorie a un minimum de 100 images.

  2. xVoir (Lien)

    En tant que l'un des ensembles de données accessibles au public les plus connus, xView contient des tonnes d'images aériennes annotées provenant de diverses scènes complexes et volumineuses. Avec environ 60 classes et plus d'un million d'instances d'objets, le but de cet ensemble de données est de fournir une meilleure assistance en cas de catastrophe en utilisant l'imagerie satellite.

  3. Des endroits (Lien)

    Places, un ensemble de données fourni par le MIT, contient plus de 1.8 million d'images provenant de 365 catégories de scènes différentes. Il y a environ 50 images dans chacune de ces catégories pour la validation et 900 images pour les tests. L'apprentissage des fonctionnalités de scènes profondes pour établir des tâches de reconnaissance de scène ou de reconnaissance visuelle est possible.

Divertissement:

  1. Ensemble de données IMDB WIKI (Lien)

    IMDB - Wiki est l'une des bases de données publiques les plus populaires de visages étiquetés de manière adéquate avec l'âge, le sexe et les noms. Il compte également environ 20 62 visages de célébrités et XNUMX XNUMX de Wikipedia.

  2. Visages de célébrités (Lien)

    Celeb Faces est une base de données à grande échelle contenant 200,000 XNUMX images annotées de célébrités. Les images sont accompagnées de bruit de fond et de variations de pose, ce qui les rend précieuses pour l'entraînement des ensembles de tests aux tâches de vision par ordinateur. Il est très bénéfique pour obtenir une plus grande précision dans la reconnaissance faciale, l'édition, la localisation des parties du visage, etc.

Maintenant que vous disposez d'une liste massive d'ensembles de données d'images open source pour alimenter votre machine d'intelligence artificielle. Le résultat de vos modèles d'IA et d'apprentissage automatique dépend principalement de la qualité des ensembles de données sur lesquels vous les alimentez et les formez. Si vous voulez que votre modèle d'IA produise des prédictions précises, il a besoin d'ensembles de données de qualité qui sont agrégés, étiquetés et étiquetés à la perfection. Pour amplifier le succès de votre système de vision par ordinateur, vous devez utiliser des bases de données d'images de qualité pertinentes à la vision de votre projet. Si vous recherchez plus de tels ensembles de données Cliquez ici

Partager

Vous aimeriez aussi