Jeux de données ouverts
Découvrez des ensembles de données open source qui vous permettent de former des modèles de ML
Ensembles de données open source pour vous initier aux modèles AI/ML
Le résultat de vos modèles d'IA et de ML n'est aussi bon que les données que vous utilisez pour l'entraîner. La précision que vous appliquez à l'agrégation des données, au marquage et à l'identification de ces données est donc importante !
Donc, si vous souhaitez lancer une nouvelle initiative d'IA/ML et que vous réalisez maintenant rapidement que la recherche de données d'entraînement de haute qualité sera l'un des aspects les plus difficiles de votre projet, car les ensembles de données de haute qualité sont le carburant qui maintient l'IA/ Moteur ML en marche. Nous avons accumulé une liste d'ensembles de données ouverts qui sont libres d'utiliser et d'entraîner vos modèles AI/ML du futur.
| Spécialisation | Type de données | Nom du jeu de données | Industrie / Département | Annotation/cas d'utilisation | Lien |
|---|---|---|---|---|---|
| +PNL | Texte | Avis Amazon | E-Commerce | Analyse des sentiments | Lien |
| Description | Un ensemble de 35 millions d'avis et d'évaluations des 18 dernières années en texte brut avec les détails de l'utilisateur et du produit. | ||||
| +PNL | Texte | Données de liens Wikipédia | Généralités | Lien | |
| Description | Plus de 4 millions d'articles contenant 1.9 milliard de mots issus de Wikipédia. Chaque article contient des hyperliens vers l'entité associée. | ||||
| +PNL | Texte | Banc d'arbres de Standford Sentiment | Distractions et animations | Analyse des sentiments | Lien |
| Description | Jeu de données d'annotations de sentiments pour plus de 10 000 phrases de critiques de films issues de Rotten Tomatoes. Disponible au niveau de la phrase : chaque phrase est analysée en sous-phrases par binarisation des arbres d'analyse syntaxique au format Penn Treebank. | ||||
| +PNL | Texte | Twitter Sentiment des compagnies aériennes américaines | Compagnie aérienne | Analyse des sentiments | Lien |
| Description | Les tweets de 2015 concernant les compagnies aériennes américaines se sont répartis en trois catégories : sentiments positifs, neutres et négatifs. | ||||
| +CV | Image(s) | Imagenet | Généralités | Lien | |
| Description | Ensemble de données comprenant plus de 14 millions d'images dans divers formats de fichiers, associées à environ 21 000 synsets. Les synsets sont des synonymes d'entités présentes dans une image. Un million d'images possèdent des cadres de délimitation et plus d'un million d'images possèdent des caractéristiques SIFT. | ||||
| +CV | Image(s) | Les images ouvertes de Google | Généralités | Lien | |
| Description | Un jeu de données similaire à ImageNet, comportant 600 catégories. Disponible en versions développement, validation et entraînement. Certaines images incluent également des cadres de délimitation et des relations visuelles. | ||||
| +PNL | Texte | Dialogues de films de Cornell | Distractions et animations | Dialogues | Lien |
| Description | Un recueil de conversations fictives, avec des métadonnées sur les personnages et les films. Chaque ligne correspond à un dialogue entre deux personnes, sous forme de questions-réponses. | ||||
| Description | Un ensemble de données de questions-réponses provenant du portail Yahoo Answers entre avril 2007 et octobre 2007. | ||||
| +PNL | Texte | Mme MARCO | Généralités | Question Répondant | Lien |
| Description | Un ensemble de données de questions-réponses annotées à partir des journaux de recherche Web de Bing. Chaque question contient une réponse fournie par un utilisateur, ainsi que des passages Web contenant cette réponse. | ||||
| +PNL | Texte | Ensemble de données sur les questions naturelles | Généralités | Question Répondant | Lien |
| Description | Publié par Google, cet ensemble de données contient de véritables requêtes et réponses d'utilisateurs extraites d'articles de Wikipédia. | ||||
| +PNL | Texte | DBPedia | Généralités | Graphique connaissances | Lien |
| Description | Une représentation structurée de Wikipédia, avec les entités et les relations extraites sous forme de graphe de connaissances. | ||||
| +PNL | Texte | YAGO | Généralités | Graphique connaissances | Lien |
| Description | Un graphe de connaissances contenant des entités et des relations issues de Wikipédia, WordNet et GeoNames. | ||||
| +PNL | Texte | FreeBase | Généralités | Graphique connaissances | Lien |
| Description | Une base de connaissances collaborative composée d'entités et de relations, désormais intégrée au graphe de connaissances de Google. | ||||
| +PNL | Texte | Ontonotes | Généralités | Étiquetage des rôles sémantiques | Lien |
| Description | Un corpus avec des annotations syntaxiques, sémantiques et discursives utilisées dans les tâches partagées de CoNLL. | ||||
| Description | Un ensemble de données en anglais annoté pour les entités nommées telles que personne, organisation et lieu. | ||||
| +CV | Image(s) | COCOS DE PÂQUES | Généralités | Détection d'objet | Lien |
| Description | Objets courants en contexte : un ensemble de données richement annoté pour la détection, la segmentation et la légende d’objets. | ||||
| +CV | Image(s) | COV PASCAL | Généralités | Détection d'objet | Lien |
| Description | Un jeu de données de référence pour les défis de détection et de segmentation d'objets. | ||||
| +CV | Image(s) | Paysages urbains | Conduite autonome | Segmentation Sémantique | Lien |
| Description | Ensemble de données pour la compréhension des scènes urbaines avec des annotations au niveau du pixel pour 30 classes. | ||||
| +CV | Image(s) | MNIST | Généralités | Classification des chiffres | Lien |
| Description | Ensemble de données de chiffres manuscrits avec 60 000 images d'entraînement et 10 000 images de test de 28x28 pixels. | ||||
| +CV | Image(s) | Mode-MNIST | Vente au détail | Classification d'image | Lien |
| Description | Ensemble de données d'images d'articles de Zalando au même format que MNIST, utilisé comme remplacement direct pour l'évaluation comparative. | ||||
| +PNL | Audio | LibriDiscours | Généralités | ASR | Lien |
| Description | Un corpus de discours anglais lu, extrait de livres audio, comprenant 1000 heures de parole et les textes associés. | ||||
| +PNL | Audio | TED-LIUM | Généralités | ASR | Lien |
| Description | Conférences TED transcrites avec audio et transcriptions alignées pour la recherche en reconnaissance vocale. | ||||
| +PNL | Audio | TIMIT | Généralités | Reconnaissance des phonèmes | Lien |
| Description | Transcription phonétique de la parole des locuteurs d'anglais américain, largement utilisée pour les tâches de reconnaissance des phonèmes. | ||||
| +PNL | Audio | Voix commune | Généralités | ASR | Lien |
| Description | Un corpus multilingue de discours lus, constitué grâce aux contributions de bénévoles du monde entier. | ||||
| +PNL | Audio | VoxCélébrité | Généralités | Reconnaissance des orateurs | Lien |
| Description | Un ensemble de données à grande échelle pour l'identification des locuteurs, collectées à partir de vidéos YouTube. | ||||
| +PNL | Texte | Décharge de Wikipédia | Généralités | Modélisation du langage | Lien |
| Description | Des extraits de texte intégral d'articles de Wikipédia, mis à jour régulièrement, utilisés pour le pré-entraînement des modèles de langage. | ||||
| +PNL | Texte | Gigamot | Actualités | Modélisation du langage | Lien |
| Description | Une archive exhaustive de données textuelles provenant de plusieurs agences de presse. | ||||
| +PNL | Texte | Avis sur IMDB | Distractions et animations | Analyse des sentiments | Lien |
| Description | Vaste ensemble de données de critiques de films pour la classification binaire des sentiments. | ||||
| +CV | Vidéo | Cinétique-700 | Généralités | Reconnaissance des actions | Lien |
| Description | Un ensemble de données à grande échelle et de haute qualité composé de clips vidéo YouTube couvrant 700 classes d'actions humaines. | ||||
| +CV | Vidéo | UCF101 | Généralités | Reconnaissance des actions | Lien |
| Description | Un ensemble de données de vidéos d'action réalistes, comprenant 101 catégories d'action. | ||||
| +CV | Vidéo | HMDB51 | Généralités | Reconnaissance des actions | Lien |
| Description | Une vaste base de données vidéo de mouvements humains avec 51 catégories d'actions. | ||||
| Description | Une base de données de photographies de visages conçue pour étudier la reconnaissance faciale sans contrainte. | ||||
| +CV | Image(s) | CASIA-WebFace | Généralités | reconnaissance des visages | Lien |
| Description | Un ensemble de données contenant des millions d'images de visages pour l'entraînement de modèles de reconnaissance faciale profonde. | ||||
| +PNL | Texte | Équipe | Généralités | Compréhension écrite | Lien |
| Description | Ensemble de données de questions-réponses de Stanford : questions posées par des contributeurs sur un ensemble d’articles de Wikipédia. | ||||
| Description | Un ensemble de données pour la compréhension automatique, comprenant des questions et des réponses basées sur des articles de CNN. | ||||
| +PNL | Texte | MultiNLI | Généralités | Inférence en langage naturel | Lien |
| Description | Un ensemble de données pour l'inférence en langage naturel de paires de phrases dans plusieurs genres. | ||||
| +PNL | Texte | SNLI | Généralités | Inférence en langage naturel | Lien |
| Description | Corpus d'inférence en langage naturel de Stanford avec des paires de phrases étiquetées comme impliquant, contradictoires ou neutres. | ||||
| Description | Une collection de plus de 100 millions de jetons extraits de l'ensemble des articles vérifiés « Bons » et « À la une » de Wikipédia. | ||||
| Description | Un ensemble de données de 16 185 images de 196 catégories de voitures. | ||||
| +CV | Image(s) | Fleurs d'Oxford 102 | Botanique | Classification fine | Lien |
| Description | 102 catégories de fleurs courantes au Royaume-Uni. | ||||
| +CV | Image(s) | CIFAR-10 | Généralités | Classification d'image | Lien |
| Description | Images de 10 catégories : avion, automobile, oiseau, chat, cerf, chien, grenouille, cheval, bateau et camion. | ||||
| +CV | Image(s) | CIFAR-100 | Généralités | Classification d'image | Lien |
| Description | Un ensemble de données similaire à CIFAR-10, mais avec 100 classes fines. | ||||
| +CV | Image(s) | Mise en page de la personne VOC | Généralités | Estimation de la pose | Lien |
| Description | Partie du PASCAL VOC axée sur les annotations de mise en page des personnes telles que la tête, les mains et les pieds. | ||||
| +CV | Image(s) | Pose humaine MPII | Généralités | Estimation de la pose | Lien |
| Description | Environ 25 000 images contenant plus de 40 000 personnes avec des annotations sur les articulations du corps. | ||||
| Description | Collection d'articles de dépêches Reuters pour la recherche sur la catégorisation de textes. | ||||
| +PNL | Texte | 20 groupes de discussion | Généralités | Classification du texte | Lien |
| Description | Une collection de 20 000 documents de groupes de discussion répartis en 20 groupes de discussion différents. | ||||