Ensemble de données PNL pour le ML

15 meilleurs ensembles de données NLP pour vous former aux modèles de traitement du langage naturel

Le traitement du langage naturel est un élément essentiel de l'armure de l'apprentissage automatique. Cependant, il faut des quantités massives de données et de formation pour que le modèle fonctionne bien. L'un des problèmes importants de la PNL est le manque d'ensembles de données d'entraînement pouvant couvrir de vastes domaines d'intérêt dans le domaine.

Si vous débutez dans ce vaste domaine, vous trouverez peut-être difficile et pratiquement redondant de créer vos ensembles de données. Surtout quand il y a de la qualité PNL ensembles de données disponibles pour entraîner vos modèles d'apprentissage automatique en fonction de leur objectif.

Le marché de la PNL devrait croître à un TCAC de 11.7% en 2018 et 2026 pour atteindre 28.6 $ Billion par 2026. Grâce à la demande croissante de NLP et d'apprentissage automatique, il est désormais possible de mettre la main sur des ensembles de données de qualité couvrant l'analyse des sentiments, les critiques, l'analyse des questions et réponses et les ensembles de données d'analyse de la parole.

Les ensembles de données NLP pour l'apprentissage automatique auxquels vous pouvez faire confiance

Étant donné que d'innombrables ensembles de données - axés sur divers besoins - sont publiés presque tous les jours, il peut être difficile d'accéder à des ensembles de données de qualité, fiables et de meilleure qualité. Ici, nous vous avons facilité le travail, car nous vous avons présenté des ensembles de données organisés et séparés en fonction des catégories qu'ils servent.

Général

Spambase, créé au Hewlett-Packard Labs, possède une collection de courriers indésirables des utilisateurs, visant à développer un filtre anti-spam personnalisé. Il contient plus de 4600 observations provenant de messages électroniques, dont près de 1820 sont des spams.

  • Ensemble de données Enron (Lien)

L'ensemble de données Enron contient une vaste collection d'e-mails « réels » anonymisés à la disposition du public pour former leurs modèles d'apprentissage automatique. Il compte plus d'un demi-million d'e-mails provenant de plus de 150 utilisateurs, principalement des cadres supérieurs d'Enron. Cet ensemble de données est disponible pour une utilisation dans des formats structurés et non structurés. Pour embellir les données non structurées, vous devez appliquer des techniques de traitement des données.

  • Ensemble de données des systèmes de recommandation (Lien)

L'ensemble de données du système de recommandation est une vaste collection de divers ensembles de données contenant différentes fonctionnalités telles que,

  • Essai de produit
  • Nombre d'étoiles
  • Suivi de remise en forme
  • Données de morceau
  • Réseaux sociaux
  • Timbres-poste
  • Interactions utilisateur/élément
  • Données GPS

Analyse des sentiments

  • Dictionnaires pour les films et la finance (Lien)

Analyse des sentiments
L'ensemble de données Dictionnaires pour les films et la finance fournit des dictionnaires spécifiques au domaine pour la polarité positive ou négative dans les remplissages financiers et les critiques de films. Ces dictionnaires sont tirés des remplissages IMDb et US Form-8.

Sentiment 140 compte plus de 160,000 6 tweets avec diverses émoticônes classées dans XNUMX champs différents : date du tweet, polarité, texte, nom d'utilisateur, identifiant et requête. Cet ensemble de données vous permet de découvrir le sentiment d'une marque, d'un produit ou même d'un sujet en fonction de l'activité Twitter. Étant donné que cet ensemble de données est créé automatiquement, contrairement à d'autres tweets annotés par des humains, il classe les tweets avec des émotions positives et des émotions négatives comme défavorables.

  • Ensemble de données de sentiment multi-domaine (Lien)

Cet ensemble de données de sentiments multi-domaines est un référentiel d'avis Amazon pour divers produits. Certaines catégories de produits, comme les livres, ont des milliers de critiques, tandis que d'autres n'en ont que quelques centaines. En outre, les avis avec des étoiles peuvent être convertis en étiquettes binaires.

Discutons aujourd'hui de vos besoins en données de formation en IA.

Texte

  • Le corpus d'assurance qualité Wiki (Lien)

Créé pour aider la recherche de questions et réponses en domaine ouvert, le WiKi QA Corpus est l'un des ensembles de données accessibles au public les plus complets. Compilé à partir des journaux de requêtes du moteur de recherche Bing, il est livré avec des paires de questions-réponses. Il contient plus de 3000 questions et 1500 phrases de réponse étiquetées.

  • Ensemble de données des rapports de cas juridiques (Lien)

L'ensemble de données Legal Case Reports contient une collection de 4000 affaires juridiques et peut être utilisé pour s'entraîner à la synthèse automatique de texte et à l'analyse des citations. Chaque document, phrases d'accroche, classes de citations, phrases d'accroche de citation, etc. sont utilisés.

L'ensemble de données Jeopardy est une collection de plus de 200,000 XNUMX questions présentées dans la populaire émission télévisée de quiz réunie par un utilisateur de Reddit. Chaque point de données est classé par sa date de diffusion, son numéro d'épisode, sa valeur, son tour et sa question/réponse.

Discours audio

  • Corpus Wikipédia parlés (Lien)

Discours audio Cet ensemble de données est parfait pour tous ceux qui cherchent à aller au-delà de la langue anglaise. Cet ensemble de données contient une collection d'articles parlés en néerlandais, en allemand et en anglais. Il propose un large éventail de sujets et d'ensembles d'orateurs s'étalant sur des centaines d'heures.

L'ensemble de données anglais 2000 HUB5 contient 40 transcriptions de conversations téléphoniques en anglais. Les données sont fournies par le National Institute of Standards and Technology, et son objectif principal est de reconnaître la parole conversationnelle et de convertir la parole en texte.

L'ensemble de données LibriSpeech est une collection de près de 1000 heures de discours en anglais prises et correctement segmentées par sujets en chapitres de livres audio, ce qui en fait un outil parfait pour le traitement du langage naturel.

Commentaires

L'ensemble de données Yelp contient une vaste collection d'environ 8.5 millions d'avis sur plus de 160,000 200,000 entreprises, leurs avis et les données des utilisateurs. Les avis peuvent être utilisés pour entraîner vos modèles à l'analyse des sentiments. En outre, cet ensemble de données contient également plus de XNUMX XNUMX images couvrant huit sites métropolitains.

Les critiques IMDB font partie des ensembles de données les plus populaires contenant des informations sur les acteurs, les notes, la description et le genre pour plus de 50 XNUMX films. Cet ensemble de données peut être utilisé pour tester et entraîner vos modèles d'apprentissage automatique.

  • Ensemble de données d'évaluations et d'évaluations d'Amazon (Lien)

L'ensemble de données d'évaluation et d'évaluation d'Amazon contient une précieuse collection de métadonnées et d'évaluations de différents produits d'Amazon collectées de 1996 à 2014, soit environ 142.8 millions d'enregistrements. Les métadonnées incluent le prix, la description du produit, la marque, la catégorie, etc., tandis que les avis ont une qualité de texte, l'utilité du texte, les notes, etc.

Alors, sur quel jeu de données avez-vous choisi d'entraîner votre modèle de machine learning ?

Au fur et à mesure, nous vous laisserons un pourboire de pro. 

Assurez-vous de parcourir attentivement le fichier README avant de choisir un ensemble de données NLP pour vos besoins. L'ensemble de données contiendra toutes les informations nécessaires dont vous pourriez avoir besoin, telles que le contenu de l'ensemble de données, les différents paramètres sur lesquels les données ont été classées et les cas d'utilisation probables de l'ensemble de données.

Quels que soient les modèles que vous construisez, il existe une perspective passionnante d'intégrer nos machines plus étroitement et intrinsèquement dans nos vies. Avec la PNL, les possibilités pour les affaires, les films, la reconnaissance vocale, la finance et plus encore sont multipliées. Si vous recherchez plus de tels ensembles de données Cliquez ici.

Partager

Vous aimeriez aussi