Les ensembles de données de traitement du langage naturel (TALN) constituent la base de nombreux projets de traitement du langage naturel (TLN), offrant une grande flexibilité pour un large éventail de tâches telles que la classification de textes, l'analyse des sentiments et la réponse aux questions. Le corpus d'auteurs de blogs, par exemple, contient plus de 681,000 20,000 articles de blog provenant de près de XNUMX XNUMX blogueurs, ce qui en fait une ressource précieuse pour l'étude des styles d'écriture, l'identification des auteurs, et bien plus encore.
Pour les personnes intéressées par la recherche universitaire, la base de données des articles de recherche arXiv donne accès à une vaste collection d'articles scientifiques de multiples disciplines, prenant en charge des tâches avancées de traitement du langage naturel (TALN) comme l'analyse des citations et la classification des documents. La base de données du Centre de données sur les marchés publics fédéraux (Federal Procurement Data Center) est une autre ressource précieuse, offrant des informations détaillées sur les contrats fédéraux, idéale pour les projets impliquant des données gouvernementales et la reconnaissance d'entités.
Ces ensembles de données NLP sont largement utilisés pour entraîner et évaluer des modèles de machine learning, aidant ainsi les chercheurs et les développeurs à améliorer les performances de leurs systèmes pour diverses tâches de NLP. Que vous travailliez avec des articles de blog, des articles de recherche ou des données gouvernementales, ces ensembles de données constituent la base d'applications NLP robustes et polyvalentes.
Qu'est-ce que la PNL?
Le traitement du langage naturel (PNL) aide les ordinateurs à comprendre le langage humain. C'est comme apprendre aux ordinateurs à lire, comprendre et répondre à des textes et à des discours comme le font les humains.
Que peut faire la PNL ?
- Transformez du texte désordonné en données organisées
- Comprendre si les commentaires sont positifs ou négatifs
- Traduire entre les langues
- Créer des résumés de textes longs
- Et bien plus encore!
- Premiers pas avec la PNL :
Pour créer de bons systèmes de PNL, vous avez besoin de nombreux exemples pour les entraîner, tout comme les humains apprennent mieux avec plus de pratique. La bonne nouvelle est qu'il existe de nombreuses ressources gratuites où vous pouvez trouver ces exemples : Étreindre le visage, Kaggle et GitHub. Les ensembles de données de ces plateformes sont facilement accessibles, ce qui accélère le développement des projets NLP.
Taille et croissance du marché de la PNL :
En 2023, le marché du traitement du langage naturel (NLP) était évalué à environ 26 milliards de dollars. Il devrait connaître une croissance significative, avec un taux de croissance annuel composé (TCAC) d'environ 30 % entre 2023 et 2030. Cette croissance est alimentée par la demande croissante d'applications NLP dans des secteurs tels que la santé, la finance et le service client.
Pour choisir un bon ensemble de données NLP, tenez compte des facteurs suivants :
- Pertinence: Assurez-vous que l’ensemble de données correspond à votre tâche ou domaine spécifique.
- Taille:Les ensembles de données plus volumineux améliorent généralement les performances du modèle, mais équilibrent la taille et la qualité.
- Diversité:Recherchez des ensembles de données avec des styles linguistiques et des contextes variés pour améliorer la robustesse du modèle.
- Qualité:Vérifiez que les données sont bien étiquetées et précises pour éviter d’introduire des erreurs.
- Accessibilité: Assurez-vous que l’ensemble de données est disponible pour utilisation et tenez compte des éventuelles restrictions de licence.
- Prétraitement:Déterminez si l’ensemble de données nécessite un nettoyage ou un prétraitement important.
- Soutien communautaire:Les ensembles de données populaires disposent souvent de davantage de ressources et d’un soutien communautaire, ce qui peut être utile.
En évaluant ces facteurs, vous pouvez sélectionner l'ensemble de données le mieux adapté aux besoins de votre projet. Choisir les bons ensembles de données est essentiel pour obtenir des résultats optimaux dans les projets de TALN, car ils ont un impact direct sur les performances du modèle et l'efficacité de l'entraînement.
Top 33 des jeux de données ouverts incontournables pour le traitement du langage naturel
Généralités
Spambase de l'UCI (Lien)
Spambase, créé au Hewlett-Packard Labs, possède une collection de courriers indésirables des utilisateurs, visant à développer un filtre anti-spam personnalisé. Il contient plus de 4600 observations provenant de messages électroniques, dont près de 1820 sont des spams.
Ensemble de données Enron (Lien)
L'ensemble de données d'Enron comprend une vaste collection d'e-mails « réels » anonymisés, accessibles au public pour entraîner leurs modèles d'apprentissage automatique. Il comprend plus d'un demi-million d'e-mails provenant de plus de 150 utilisateurs, principalement des cadres supérieurs d'Enron. Cet ensemble de données est disponible en formats structurés et non structurés. Pour améliorer les données non structurées, des techniques de traitement de données sont nécessaires.
Ensemble de données des systèmes de recommandation (Lien)
L'ensemble de données du système de recommandation est une vaste collection de divers ensembles de données contenant différentes fonctionnalités telles que,
- Essai de produit
- Nombre d'étoiles
- Suivi de remise en forme
- Données de morceau
- Réseaux sociaux
- Timbres-poste
- Interactions utilisateur/élément
- Données GPS
Penn Treebank (Lien)
Ce corpus, du Wall Street Journal, est populaire pour tester des modèles d'étiquetage de séquences.
NLTK (Lien)
Cette bibliothèque Python donne accès à plus de 100 corpus et ressources lexicales pour le traitement du langage naturel (TALN). Elle inclut également le livre NLTK, une formation à l'utilisation de la bibliothèque. NLTK donne accès à WordNet, une vaste base de données lexicale anglaise où les mots tels que les noms, les verbes, les adjectifs et les adverbes sont regroupés en synsets selon leur sens commun. NLTK fournit également une liste annotée de corpus et de ressources lexicales pour la recherche en TALN.
Dépendances universelles (Lien)
UD offre un moyen cohérent d'annoter la grammaire, avec des ressources dans plus de 100 langues, 200 banques d'arbres et le soutien de plus de 300 membres de la communauté.
Ensembles de données d'analyse des sentiments
Dictionnaires pour les films et la finance (Lien)
L'ensemble de données Dictionnaires pour les films et la finance fournit des dictionnaires spécifiques au domaine pour la polarité positive ou négative dans les remplissages financiers et les critiques de films. Ces dictionnaires sont tirés des remplissages IMDb et US Form-8.Sentiment 140 (Lien)
Sentiment 140 compte plus de 160,000 6 tweets avec diverses émoticônes classées dans XNUMX champs différents : date du tweet, polarité, texte, nom d'utilisateur, identifiant et requête. Cet ensemble de données vous permet de découvrir le sentiment d'une marque, d'un produit ou même d'un sujet en fonction de l'activité Twitter. Étant donné que cet ensemble de données est créé automatiquement, contrairement à d'autres tweets annotés par des humains, il classe les tweets avec des émotions positives et des émotions négatives comme défavorables.
Ensemble de données de sentiment multi-domaine (Lien)
Cet ensemble de données de sentiments multi-domaines est un référentiel d'avis Amazon pour divers produits. Certaines catégories de produits, comme les livres, ont des milliers de critiques, tandis que d'autres n'en ont que quelques centaines. En outre, les avis avec des étoiles peuvent être convertis en étiquettes binaires.
Banque d'arbres de sentiments de Standford (Lien)
Cet ensemble de données PNL de Rotten Tomatoes comprend des phrases plus longues et des exemples de texte plus détaillés.
Le corpus de paternité du blog (Lien)
Cette collection contient des articles de blog contenant près de 1.4 million de mots, chaque blog étant un ensemble de données distinct.
Ensemble de données OpinRank (Lien)
300,000 XNUMX avis d'Edmunds et TripAdvisor, organisés par modèle de voiture ou destination de voyage et hôtel.
Jeu de données texte
Le corpus d'assurance qualité Wiki (Lien)
Créé pour aider la recherche de questions et réponses en domaine ouvert, le WiKi QA Corpus est l'un des ensembles de données accessibles au public les plus complets. Compilé à partir des journaux de requêtes du moteur de recherche Bing, il est livré avec des paires de questions-réponses. Il contient plus de 3000 questions et 1500 phrases de réponse étiquetées.
Ensemble de données des rapports de cas juridiques (Lien)
L'ensemble de données Legal Case Reports contient une collection de 4000 affaires juridiques et peut être utilisé pour s'entraîner à la synthèse automatique de texte et à l'analyse des citations. Chaque document, phrases d'accroche, classes de citations, phrases d'accroche de citation, etc. sont utilisés.
Jeopardy (Lien)
L'ensemble de données Jeopardy est une collection de plus de 200,000 XNUMX questions présentées dans la populaire émission télévisée de quiz réunie par un utilisateur de Reddit. Chaque point de données est classé par sa date de diffusion, son numéro d'épisode, sa valeur, son tour et sa question/réponse.
20 groupes de discussion (Lien)
Une collection de 20,000 20 documents comprend XNUMX groupes de discussion et sujets, détaillant des sujets allant de la religion aux sports populaires.
Ensemble de données d'actualités Reuters (Lien)
Apparu pour la première fois en 1987, cet ensemble de données a été étiqueté, indexé et compilé à des fins d'apprentissage automatique.
ArXiv (Lien)
Cet ensemble de données substantiel de 270 Go comprend le texte complet de tous les articles de recherche arXiv.
Corpus parallèle des actes du Parlement européen (Lien)
Les paires de phrases issues des travaux du Parlement comprennent des entrées dans 21 langues européennes, présentant des langues moins courantes pour les corpus d'apprentissage automatique.
Benchmark d'un milliard de mots (Lien)
Dérivé du WMT 2011 News Crawl, cet ensemble de données de modélisation linguistique comprend près d'un milliard de mots pour tester des techniques innovantes de modélisation linguistique.
Ensembles de données vocales audio
Corpus Wikipédia parlés (Lien)
Cet ensemble de données est parfait pour tous ceux qui cherchent à aller au-delà de la langue anglaise. Cet ensemble de données contient une collection d'articles parlés en néerlandais, en allemand et en anglais. Il propose un large éventail de sujets et d'ensembles d'orateurs s'étalant sur des centaines d'heures.2000 HUB5 Anglais (Lien)
L'ensemble de données anglais 2000 HUB5 contient 40 transcriptions de conversations téléphoniques en anglais. Les données sont fournies par le National Institute of Standards and Technology, et son objectif principal est de reconnaître la parole conversationnelle et de convertir la parole en texte.
LibriDiscours (Lien)
L'ensemble de données LibriSpeech est une collection de près de 1000 heures de discours en anglais prises et correctement segmentées par sujets en chapitres de livres audio, ce qui en fait un outil parfait pour le traitement du langage naturel.
Ensemble de données de chiffres parlés gratuit (Lien)
Cet ensemble de données PNL comprend plus de 1,500 XNUMX enregistrements de chiffres parlés en anglais.
Ensemble de données vocales de M-AI Labs (Lien)
L'ensemble de données offre près de 1,000 XNUMX heures d'audio avec des transcriptions, englobant plusieurs langues et classées par voix masculines, féminines et mixtes.
Base de données sur les paroles bruyantes (Lien)
Cet ensemble de données présente des enregistrements vocaux parallèles bruités et propres, destinés au développement de logiciels d'amélioration de la parole, mais également utiles à la formation à la parole dans des conditions difficiles.
Ensembles de données d'évaluation
Avis Yelp (Lien)
L'ensemble de données Yelp contient une vaste collection d'environ 8.5 millions d'avis sur plus de 160,000 200,000 entreprises, leurs avis et les données des utilisateurs. Les avis peuvent être utilisés pour entraîner vos modèles à l'analyse des sentiments. En outre, cet ensemble de données contient également plus de XNUMX XNUMX images couvrant huit sites métropolitains.
Avis sur IMDB (Lien)
Les critiques IMDB font partie des ensembles de données les plus populaires contenant des informations sur les acteurs, les notes, la description et le genre pour plus de 50 XNUMX films. Cet ensemble de données peut être utilisé pour tester et entraîner vos modèles d'apprentissage automatique.
Ensemble de données d'évaluations et d'évaluations d'Amazon (Lien)
L'ensemble de données d'évaluation et d'évaluation d'Amazon contient une précieuse collection de métadonnées et d'évaluations de différents produits d'Amazon collectées de 1996 à 2014, soit environ 142.8 millions d'enregistrements. Les métadonnées incluent le prix, la description du produit, la marque, la catégorie, etc., tandis que les avis ont une qualité de texte, l'utilité du texte, les notes, etc.
Ensembles de données de questions et réponses
Ensemble de données de questions et réponses de Stanford (SQuAD) (Lien)
Cet ensemble de données de compréhension écrite contient 100,000 50,000 questions auxquelles il est possible de répondre et XNUMX XNUMX questions sans réponse, toutes créées par des travailleurs participatifs de Wikipédia.
Questions naturelles (Lien)
Cet ensemble de formation contient plus de 300,000 7,800 exemples de formation, 7,800 XNUMX exemples de développement et XNUMX XNUMX exemples de test, chacun avec une requête Google et une page Wikipédia correspondante.
QuizQA (Lien)
Cet ensemble de questions complexes comprend 950,000 XNUMX paires d’assurance qualité, comprenant des sous-ensembles vérifiés par l’homme et générés par la machine.
CLEVR (Langage compositionnel et raisonnement visuel élémentaire) (Lien)
Cet ensemble de données de réponses visuelles aux questions comprend des objets rendus en 3D et des milliers de questions avec des détails sur la scène visuelle.
Alors, sur quel jeu de données avez-vous choisi d'entraîner votre modèle de machine learning ?
Au fur et à mesure, nous vous laisserons un pourboire de pro.
Assurez-vous de parcourir attentivement le fichier README avant de choisir un ensemble de données NLP pour vos besoins. L'ensemble de données contiendra toutes les informations nécessaires dont vous pourriez avoir besoin, telles que le contenu de l'ensemble de données, les différents paramètres sur lesquels les données ont été classées et les cas d'utilisation probables de l'ensemble de données.
Quels que soient les modèles que vous construisez, il existe une perspective passionnante d’intégration plus étroite et intrinsèque de nos machines dans nos vies. Avec la PNL, les possibilités dans les domaines des affaires, des films, de la reconnaissance vocale, de la finance et bien plus encore sont multipliées.