Qu'est-ce que la PNL?
Le traitement du langage naturel (PNL) aide les ordinateurs à comprendre le langage humain. C'est comme apprendre aux ordinateurs à lire, comprendre et répondre à des textes et à des discours comme le font les humains.
Que peut faire la PNL ?
- Transformez du texte désordonné en données organisées
- Comprendre si les commentaires sont positifs ou négatifs
- Traduire entre les langues
- Créer des résumés de textes longs
- Et bien plus encore!
- Premiers pas avec la PNL :
Pour créer de bons systèmes de PNL, vous avez besoin de nombreux exemples pour les entraîner, tout comme les humains apprennent mieux avec plus de pratique. La bonne nouvelle est qu'il existe de nombreuses ressources gratuites où vous pouvez trouver ces exemples : Étreindre le visage, Kaggle et GitHub
Taille et croissance du marché de la PNL :
En 2023, le marché du traitement du langage naturel (NLP) était évalué à environ 26 milliards de dollars. Il devrait connaître une croissance significative, avec un taux de croissance annuel composé (TCAC) d'environ 30 % entre 2023 et 2030. Cette croissance est alimentée par la demande croissante d'applications NLP dans des secteurs tels que la santé, la finance et le service client.
Pour choisir un bon ensemble de données NLP, tenez compte des facteurs suivants :
- Pertinence: Assurez-vous que l’ensemble de données correspond à votre tâche ou domaine spécifique.
- Taille:Les ensembles de données plus volumineux améliorent généralement les performances du modèle, mais équilibrent la taille et la qualité.
- Diversité:Recherchez des ensembles de données avec des styles linguistiques et des contextes variés pour améliorer la robustesse du modèle.
- Éducation:Vérifiez que les données sont bien étiquetées et précises pour éviter d’introduire des erreurs.
- Accessibilité: Assurez-vous que l’ensemble de données est disponible pour utilisation et tenez compte des éventuelles restrictions de licence.
- Prétraitement:Déterminez si l’ensemble de données nécessite un nettoyage ou un prétraitement important.
- Soutien communautaire:Les ensembles de données populaires disposent souvent de davantage de ressources et d’un soutien communautaire, ce qui peut être utile.
En évaluant ces facteurs, vous pouvez sélectionner un ensemble de données qui correspond le mieux aux besoins de votre projet.
Top 33 des jeux de données ouverts incontournables pour le traitement du langage naturel
Général
Spambase de l'UCI (Lien)
Spambase, créé au Hewlett-Packard Labs, possède une collection de courriers indésirables des utilisateurs, visant à développer un filtre anti-spam personnalisé. Il contient plus de 4600 observations provenant de messages électroniques, dont près de 1820 sont des spams.
Ensemble de données Enron (Lien)
L'ensemble de données Enron contient une vaste collection d'e-mails « réels » anonymisés à la disposition du public pour former leurs modèles d'apprentissage automatique. Il compte plus d'un demi-million d'e-mails provenant de plus de 150 utilisateurs, principalement des cadres supérieurs d'Enron. Cet ensemble de données est disponible pour une utilisation dans des formats structurés et non structurés. Pour embellir les données non structurées, vous devez appliquer des techniques de traitement des données.
Ensemble de données des systèmes de recommandation (Lien)
L'ensemble de données du système de recommandation est une vaste collection de divers ensembles de données contenant différentes fonctionnalités telles que,
- Essai de produit
- Nombre d'étoiles
- Suivi de remise en forme
- Données de morceau
- Réseaux sociaux
- Timbres-poste
- Interactions utilisateur/élément
- Données GPS
Penn Treebank (Lien)
Ce corpus, du Wall Street Journal, est populaire pour tester des modèles d'étiquetage de séquences.
NLTK (Lien)
Cette bibliothèque Python donne accès à plus de 100 corpus et ressources lexicales pour la PNL. Il comprend également le livre NLTK, une formation à l'utilisation de la bibliothèque.
Dépendances universelles (Lien)
UD offre un moyen cohérent d'annoter la grammaire, avec des ressources dans plus de 100 langues, 200 banques d'arbres et le soutien de plus de 300 membres de la communauté.
Analyse des sentiments
Dictionnaires pour les films et la finance (Lien)
L'ensemble de données Dictionnaires pour les films et la finance fournit des dictionnaires spécifiques au domaine pour la polarité positive ou négative dans les remplissages financiers et les critiques de films. Ces dictionnaires sont tirés des remplissages IMDb et US Form-8.Sentiment 140 (Lien)
Sentiment 140 compte plus de 160,000 6 tweets avec diverses émoticônes classées dans XNUMX champs différents : date du tweet, polarité, texte, nom d'utilisateur, identifiant et requête. Cet ensemble de données vous permet de découvrir le sentiment d'une marque, d'un produit ou même d'un sujet en fonction de l'activité Twitter. Étant donné que cet ensemble de données est créé automatiquement, contrairement à d'autres tweets annotés par des humains, il classe les tweets avec des émotions positives et des émotions négatives comme défavorables.
Ensemble de données de sentiment multi-domaine (Lien)
Cet ensemble de données de sentiments multi-domaines est un référentiel d'avis Amazon pour divers produits. Certaines catégories de produits, comme les livres, ont des milliers de critiques, tandis que d'autres n'en ont que quelques centaines. En outre, les avis avec des étoiles peuvent être convertis en étiquettes binaires.
Banque d'arbres de sentiments de Standford (Lien)
Cet ensemble de données PNL de Rotten Tomatoes comprend des phrases plus longues et des exemples de texte plus détaillés.
Le corpus de paternité du blog (Lien)
Cette collection contient des articles de blog contenant près de 1.4 million de mots, chaque blog étant un ensemble de données distinct.
Ensemble de données OpinRank (Lien)
300,000 XNUMX avis d'Edmunds et TripAdvisor, organisés par modèle de voiture ou destination de voyage et hôtel.
Texte
-
Le corpus d'assurance qualité Wiki (Lien)
Créé pour aider la recherche de questions et réponses en domaine ouvert, le WiKi QA Corpus est l'un des ensembles de données accessibles au public les plus complets. Compilé à partir des journaux de requêtes du moteur de recherche Bing, il est livré avec des paires de questions-réponses. Il contient plus de 3000 questions et 1500 phrases de réponse étiquetées.
-
Ensemble de données des rapports de cas juridiques (Lien)
L'ensemble de données Legal Case Reports contient une collection de 4000 affaires juridiques et peut être utilisé pour s'entraîner à la synthèse automatique de texte et à l'analyse des citations. Chaque document, phrases d'accroche, classes de citations, phrases d'accroche de citation, etc. sont utilisés.
-
Jeopardy (Lien)
L'ensemble de données Jeopardy est une collection de plus de 200,000 XNUMX questions présentées dans la populaire émission télévisée de quiz réunie par un utilisateur de Reddit. Chaque point de données est classé par sa date de diffusion, son numéro d'épisode, sa valeur, son tour et sa question/réponse.
-
20 groupes de discussion (Lien)
Une collection de 20,000 20 documents comprend XNUMX groupes de discussion et sujets, détaillant des sujets allant de la religion aux sports populaires.
-
Ensemble de données d'actualités Reuters (Lien)
Apparu pour la première fois en 1987, cet ensemble de données a été étiqueté, indexé et compilé à des fins d'apprentissage automatique.
-
ArXiv (Lien)
Cet ensemble de données substantiel de 270 Go comprend le texte complet de tous les articles de recherche arXiv.
-
Corpus parallèle des actes du Parlement européen (Lien)
Les paires de phrases issues des travaux du Parlement comprennent des entrées dans 21 langues européennes, présentant des langues moins courantes pour les corpus d'apprentissage automatique.
-
Benchmark d'un milliard de mots (Lien)
Dérivé du WMT 2011 News Crawl, cet ensemble de données de modélisation linguistique comprend près d'un milliard de mots pour tester des techniques innovantes de modélisation linguistique.
Discours audio
-
Corpus Wikipédia parlés (Lien)
-
2000 HUB5 Anglais (Lien)
L'ensemble de données anglais 2000 HUB5 contient 40 transcriptions de conversations téléphoniques en anglais. Les données sont fournies par le National Institute of Standards and Technology, et son objectif principal est de reconnaître la parole conversationnelle et de convertir la parole en texte.
-
LibriDiscours (Lien)
L'ensemble de données LibriSpeech est une collection de près de 1000 heures de discours en anglais prises et correctement segmentées par sujets en chapitres de livres audio, ce qui en fait un outil parfait pour le traitement du langage naturel.
-
Ensemble de données de chiffres parlés gratuit (Lien)
Cet ensemble de données PNL comprend plus de 1,500 XNUMX enregistrements de chiffres parlés en anglais.
-
Ensemble de données vocales de M-AI Labs (Lien)
L'ensemble de données offre près de 1,000 XNUMX heures d'audio avec des transcriptions, englobant plusieurs langues et classées par voix masculines, féminines et mixtes.
-
Base de données sur les paroles bruyantes (Lien)
Cet ensemble de données présente des enregistrements vocaux parallèles bruités et propres, destinés au développement de logiciels d'amélioration de la parole, mais également utiles à la formation à la parole dans des conditions difficiles.
Avis
-
Avis Yelp (Lien)
L'ensemble de données Yelp contient une vaste collection d'environ 8.5 millions d'avis sur plus de 160,000 200,000 entreprises, leurs avis et les données des utilisateurs. Les avis peuvent être utilisés pour entraîner vos modèles à l'analyse des sentiments. En outre, cet ensemble de données contient également plus de XNUMX XNUMX images couvrant huit sites métropolitains.
-
Avis sur IMDB (Lien)
Les critiques IMDB font partie des ensembles de données les plus populaires contenant des informations sur les acteurs, les notes, la description et le genre pour plus de 50 XNUMX films. Cet ensemble de données peut être utilisé pour tester et entraîner vos modèles d'apprentissage automatique.
-
Ensemble de données d'évaluations et d'évaluations d'Amazon (Lien)
L'ensemble de données d'évaluation et d'évaluation d'Amazon contient une précieuse collection de métadonnées et d'évaluations de différents produits d'Amazon collectées de 1996 à 2014, soit environ 142.8 millions d'enregistrements. Les métadonnées incluent le prix, la description du produit, la marque, la catégorie, etc., tandis que les avis ont une qualité de texte, l'utilité du texte, les notes, etc.
Question et réponse
-
Ensemble de données de questions et réponses de Stanford (SQuAD) (Lien)
Cet ensemble de données de compréhension écrite contient 100,000 50,000 questions auxquelles il est possible de répondre et XNUMX XNUMX questions sans réponse, toutes créées par des travailleurs participatifs de Wikipédia.
-
Questions naturelles (Lien)
Cet ensemble de formation contient plus de 300,000 7,800 exemples de formation, 7,800 XNUMX exemples de développement et XNUMX XNUMX exemples de test, chacun avec une requête Google et une page Wikipédia correspondante.
-
QuizQA (Lien)
Cet ensemble de questions complexes comprend 950,000 XNUMX paires d’assurance qualité, comprenant des sous-ensembles vérifiés par l’homme et générés par la machine.
-
CLEVR (Langage compositionnel et raisonnement visuel élémentaire) (Lien)
Cet ensemble de données de réponses visuelles aux questions comprend des objets rendus en 3D et des milliers de questions avec des détails sur la scène visuelle.
Alors, sur quel jeu de données avez-vous choisi d'entraîner votre modèle de machine learning ?
Au fur et à mesure, nous vous laisserons un pourboire de pro.
Assurez-vous de parcourir attentivement le fichier README avant de choisir un ensemble de données NLP pour vos besoins. L'ensemble de données contiendra toutes les informations nécessaires dont vous pourriez avoir besoin, telles que le contenu de l'ensemble de données, les différents paramètres sur lesquels les données ont été classées et les cas d'utilisation probables de l'ensemble de données.
Quels que soient les modèles que vous construisez, il existe une perspective passionnante d’intégration plus étroite et intrinsèque de nos machines dans nos vies. Avec la PNL, les possibilités dans les domaines des affaires, des films, de la reconnaissance vocale, de la finance et bien plus encore sont multipliées.