Définition
La collecte de données textuelles est le processus de collecte de langage écrit à partir de sources telles que des livres, des sites Web ou des journaux de discussion pour une utilisation dans la formation de l'IA.
Interet
L'objectif est de créer des corpus pour le développement de la PNL et du LLM.
Importance
- Fournit la matière première pour les modèles de langage.
- Soulevez des questions de droits d’auteur et de licences.
- La diversité des données influence l’équité et l’exactitude.
- Doit filtrer le contenu nuisible ou non pertinent.
Aide
- Identifier les sources de texte (web, documents, transcriptions).
- Explorer ou extraire du texte avec autorisation.
- Nettoyer et normaliser le contenu.
- Magasin avec métadonnées pour la traçabilité.
- À utiliser en pré-formation ou en perfectionnement.
Exemples (monde réel)
- Common Crawl : grand corpus Web.
- Dépotoirs Wikipédia : ensemble de données textuelles structurées.
- BooksCorpus : utilisé pour la formation BERT.
Références / Lectures complémentaires
- Fondation Common Crawl.
- Jurafsky et Martin. Traitement de la parole et du langage.
- ISO/IEC TR 20547-5 : Architecture de référence du Big Data.
- Collecte de données textuelles spécifiques au cas