Définition
La tokenisation est le processus de division du texte en unités plus petites (jetons) telles que des mots, des sous-mots ou des caractères, qui servent d'entrées aux modèles linguistiques.
Interet
L’objectif est de normaliser le texte en composants gérables pour la formation et l’inférence dans les LLM.
Importance
- Étape fondamentale de prétraitement en PNL.
- Impacte la taille et l’efficacité du vocabulaire.
- Les choix de tokenisation affectent la précision et les performances.
- En rapport avec les intégrations et la formation des modèles.
Aide
- Définir le schéma de tokenisation (mot, sous-mot, caractère).
- Appliquer un tokeniseur au texte saisi.
- Associez les jetons aux identifiants numériques.
- Introduisez les jetons dans le modèle pour traitement.
- Convertissez les jetons de sortie en texte.
Exemples (monde réel)
- Codage par paires d'octets (BPE) utilisé dans les modèles GPT.
- WordPiece utilisé dans BERT.
- SentencePiece utilisé en PNL multilingue.
Références / Lectures complémentaires
- Sennrich et al. « Traduction automatique neuronale de mots rares avec unités de sous-mots. » ACL.
- Documentation de Google SentencePiece.
- Jurafsky et Martin. Traitement de la parole et du langage.