Tokenisation dans les LLM

Tokenisation dans les LLM

Définition

La tokenisation est le processus de division du texte en unités plus petites (jetons) telles que des mots, des sous-mots ou des caractères, qui servent d'entrées aux modèles linguistiques.

Interet

L’objectif est de normaliser le texte en composants gérables pour la formation et l’inférence dans les LLM.

Importance

  • Étape fondamentale de prétraitement en PNL.
  • Impacte la taille et l’efficacité du vocabulaire.
  • Les choix de tokenisation affectent la précision et les performances.
  • En rapport avec les intégrations et la formation des modèles.

Aide

  1. Définir le schéma de tokenisation (mot, sous-mot, caractère).
  2. Appliquer un tokeniseur au texte saisi.
  3. Associez les jetons aux identifiants numériques.
  4. Introduisez les jetons dans le modèle pour traitement.
  5. Convertissez les jetons de sortie en texte.

Exemples (monde réel)

  • Codage par paires d'octets (BPE) utilisé dans les modèles GPT.
  • WordPiece utilisé dans BERT.
  • SentencePiece utilisé en PNL multilingue.

Références / Lectures complémentaires

  • Sennrich et al. « Traduction automatique neuronale de mots rares avec unités de sous-mots. » ACL.
  • Documentation de Google SentencePiece.
  • Jurafsky et Martin. Traitement de la parole et du langage.

Dites-nous comment nous pouvons vous aider avec votre prochaine initiative d'IA.

Shai
Aperçu de la confidentialité

Ce site utilise des cookies afin que nous puissions vous offrir la meilleure expérience utilisateur possible. Les informations sur les cookies sont stockées dans votre navigateur et remplissent des fonctions telles que vous reconnaître lorsque vous revenez sur notre site Web et aider notre équipe à comprendre quelles sections du site Web vous trouvez les plus intéressantes et utiles.