- Collecte des données : Ma formation a commencé avec une gamme variée de textes Internet. Cependant, je dois noter que même si j'ai été formé sur un large ensemble de données, je ne sais pas quels documents faisaient partie de cet ensemble de formation ou j'ai accès à des documents ou sources spécifiques.
- Formation initiale (Pré-formation) : C'est là que j'ai appris à prédire le mot suivant dans une phrase. Je n'ai pas commencé à connaître l'anglais ni aucune autre langue. Au lieu de cela, en prédisant le mot suivant dans des millions de phrases, j'ai progressivement appris la grammaire, des faits sur le monde et certaines capacités de raisonnement. Cependant, cela signifie également que j'ai peut-être appris à partir d'informations biaisées ou incorrectes, car les données n'ont pas été soigneusement filtrées.
- Réglage fin: Après la formation initiale, mes créateurs chez OpenAI ont fourni des conseils supplémentaires avec un ensemble de données plus spécifique, généré avec l'aide de réviseurs humains. Ces examinateurs suivent des directives pour examiner et évaluer les sorties de modèles possibles pour une gamme d'exemples d'entrées. Le processus de mise au point est une sorte de dialogue entre le modèle et les examinateurs qui m'aide à mieux m'aligner sur les valeurs humaines.
- Apprentissage continu Bien que je n'apprenne pas des interactions individuelles pour des raisons de confidentialité, OpenAI travaille en permanence avec une équipe de réviseurs humains pour fournir des commentaires et apporter des améliorations itératives basées sur des modèles et des idées plus larges.
- Exemple de pré-formation : Supposons que nous ayons la phrase « Le chat s'est assis sur le __ ». Dans la phase de pré-formation, le modèle comme moi apprendrait à prédire le mot suivant dans la phrase, qui pourrait être "tapis", "toit" ou "arbre". Ceci est appris en traitant des milliards de phrases à partir de divers textes Internet, impliquant indirectement une interaction humaine lorsque les humains ont créé le contenu original.
- Exemple de réglage fin : Après la phase de pré-formation, le modèle entre dans la phase de réglage fin. Voici comment cela pourrait fonctionner :
L'examinateur humain se voit confier la tâche d'examiner les sorties possibles du modèle pour des entrées telles que "Traduire le texte anglais suivant en français : 'Bonjour, comment allez-vous ?'". Le modèle peut générer plusieurs réponses comme « Bonjour, comment ça va ? » ou "Salut, comment vas-tu?" etc.
L'examinateur évalue ces réponses en fonction de facteurs tels que l'exactitude, la fluidité et la pertinence. Ces notes aident le modèle à généraliser et à répondre à des entrées similaires à l'avenir.
N'oubliez pas que les exemples fournis ici sont simplifiés pour illustrer le processus. La formation proprement dite implique des algorithmes complexes et de grandes quantités de données.
- Variété de données : Il ne s'agit pas seulement du volume des données, mais aussi de la variété. Les données doivent être diverses pour couvrir un large éventail de sujets, de styles et de tons trouvés dans le langage humain.
- Qualité des données : La qualité des données utilisées pour la formation peut également influencer l'efficacité d'apprentissage du modèle. Des données de meilleure qualité peuvent potentiellement réduire le volume requis pour une formation efficace.
- Modèle d'architecture : L'architecture du modèle (comme le nombre de couches ou de paramètres dans le réseau neuronal) peut également affecter la quantité de données nécessaire. Les modèles plus grands, comme GPT-3 ou GPT-4, nécessitent généralement plus de données que les modèles plus petits.
- Objectifs de formation: Le type de tâches que le modèle est censé effectuer peut influencer la quantité de données nécessaires. Un modèle conçu pour une tâche spécifique peut nécessiter moins de données s'il est bien ciblé, tandis qu'un modèle à usage général comme GPT-3 ou GPT-4, conçu pour gérer un large éventail de tâches, nécessitera plus de données pour une compréhension plus large.
Dans le cas de GPT-3, par exemple, le modèle compte 175 milliards de paramètres et a été formé sur des centaines de gigaoctets de texte. Mais ces chiffres ne rendent pas pleinement compte de la complexité du processus. Les détails du processus de formation, y compris la quantité exacte de données utilisées, sont des détails exclusifs détenus par OpenAI et des organisations similaires.
- Commencer petit: En particulier pour les problèmes simples ou les prototypes de modèles initiaux, un jeu de données plus petit peut être suffisant. Par exemple, si vous créez un classificateur d'images de base, vous pouvez commencer avec quelques centaines ou milliers d'images par catégorie.
- Tenez compte de la complexité : Les problèmes plus complexes nécessitent généralement plus de données. Si vous développez un modèle d'apprentissage en profondeur ou travaillez avec un problème complexe comme le traitement du langage naturel, vous aurez peut-être besoin de millions de points de données.
- La qualité plutôt que la quantité: Des données pertinentes et de qualité peuvent souvent être plus bénéfiques qu'une quantité massive de données de mauvaise qualité. Il est crucial de s'assurer que vos données sont correctement nettoyées, annotées et représentatives du problème que vous essayez de résoudre.
- Équilibrez vos cours : Pour les tâches d'apprentissage supervisé, assurez-vous d'avoir un bon équilibre d'exemples pour chaque classe. Un ensemble de données déséquilibré peut conduire à un modèle qui fonctionne mal sur les classes sous-représentées.
- Utiliser les ensembles de validation et de test : Une partie de votre ensemble de données doit être réservée à la validation (réglage des paramètres du modèle) et aux tests (évaluation des performances du modèle). Les répartitions courantes peuvent être de 70 % des données pour la formation, 15 % pour la validation et 15 % pour les tests, bien que ces proportions puissent varier.
- Expérimenter et itérer : Commencez avec une quantité initiale de données, entraînez votre modèle, évaluez ses performances et ajoutez de manière itérative plus de données, modifiez votre modèle ou améliorez la qualité de vos données en fonction des résultats.
N'oubliez pas que plus de données améliorent généralement les performances des modèles d'apprentissage automatique, mais seulement jusqu'à un certain point. Après un certain point, la collecte de plus de données peut prendre plus de temps et coûter plus cher que sa valeur, et il peut être plus avantageux de se concentrer sur l'amélioration de la qualité de vos données ou d'affiner l'architecture de votre modèle.
- Pré-formation : Dans cette phase, le modèle est exposé à une grande quantité de données textuelles Internet. Ces données ne sont pas explicitement annotées, mais le modèle est formé pour prédire le mot suivant dans une phrase. Cela donne au modèle une compréhension générale de la grammaire, des faits sur le monde et certaines capacités de raisonnement.
- Réglage fin: Après la pré-formation, le modèle est encore affiné sur un ensemble de données plus restreint généré avec l'aide d'examinateurs humains. Ces examinateurs suivent les directives d'OpenAI pour examiner et évaluer les sorties de modèles possibles pour une gamme d'entrées. En ce sens, le processus de réglage fin peut être considéré comme une forme d'annotation, où des examinateurs humains guident les réponses du modèle, l'aidant à mieux s'aligner sur les valeurs humaines et s'assurant qu'il évite les contenus inappropriés ou dangereux.
Ainsi, bien que l'ensemble de données initial utilisé pour la pré-formation ne soit pas annoté au sens traditionnel, le processus de réglage fin implique une forme d'annotation, où des examinateurs humains guident le comportement du modèle en évaluant différentes sorties.
Exactitude : Les examinateurs évaluent si la sortie du modèle est factuellement correcte.
Mise en situation :
Pertinence : La sortie du modèle est évaluée pour sa pertinence par rapport à l'entrée donnée.
Mise en situation :
Sécurité: Les résultats sont examinés pour s'assurer qu'ils ne contiennent pas d'instructions nuisibles ou de langage offensant.
Mise en situation :
Complétude: Cela évalue si la réponse du modèle répond entièrement à la requête de l'utilisateur.
Mise en situation :
Aisance: Les examinateurs vérifient si la sortie du modèle est linguistiquement fluide et cohérente.
Mise en situation :
Ces catégories ne sont que des exemples. Le processus de mise au point proprement dit implique un système d'évaluation plus complexe et une rétroaction continue entre les examinateurs et l'équipe de développement de l'IA. L'objectif de ces annotations est de rendre les réponses du modèle plus utiles, sûres et alignées sur les valeurs humaines.
OpenAI, l'organisation derrière ChatGPT, ne divulgue pas publiquement le nombre exact d'examinateurs impliqués dans le processus de réglage fin. Cependant, compte tenu de l'ampleur et de la complexité de la formation d'un modèle de langage aussi vaste, il est prudent de dire que le processus implique probablement une équipe importante d'examinateurs.
Ces évaluateurs humains suivent les directives fournies par OpenAI pour examiner et évaluer les sorties de modèles possibles. Il s'agit d'un processus continu et itératif où les commentaires des examinateurs sont utilisés pour améliorer et affiner le modèle au fil du temps. OpenAI maintient une boucle de rétroaction solide avec les réviseurs, y compris des réunions hebdomadaires pour répondre aux questions et fournir des éclaircissements.
- Complexité de la tâche : Des tâches simples comme l'étiquetage d'images ou la catégorisation de texte prendraient moins de temps par PDF, permettant à un seul annotateur de gérer plus de fichiers. En revanche, des tâches complexes comme l'extraction détaillée d'entités ou l'analyse sémantique nécessiteraient plus de temps par document, et donc plus d'annotateurs pour le même volume de PDF.
- Longueur et complexité des PDF : Un PDF plus long ou plus complexe prendra plus de temps à annoter qu'un PDF plus court ou plus simple.
- Exigences de qualité : Si une grande précision est requise, il peut être nécessaire d'avoir plusieurs annotateurs par PDF pour vérifier les annotations.
- Contraintes de temps: Si les annotations doivent être complétées rapidement, il faudrait plus d'annotateurs.
À titre d'exemple hypothétique, disons qu'un annotateur peut annoter 5 PDF par jour pour une tâche particulière et travaille 5 jours par semaine. Dans ce cas, pour annoter 10,000 2000 PDF, un seul annotateur aurait besoin de 8 XNUMX jours, soit environ XNUMX ans.
Cependant, si vous aviez une équipe de 20 annotateurs, ils pourraient terminer la tâche en 5 mois environ (en supposant 20 jours de travail par mois). Avec 100 annotateurs, la même tâche pourrait être accomplie en un mois environ.
N'oubliez pas que ces chiffres sont purement illustratifs et que la vitesse réelle d'annotation dépend des facteurs mentionnés ci-dessus. De plus, une formation adéquate des annotateurs et un contrôle qualité constant sont essentiels au succès de tout projet d'annotation à grande échelle.