Définition
L'apprentissage par renforcement à partir du feedback humain (RLHF) est une méthode permettant d'aligner les modèles d'IA sur les valeurs humaines en intégrant les jugements humains au processus d'apprentissage. Elle est souvent utilisée pour affiner les modèles linguistiques de grande envergure.
Interet
L'objectif est de rendre les résultats de l'IA plus sûrs, plus utiles et plus conformes aux préférences humaines. RLHF améliore les systèmes conversationnels en réduisant les réponses nuisibles, biaisées ou non pertinentes.
Importance
- Fournit une supervision humaine dans la formation de l'IA.
- Améliore la fiabilité des systèmes d’IA.
- Travail intensif en raison des besoins d'annotation humaine.
- Lié à la modélisation des préférences et à la recherche sur l'alignement.
Aide
- Recueillez les commentaires humains en comparant les résultats du modèle.
- Former un modèle de récompense sur les préférences humaines.
- Utilisez l’apprentissage par renforcement pour affiner le modèle de base.
- Évaluer les performances par rapport aux objectifs d’alignement.
- Itérer avec des commentaires supplémentaires.
Exemples (monde réel)
- OpenAI ChatGPT : optimisé avec RLHF pour des réponses plus sûres.
- L'IA constitutionnelle d'Anthropic : guidée par des principes plutôt que par un retour d'information direct.
- InstructGPT : premier modèle OpenAI démontrant RLHF.
Références / Lectures complémentaires
- Christiano et al. « Apprentissage par renforcement profond à partir des préférences humaines. » NeurIPS 2017.
- Document OpenAI InstructGPT.
- Cadre de gestion des risques liés à l'IA du NIST.
- Qu’est-ce que l’apprentissage par renforcement avec feedback humain (RLHF) ?