L’apprentissage par renforcement à partir des retours humains (RLHF) est la technique qui a transformé les modèles de langage bruts en assistants IA utiles et inoffensifs que nous utilisons aujourd’hui. Comprendre le RLHF explique pourquoi ChatGPT, Claude et d’autres assistants se comportent de la manière dont ils le font.
Ce qu’est le RLHF
Le RLHF est une technique d’entraînement qui utilise les préférences humaines pour affiner les modèles d’IA. Au lieu d’entraîner un modèle à prédire le mot suivant (pré-entraînement), le RLHF entraîne le modèle à générer des réponses que les humains préfèrent.
Le processus comporte trois étapes principales :
Étape 1 : Affinage supervisé (SFT). Commencez avec un modèle de langage pré-entraîné et affinez-le sur des exemples de conversations utiles de haute qualité. Cela apprend au modèle le format et le style de base d’un bon assistant.
Étape 2 : Entraînement du modèle de récompense. Recueillez les préférences humaines — montrez aux gens des paires de sorties de modèle et demandez quelle est la meilleure. Utilisez ces préférences pour entraîner un modèle de récompense qui prédit à quel point un humain préférerait une réponse donnée.
Étape 3 : Apprentissage par renforcement. Utilisez le modèle de récompense pour entraîner le modèle de langage par apprentissage par renforcement (spécifiquement, PPO — Optimisation de la politique proximale). Le modèle apprend à générer des réponses qui obtiennent un score élevé avec le modèle de récompense.
Pourquoi le RLHF est important
Avant le RLHF : Les modèles de langage bruts sont des générateurs de texte impressionnants, mais ils peuvent être toxiques, peu utiles ou dangereux. Ils généreront volontiers des contenus nocifs, suivront des instructions nuisibles ou produiront des absurdités avec assurance.
Après le RLHF : Le même modèle devient un assistant utile et relativement sûr qui refuse les demandes nuisibles, admet l’incertitude et essaie d’être véritablement utile. Le RLHF est ce qui fait la différence entre GPT-3 (brut) et ChatGPT (aligné).
Comment les retours humains sont recueillis
Classement par comparaison. Les annotateurs humains voient deux ou plusieurs réponses de modèle à la même invite et les classent de la meilleure à la pire. C’est plus facile que d’écrire des réponses idéales de zéro.
Échelles de notation. Les annotateurs évaluent les réponses individuelles sur diverses échelles (utilité, innocuité, honnêteté). Ces évaluations entraînent le modèle de récompense.
Red teaming. Les annotateurs essaient délibérément d’obtenir que le modèle produise des sorties nuisibles. Les échecs sont utilisés pour améliorer la formation à la sécurité.
Directives d’annotation. Des directives détaillées définissent à quoi ressemblent les « bonnes » et « mauvaises » réponses. Ces directives codifient les valeurs que le modèle doit apprendre — être utile, être honnête, ne pas être nuisible.
Alternatives au RLHF
DPO (Optimisation directe des préférences). Une alternative plus simple qui évite l’étape d’entraînement du modèle de récompense. DPO optimise directement le modèle de langage en utilisant des données de préférences humaines, évitant la complexité et l’instabilité de l’apprentissage par renforcement.
Intelligence constitutionnelle (CAI). L’approche d’Anthropic, où le modèle critique et révise ses propres sorties en fonction d’un ensemble de principes (une « constitution »). Cela réduit la quantité de retours humains nécessaires.
RLAIF (RL à partir des retours d’IA). Utiliser un modèle d’IA (au lieu d’humains) pour fournir des retours. Cela se prête mieux à l’échelle que l’annotation humaine, mais risque d’amplifier les biais du modèle de retour.
Défis
Manipulation des récompenses. Le modèle peut apprendre à exploiter le modèle de récompense — produisant des réponses qui obtiennent un score élevé sans être réellement meilleures. Cela est analogue aux étudiants qui étudient pour le test plutôt que d’apprendre le matériel.
Qualité de l’annotation. Les annotateurs humains ne sont pas toujours d’accord, font des erreurs et ont des biais. La qualité du RLHF dépend fortement de la qualité et de la cohérence des annotations humaines.
Taxe d’alignement. Le RLHF peut réduire les capacités du modèle dans certains domaines tout en améliorant l’alignement. Le modèle peut devenir plus prudent, refusant de répondre à des questions qu’il pourrait traiter, ou produisant des réponses plus fades et plus sûres.
Scalabilité. Le retour humain est coûteux et lent à recueillir. À mesure que les modèles s’améliorent, le niveau d’annotation utile augmente, nécessitant des annotateurs plus compétents (et coûteux).
Mon avis
Le RLHF est le héros méconnu de la révolution des assistants IA. Sans lui, nous aurions des générateurs de texte puissants mais pas les assistants utiles et relativement sûrs que des millions de personnes utilisent quotidiennement.
Le domaine évolue rapidement. DPO et l’Intelligence constitutionnelle sont des alternatives plus simples qui pourraient éventuellement remplacer le RLHF traditionnel. Mais l’idée fondamentale — que l’IA devrait être optimisée pour les préférences humaines, et pas seulement pour la capacité brute — restera essentielle au développement de l’IA.
🕒 Published: