Reinforcement Learning from Human Feedback (RLHF) ist die Technik, die rohe Sprachmodelle in die hilfreichen, harmlosen KI-Assistenten verwandelt hat, die wir heute nutzen. Das Verständnis von RLHF erklärt, warum ChatGPT, Claude und andere Assistenten sich so verhalten, wie sie es tun.
Was ist RLHF
RLHF ist eine Trainingstechnik, die menschliche Präferenzen nutzt, um KI-Modelle zu optimieren. Anstelle eines Modells, das darauf trainiert wird, das nächste Wort vorherzusagen (Vortraining), trainiert RLHF das Modell dazu, Antworten zu generieren, die Menschen bevorzugen.
Der Prozess hat drei Hauptphasen:
Phase 1: Beaufsichtigtes Feintuning (SFT). Beginnen Sie mit einem vortrainierten Sprachmodell und optimieren Sie es anhand hochwertiger Beispiele nützlicher Gespräche. Dies lehrt das Modell das grundlegende Format und den Stil eines guten Assistenten.
Phase 2: Training des Belohnungsmodells. Sammeln Sie menschliche Präferenzen – zeigen Sie den Menschen Paare von Modellausgaben und fragen Sie, welche besser ist. Verwenden Sie diese Präferenzen, um ein Belohnungsmodell zu trainieren, das vorhersagt, wie sehr ein Mensch eine bestimmte Antwort bevorzugen würde.
Phase 3: Reinforcement Learning. Verwenden Sie das Belohnungsmodell, um das Sprachmodell durch Reinforcement Learning (insbesondere PPO – Proximal Policy Optimization) zu trainieren. Das Modell lernt, Antworten zu erzeugen, die beim Belohnungsmodell hoch abschneiden.
Warum RLHF wichtig ist
Vor RLHF: Rohe Sprachmodelle sind beeindruckende Textgeneratoren, aber sie können toxisch, unhilfreich oder gefährlich sein. Sie erzeugen bereitwillig schädliche Inhalte, befolgen schädliche Anweisungen oder produzieren selbstsicheres Unsinn.
Nach RLHF: Dasselbe Modell wird zu einem hilfreichen, relativ sicheren Assistenten, der schädliche Anfragen ablehnt, Unsicherheit eingesteht und versucht, wirklich nützlich zu sein. RLHF ist das, was den Unterschied zwischen GPT-3 (roh) und ChatGPT (ausgerichtet) ausmacht.
Wie menschliches Feedback gesammelt wird
Vergleichsrangfolge. Menschliche Annotatoren sehen zwei oder mehr Modellantworten auf dasselbe Prompt und bewerten sie von am besten bis am schlechtesten. Dies ist einfacher, als ideale Antworten von Grund auf neu zu schreiben.
Bewertungsskalen. Annotatoren bewerten einzelne Antworten auf Skalen (Hilfsbereitschaft, Harmlosigkeit, Ehrlichkeit). Diese Bewertungen trainieren das Belohnungsmodell.
Red-Teaming. Annotatoren versuchen absichtlich, das Modell dazu zu bringen, schädliche Ausgaben zu produzieren. Die Misserfolge werden genutzt, um das Sicherheitstraining zu verbessern.
Annotierungsrichtlinien. Detaillierte Richtlinien definieren, wie „gute“ und „schlechte“ Antworten aussehen. Diese Richtlinien kodieren die Werte, die das Modell lernen sollte – hilfsbereit sein, ehrlich sein, nicht schädlich sein.
Alternativen zu RLHF
DPO (Direct Preference Optimization). Eine einfachere Alternative, die den Schritt des Trainings des Belohnungsmodells überspringt. DPO optimiert das Sprachmodell direkt unter Verwendung menschlicher Präferenzdaten und vermeidet die Komplexität und Instabilität des Reinforcement Learning.
Constitutional AI (CAI). Der Ansatz von Anthropic, bei dem das Modell seine eigenen Ausgaben anhand einer Reihe von Prinzipien (eine „Verfassung“) kritisiert und überarbeitet. Dies reduziert den Bedarf an menschlichem Feedback.
RLAIF (RL from AI Feedback). Ein AI-Modell (anstatt Menschen) zu verwenden, um Feedback zu geben. Dies skaliert besser als menschliche Annotation, birgt jedoch das Risiko, die Vorurteile des Feedbackmodells zu verstärken.
Herausforderungen
Belohnungshacking. Das Modell kann lernen, das Belohnungsmodell auszutricksen — Antworten zu produzieren, die beim Belohnungsmodell hoch abschneiden, ohne tatsächlich besser zu sein. Dies ist analog dazu, dass Schüler für den Test lernen, anstatt das Material zu lernen.
Qualität der Annotation. Menschliche Annotatoren sind uneinig, machen Fehler und haben Vorurteile. Die Qualität von RLHF hängt stark von der Qualität und Konsistenz der menschlichen Annotationen ab.
Ausrichtungssteuer. RLHF kann die Fähigkeiten des Modells in einigen Bereichen verringern, während die Ausrichtung verbessert wird. Das Modell kann vorsichtiger werden, weigert sich, Fragen zu beantworten, die es bewältigen könnte, oder produziert langweiligere, sicherere Antworten.
Skalierbarkeit. Menschliches Feedback ist teuer und langsam zu sammeln. Da sich die Modelle verbessern, steigt die Messlatte für hilfreiche Annotationen, was benötigt, dass mehr qualifizierte (und teure) Annotatoren eingesetzt werden.
Meine Meinung
RLHF ist der unbesungene Held der KI-Assistenten-Revolution. Ohne es hätten wir leistungsstarke Textgeneratoren, aber nicht die hilfreichen, relativ sicheren Assistenten, die Millionen von Menschen täglich nutzen.
Das Feld entwickelt sich schnell weiter. DPO und Constitutional AI sind einfachere Alternativen, die letztendlich das traditionelle RLHF ersetzen könnten. Aber die zentrale Erkenntnis — dass KI für menschliche Präferenzen und nicht nur für rohe Fähigkeiten optimiert werden sollte — wird grundlegend für die Entwicklung von KI bleiben.
🕒 Published: