Verstärkendes Lernen aus menschlichem Feedback (RLHF) ist die Technik, die rohe Sprachmodelle in nützliche und harmlose KI-Assistenten verwandelt hat, die wir heute nutzen. Das Verständnis von RLHF erklärt, warum sich ChatGPT, Claude und andere Assistenten auf die Art und Weise verhalten, wie sie es tun.
Was ist RLHF?
RLHF ist eine Trainingsmethode, die menschliche Präferenzen nutzt, um KI-Modelle zu verfeinern. Anstatt ein Modell darauf zu trainieren, das nächste Wort vorherzusagen (Vortraining), trainiert RLHF das Modell, um Antworten zu generieren, die Menschen bevorzugen.
Der Prozess besteht aus drei Hauptschritten:
Schritt 1: Überwachtes Feintuning (SFT). Beginnen Sie mit einem vortrainierten Sprachmodell und verfeinern Sie es anhand hochwertiger Beispiele nützlicher Gespräche. Dies lehrt das Modell das Grundformat und den Stil eines guten Assistenten.
Schritt 2: Training des Belohnungsmodells. Sammeln Sie menschliche Präferenzen — zeigen Sie den Menschen Paare von Modell-Ausgaben und fragen Sie, welches besser ist. Nutzen Sie diese Präferenzen, um ein Belohnungsmodell zu trainieren, das vorhersagt, wie sehr ein Mensch eine bestimmte Antwort bevorzugt.
Schritt 3: Verstärkendes Lernen. Verwenden Sie das Belohnungsmodell, um das Sprachmodell durch verstärkendes Lernen zu trainieren (speziell PPO — Proximal Policy Optimization). Das Modell lernt, Antworten zu generieren, die im Belohnungsmodell hoch bewertet werden.
Warum ist RLHF wichtig?
Vor RLHF: Rohe Sprachmodelle sind beeindruckende Textgeneratoren, aber sie können toxisch, wenig hilfreich oder gefährlich sein. Sie sind bereitwillig dazu, schädliche Inhalte zu erzeugen, schädlichen Anweisungen zu folgen oder mit Überzeugung Unsinn zu produzieren.
Nach RLHF: Das gleiche Modell wird zu einem nützlichen und relativ sicheren Assistenten, der schädliche Anfragen ablehnt, Unsicherheiten eingesteht und wirklich nützlich sein möchte. RLHF macht den Unterschied zwischen GPT-3 (roh) und ChatGPT (ausgerichtet).
Wie menschliches Feedback gesammelt wird
Vergleichsranking. Menschliche Annotatoren sehen zwei oder mehrere Modellantworten auf dasselbe Eingangsformat und bewerten sie von der besten zur schlechtesten. Das ist einfacher, als ideale Antworten von Grund auf zu schreiben.
Bewertungsskalen. Die Annotatoren bewerten einzelne Antworten anhand verschiedener Skalen (Nützlichkeit, Unschädlichkeit, Ehrlichkeit). Diese Bewertungen trainieren das Belohnungsmodell.
Red Teaming. Die Annotatoren versuchen absichtlich, dass das Modell schädliche Ausgaben erzeugt. Die Misserfolge werden genutzt, um das Sicherheitstraining zu verbessern.
Annotierungsrichtlinien. Detaillierte Richtlinien definieren, wie „gute“ und „schlechte“ Antworten aussehen. Diese Richtlinien kodifizieren die Werte, die das Modell lernen soll — nützlich sein, ehrlich sein, nicht schädlich sein.
Alternativen zu RLHF
DPO (Direkte Präferenz-Optimierung). Eine einfachere Alternative, die den Schritt des Trainings des Belohnungsmodells vermeidet. DPO optimiert das Sprachmodell direkt mit menschlichen Präferenzdaten und vermeidet die Komplexität und Instabilität des verstärkenden Lernens.
Verfassungsgebundene Intelligenz (CAI). Der Ansatz von Anthropic, bei dem das Modell seine eigenen Ausgaben anhand eines Satzes von Prinzipien (einer „Verfassung“) kritisch bewertet und überarbeitet. Dies reduziert die Menge an benötigtem menschlichem Feedback.
RLAIF (RL aus KI-Feedback). Verwendung eines KI-Modells (anstatt von Menschen), um Rückmeldungen zu geben. Dies eignet sich besser für die Skalierung als menschliche Annotation, birgt jedoch das Risiko, die Vorurteile des Rückmeldungsmodells zu verstärken.
Herausforderungen
Manipulation der Belohnungen. Das Modell kann lernen, das Belohnungsmodell auszutricksen — es erzeugt Antworten, die hoch bewertet werden, ohne tatsächlich besser zu sein. Dies ist vergleichbar mit Studenten, die für einen Test lernen, anstatt den Stoff zu verstehen.
Qualität der Annotation. Menschliche Annotatoren sind sich nicht immer einig, machen Fehler und haben Vorurteile. Die Qualität von RLHF hängt stark von der Qualität und Konsistenz der menschlichen Annotationen ab.
Alignierungssteuern. RLHF kann die Fähigkeiten des Modells in bestimmten Bereichen verringern, während es die Ausrichtung verbessert. Das Modell kann vorsichtiger werden und Anfragen ablehnen, die es bearbeiten könnte, oder fadere und sicherere Antworten geben.
Skalierbarkeit. Menschliches Feedback ist kostspielig und langsam zu sammeln. Mit der Verbesserung der Modelle steigt der Bedarf an nützlicher Annotation, was kompetentere (und teurere) Annotatoren erfordert.
Meine Meinung
RLHF ist der unerkannte Held der Revolution der KI-Assistenten. Ohne ihn hätten wir leistungsstarke Textgeneratoren, aber nicht die nützlichen und relativ sicheren Assistenten, die Millionen von Menschen täglich nutzen.
Das Feld entwickelt sich schnell weiter. DPO und verfassungsgebundene Intelligenz sind einfachere Alternativen, die möglicherweise irgendwann das traditionelle RLHF ersetzen könnten. Aber die grundlegende Idee — dass KI für menschliche Präferenzen und nicht nur für rohe Fähigkeit optimiert werden sollte — bleibt entscheidend für die Entwicklung von KI.
🕒 Published: