El Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) es la técnica que transformó los modelos de lenguaje en bruto en los asistentes de IA útiles y seguros que utilizamos hoy en día. Entender el RLHF explica por qué ChatGPT, Claude y otros asistentes se comportan de la manera en que lo hacen.
Qué es RLHF
RLHF es una técnica de entrenamiento que utiliza las preferencias humanas para afinar los modelos de IA. En lugar de entrenar un modelo para predecir la siguiente palabra (pre-entrenamiento), RLHF entrena al modelo para generar respuestas que los humanos prefieren.
El proceso tiene tres etapas principales:
Etapa 1: Ajuste Fino Supervisado (SFT). Comienza con un modelo de lenguaje pre-entrenado y ajústalo con ejemplos de alta calidad de conversaciones útiles. Esto enseña al modelo el formato y estilo básicos de un buen asistente.
Etapa 2: Entrenamiento del Modelo de Recompensa. Recoge las preferencias humanas: muestra a las personas pares de salidas del modelo y pregunta cuál es mejor. Utiliza estas preferencias para entrenar un modelo de recompensa que predice cuánto preferiría un humano una respuesta dada.
Etapa 3: Aprendizaje por Refuerzo. Usa el modelo de recompensa para entrenar el modelo de lenguaje a través del aprendizaje por refuerzo (específicamente, PPO — Proximal Policy Optimization). El modelo aprende a generar respuestas que obtienen altas puntuaciones con el modelo de recompensa.
Por qué es Importante RLHF
Antes de RLHF: Los modelos de lenguaje en bruto son generadores de texto impresionantes, pero pueden ser tóxicos, inútiles o peligrosos. Generarán con gusto contenido dañino, seguirán instrucciones perjudiciales o producirán tonterías con confianza.
Después de RLHF: El mismo modelo se convierte en un asistente útil y relativamente seguro que rechaza solicitudes dañinas, admite incertidumbres y trata de ser genuinamente útil. El RLHF es lo que marca la diferencia entre GPT-3 (en bruto) y ChatGPT (alineado).
Cómo se Recoge la Retroalimentación Humana
Clasificación comparativa. Los anotadores humanos ven dos o más respuestas del modelo al mismo aviso y las clasifican de mejor a peor. Esto es más fácil que escribir respuestas ideales desde cero.
Escalas de evaluación. Los anotadores califican respuestas individuales en escalas (utilidad, inocuidad, honestidad). Estas calificaciones entrenan el modelo de recompensa.
Red de ataques. Los anotadores intentan deliberadamente que el modelo produzca salidas dañinas. Los fallos se utilizan para mejorar el entrenamiento de seguridad.
Directrices de anotación. Directrices detalladas definen cómo son las respuestas “buenas” y “malas”. Estas directrices codifican los valores que el modelo debería aprender: ser útil, ser honesto, no ser dañino.
Alternativas a RLHF
DPO (Optimización de Preferencias Directas). Una alternativa más simple que omite el paso de entrenamiento del modelo de recompensa. DPO optimiza directamente el modelo de lenguaje utilizando datos de preferencias humanas, evitando la complejidad e inestabilidad del aprendizaje por refuerzo.
IA Constitucional (CAI). El enfoque de Anthropic, donde el modelo critica y revisa sus propias salidas en base a un conjunto de principios (una “constitución”). Esto reduce la cantidad de retroalimentación humana necesaria.
RLAIF (RL a partir de Retroalimentación de IA). Usar un modelo de IA (en lugar de humanos) para proporcionar retroalimentación. Esto se escala mejor que la anotación humana pero corre el riesgo de amplificar los sesgos del modelo de retroalimentación.
Desafíos
Manipulación de recompensas. El modelo puede aprender a engañar al modelo de recompensa, produciendo respuestas que obtienen altas puntuaciones en el modelo de recompensa sin ser realmente mejores. Esto es análogo a los estudiantes que estudian para el examen en lugar de aprender el material.
Calidad de anotación. Los anotadores humanos no están de acuerdo, cometen errores y tienen sesgos. La calidad del RLHF depende en gran medida de la calidad y consistencia de las anotaciones humanas.
Impuesto de alineación. RLHF puede reducir las capacidades del modelo en algunas áreas mientras mejora la alineación. El modelo puede volverse más cauteloso, negándose a responder preguntas que podría manejar, o produciendo respuestas más insípidas y seguras.
Escalabilidad. La retroalimentación humana es costosa y lenta de recopilar. A medida que los modelos mejoran, la barra para una anotación útil se eleva, requiriendo anotadores más capacitados (y costosos).
Mi Opinión
RLHF es el héroe anónimo de la revolución de los asistentes de IA. Sin él, tendríamos generadores de texto poderosos pero no los asistentes útiles y relativamente seguros que millones de personas utilizan a diario.
El campo está evolucionando rápidamente. DPO y la IA Constitucional son alternativas más simples que pueden eventualmente reemplazar el RLHF tradicional. Pero la idea fundamental — que la IA debe ser optimizada para las preferencias humanas, no solo para la capacidad bruta — seguirá siendo fundamental para el desarrollo de la IA.
🕒 Published: