O Aprendizado por Reforço a partir do Feedback Humano (RLHF) é a técnica que transformou modelos de linguagem brutos em assistentes de IA úteis e inofensivos que usamos hoje. Entender o RLHF explica por que o ChatGPT, Claude e outros assistentes se comportam da forma que fazem.
O que é RLHF
RLHF é uma técnica de treinamento que utiliza preferências humanas para aprimorar modelos de IA. Em vez de treinar um modelo para prever a próxima palavra (pré-treinamento), o RLHF treina o modelo para gerar respostas que os humanos preferem.
O processo possui três etapas principais:
Etapa 1: Aperfeiçoamento Supervisionado (SFT). Comece com um modelo de linguagem pré-treinado e ajuste-o com exemplos de alta qualidade de conversas úteis. Isso ensina ao modelo o formato e o estilo básicos de um bom assistente.
Etapa 2: Treinamento do Modelo de Recompensa. Colete preferências humanas — mostre a pessoas pares de saídas do modelo e pergunte qual é melhor. Use essas preferências para treinar um modelo de recompensa que prevê o quanto um humano preferiria uma determinada resposta.
Etapa 3: Aprendizado por Reforço. Use o modelo de recompensa para treinar o modelo de linguagem através do aprendizado por reforço (especificamente, PPO — Proximal Policy Optimization). O modelo aprende a gerar respostas que recebem altas pontuações do modelo de recompensa.
Por que o RLHF é importante
Antes do RLHF: Modelos de linguagem brutos são geradores de texto impressionantes, mas podem ser tóxicos, inúteis ou perigosos. Eles geram alegremente conteúdo prejudicial, seguem instruções prejudiciais ou produzem bobagens confiantes.
Depois do RLHF: O mesmo modelo se torna um assistente útil e relativamente seguro que recusa pedidos prejudiciais, admite incertezas e tenta ser genuinamente útil. RLHF é o que faz a diferença entre o GPT-3 (bruto) e o ChatGPT (alinhado).
Como o Feedback Humano é Coletado
Classificação comparativa. Anotadores humanos veem duas ou mais respostas do modelo ao mesmo prompt e as classificam do melhor para o pior. Isso é mais fácil do que escrever respostas ideais do zero.
Escalas de classificação. Anotadores avaliam respostas individuais em escalas (utilidade, inofensividade, honestidade). Essas classificações treinam o modelo de recompensa.
Red teaming. Anotadores tentam deliberadamente fazer o modelo produzir saídas prejudiciais. As falhas são usadas para melhorar o treinamento de segurança.
Diretrizes de anotação. Diretrizes detalhadas definem como são as respostas “boas” e “ruins”. Essas diretrizes codificam os valores que o modelo deve aprender — ser útil, ser honesto, não ser prejudicial.
Alternativas ao RLHF
DPO (Otimização Direta de Preferências). Uma alternativa mais simples que pula a etapa de treinamento do modelo de recompensa. O DPO otimiza diretamente o modelo de linguagem usando dados de preferências humanas, evitando a complexidade e a instabilidade do aprendizado por reforço.
IA Constitucional (CAI). A abordagem da Anthropic, onde o modelo critica e revisa suas próprias saídas com base em um conjunto de princípios (uma “constituição”). Isso reduz a quantidade de feedback humano necessária.
RLAIF (RL a partir do Feedback de IA). Usando um modelo de IA (em vez de humanos) para fornecer feedback. Isso escala melhor do que a anotação humana, mas corre o risco de amplificar os preconceitos do modelo de feedback.
Desafios
Manipulação de recompensas. O modelo pode aprender a enganar o modelo de recompensa — produzindo respostas que recebem altas pontuações no modelo de recompensa sem realmente serem melhores. Isso é análogo a alunos estudando para a prova em vez de aprender a matéria.
Qualidade da anotação. Anotadores humanos discordam, cometem erros e têm preconceitos. A qualidade do RLHF depende fortemente da qualidade e consistência das anotações humanas.
Taxa de alinhamento. O RLHF pode reduzir as capacidades do modelo em algumas áreas enquanto melhora o alinhamento. O modelo pode se tornar mais cauteloso, recusando-se a responder perguntas que poderia resolver ou produzindo respostas mais neutras e seguras.
Escalabilidade. O feedback humano é caro e lento para coletar. À medida que os modelos melhoram, a expectativa para anotações úteis aumenta, exigindo anotadores mais qualificados (e caros).
Minha opinião
O RLHF é o herói não reconhecido da revolução dos assistentes de IA. Sem ele, teríamos geradores de texto poderosos, mas não os assistentes úteis e relativamente seguros que milhões de pessoas usam diariamente.
A área está evoluindo rapidamente. O DPO e a IA Constitucional são alternativas mais simples que podem eventualmente substituir o RLHF tradicional. Mas o insight central — que a IA deve ser otimizada para as preferências humanas, e não apenas para a capacidade bruta — continuará sendo fundamental para o desenvolvimento de IA.
🕒 Published: