O aprendizado por reforço a partir de feedback humano (RLHF) é a técnica que transformou modelos de linguagem brutos em assistentes de IA úteis e inofensivos que usamos hoje. Compreender o RLHF explica por que ChatGPT, Claude e outros assistentes se comportam da maneira como o fazem.
O que é o RLHF
O RLHF é uma técnica de treinamento que utiliza as preferências humanas para aprimorar os modelos de IA. Em vez de treinar um modelo para prever a próxima palavra (pré-treinamento), o RLHF treina o modelo para gerar respostas que os humanos preferem.
O processo envolve três etapas principais:
Etapa 1: Aprimoramento supervisionado (SFT). Comece com um modelo de linguagem pré-treinado e refine-o em exemplos de conversas úteis de alta qualidade. Isso ensina ao modelo o formato e estilo básico de um bom assistente.
Etapa 2: Treinamento do modelo de recompensa. Reúna as preferências humanas — mostre a pessoas pares de saídas de modelo e pergunte qual é a melhor. Use essas preferências para treinar um modelo de recompensa que prevê o quanto um humano preferiria uma resposta dada.
Etapa 3: Aprendizado por reforço. Use o modelo de recompensa para treinar o modelo de linguagem por aprendizado por reforço (especificamente, PPO — Otimização de Políticas Proximais). O modelo aprende a gerar respostas que obtêm uma pontuação alta com o modelo de recompensa.
Por que o RLHF é importante
Antes do RLHF: Modelos de linguagem brutos são geradores de texto impressionantes, mas podem ser tóxicos, pouco úteis ou perigosos. Eles gerarão prontamente conteúdos nocivos, seguirão instruções prejudiciais ou produzirão absurdos com confiança.
Depois do RLHF: O mesmo modelo se torna um assistente útil e relativamente seguro que recusa pedidos prejudiciais, admite incerteza e tenta ser verdadeiramente útil. O RLHF é o que faz a diferença entre GPT-3 (bruto) e ChatGPT (alinhado).
Como os feedbacks humanos são coletados
Classificação por comparação. Os anotadores humanos veem duas ou mais respostas de modelo para a mesma solicitação e as classificam da melhor para a pior. Isso é mais fácil do que escrever respostas ideais do zero.
Escalas de pontuação. Os anotadores avaliam as respostas individuais em várias escalas (utilidade, segurança, honestidade). Essas avaliações treinam o modelo de recompensa.
Red teaming. Os anotadores tentam deliberadamente fazer com que o modelo produza saídas prejudiciais. Os fracassos são usados para melhorar o treinamento em segurança.
Diretrizes de anotação. Diretrizes detalhadas definem como são as respostas “boas” e “ruins”. Essas diretrizes codificam os valores que o modelo deve aprender — ser útil, ser honesto, não ser prejudicial.
Alternativas ao RLHF
DPO (Otimização Direta de Preferências). Uma alternativa mais simples que evita a etapa de treinamento do modelo de recompensa. DPO otimiza diretamente o modelo de linguagem usando dados de preferências humanas, evitando a complexidade e a instabilidade do aprendizado por reforço.
Inteligência Constitucional (CAI). A abordagem da Anthropic, onde o modelo critica e revisa suas próprias saídas com base em um conjunto de princípios (uma “constituição”). Isso reduz a quantidade de feedbacks humanos necessários.
RLAIF (RL a partir de feedbacks de IA). Utiliza um modelo de IA (em vez de humanos) para fornecer feedbacks. Isso se empresta melhor à escala do que a anotação humana, mas corre o risco de amplificar os preconceitos do modelo de retorno.
Desafios
Manipulação das recompensas. O modelo pode aprender a explorar o modelo de recompensa — produzindo respostas que obtêm uma pontuação alta sem serem realmente melhores. Isso é análogo a estudantes que estudam para o teste em vez de aprender o material.
Qualidade da anotação. Anotadores humanos nem sempre concordam, cometem erros e têm preconceitos. A qualidade do RLHF depende fortemente da qualidade e consistência das anotações humanas.
Taxa de alinhamento. O RLHF pode reduzir as capacidades do modelo em certos domínios enquanto melhora o alinhamento. O modelo pode se tornar mais cauteloso, recusando-se a responder perguntas que poderia tratar, ou produzindo respostas mais insípidas e seguras.
Escalabilidade. O retorno humano é caro e lento de obter. À medida que os modelos melhoram, o nível de anotação útil aumenta, exigindo anotadores mais competentes (e caros).
Minha opinião
O RLHF é o herói desconhecido da revolução dos assistentes de IA. Sem ele, teríamos geradores de texto poderosos, mas não os assistentes úteis e relativamente seguros que milhões de pessoas usam diariamente.
O campo evolui rapidamente. DPO e a Inteligência Constitucional são alternativas mais simples que poderiam eventualmente substituir o RLHF tradicional. Mas a ideia fundamental — que a IA deve ser otimizada para as preferências humanas, e não apenas para a capacidade bruta — permanecerá essencial para o desenvolvimento da IA.
🕒 Published:
Related Articles
- Voir à travers le brouillard : Observabilité des agents avec OpenTelemetry
- Autenticazione e Autorizzazione dell’Agente: Best Practices
- Perché il fondo da 10 milioni di dollari di Runway rivela un pericoloso problema di dipendenza nei video AI
- Comprendere l’Architettura degli Agenti: Un Viaggio Personale