Eu estou atacando os controles de realidade dos agentes IA: aqui está a minha estratégia

🌐🇧🇷 Português 🇮🇹 Italiano 🇩🇪 Deutsch 🇫🇷 Français

📖 12 min read•2,382 words•Updated Apr 5, 2026

Olá a todos, aqui é Alex do agntai.net. Estamos no final de março de 2026, e estou enfrentando um problema específico que acho que muitos de vocês que trabalham com agentes de IA provavelmente encontrarão ou encontrarão em breve: como impedir que seus agentes autônomos fiquem completamente fora de controle quando encontram uma entrada realmente inesperada? Não estamos falando de desvios menores; quero dizer o tipo de entrada que faria um humano coçar a cabeça e dizer: “Espere, o quê?”

Eu chamo isso de problema da “Arquitetura de Verificação de Realidade”. Trata-se de construir agentes inteligentes o suficiente para saber quando não sabem, e mais importante, inteligentes o suficiente para pedir ajuda ou reavaliar fundamentalmente sua abordagem em vez de simplesmente alucinar com confiança ou executar um plano insensato. Todos nós já vimos os exemplos hilários (e às vezes aterrorizantes) de IAs generativas ficando malucas. Quando isso alimenta um agente tomando decisões no mundo real, isso deixa de ser engraçado rapidamente.

O Problema: Agentes no Far West dos Dados

Minhas dores de cabeça recentes vêm de um projeto onde estamos implantando agentes para ajudar em uma tarefa de análise de dados em tempo real um pouco bagunçada. Pense em um agente observando um fluxo de dados de sensores, tentando identificar anomalias e recomendando ações. O problema não surge quando os dados são limpos ou até mesmo moderadamente ruidosos. O problema surge quando um sensor apresenta falhas completamente, enviando um fluxo de `NaN`s, ou quando um fluxo de dados de uma nova fonte inesperada aparece de repente com um padrão completamente diferente. Ou, meu favorito pessoal, quando um operador humano contorna manualmente um sistema e insere algo tão bizarro que nenhum dado de treinamento poderia ter preparado o agente para isso.

A maioria dos nossos agentes é construída com um loop bastante padrão: perceber, raciocinar, agir. A camada de percepção pode usar alguns modelos de ML para classificação ou extração de características. A camada de raciocínio geralmente envolve alguma forma de planejamento ou tomada de decisão, às vezes aprimorada por outro LLM. A camada de ação executa comandos. Isso funciona muito bem para 90% dos casos. Mas esses 10%… é aí que as coisas ficam interessantes.

Eu me lembro de um incidente específico no mês passado. Tivemos um agente monitorando uma rede em busca de padrões de tráfego incomuns. Uma nova ferramenta de diagnóstico experimental foi implantada pela equipe de TI – completamente anunciada aos desenvolvedores do nosso agente (clássico, não?). Essa ferramenta começou a gerar um fluxo de pacotes UDP muito específicos e não padrões. Nosso agente, treinado em padrões “normais” e “maliciosos”, não pôde classificar esse novo tráfego. Em vez de sinalizá-lo como “não classificado” ou “desconhecido”, ele começou a classificá-lo com confiança como um ataque de “ping flood” de baixa intensidade e recomendou ajustes menores nas regras do firewall. Não era perigoso, mas estava absolutamente errado e mobilizou recursos para investigar algo que não era um problema. Meu pensamento imediato foi: “Como integrar um mecanismo que permita ao agente dizer: ‘Espere, isso não corresponde a nenhuma categoria conhecida, eu preciso de uma intervenção humana sobre isso?’”

Além das Pontuações de Confiança: Construindo um Módulo “Huh?”

Meu primeiro pensamento foi: “Use apenas as pontuações de confiança dos modelos de ML!” E sim, esse é um bom primeiro passo. Se seu modelo de classificação para os dados de sensores está apenas 30% confiante sobre uma leitura específica, isso é um sinal de alerta. Mas as pontuações de confiança nem sempre contam toda a história. Um modelo pode estar muito confiante com uma classificação errada se a entrada estiver suficientemente fora da distribuição. É como pedir a alguém para identificar um ornitorrinco quando ele só viu mamíferos e aves; ele pode dizer com confiança “pássaro estranho” ou “peixe peludo” porque é a coisa mais próxima que ele conhece, mesmo que isso esteja fundamentalmente errado.

O que precisamos é de um módulo dedicado à “Verificação de Realidade” ou à “Detecção de Anomalias para o Estado do Agente”. Não se trata apenas de detectar anomalias nos dados de entrada, mas sim anomalias na *compreensão* ou nas *ações previstas* do agente considerando o contexto atual.

Três Pilares da Arquitetura de Verificação de Realidade

Estou experimentando uma arquitetura que incorpora três componentes principais para abordar isso:

Validação de Entradas & Detecção de Novas Anomalias: Isso acontece no primeiro nível de percepção.
Verificação de Coerência Contextual: Isso avalia o estado interno do agente e as ações previstas em relação ao contexto conhecido.
Escalada Humana na Rede (HITL): Um mecanismo robusto para quando o agente realmente fica preso.

Pilar 1: Validação de Entradas & Detecção de Novas Anomalias

É aqui que capturamos as entradas realmente estranhas. Antes de qualquer processamento complexo, os dados de entrada brutos passam por um controle de coerência. Não se trata apenas de tipos de dados; trata-se de saber se os dados *parecem* corresponder a algo que o agente já viu antes ou que ele foi projetado para manipular.

Exemplo Prático: Filtragem Semântica das Entradas

Diga que seu agente espera dados JSON estruturados representando os estados dos dispositivos. Se ele receber de repente um blob de texto não estruturado, ele deve imediatamente sinalizar isso. Além da validação estrita do esquema, podemos usar métodos estatísticos simples ou até mesmo autoencoders leves para a detecção de novidades.


import pandas as pd
from sklearn.ensemble import IsolationForest
import numpy as np

class NoveltyDetector:
 def __init__(self, data_sample, contamination=0.01):
 # Treinar uma Isolation Forest em dados 'normais'
 self.model = IsolationForest(contamination=contamination, random_state=42)
 self.model.fit(data_sample)

 def detect(self, new_data_point):
 # Prever -1 para anomalias, 1 para valores normais
 prediction = self.model.predict(new_data_point.reshape(1, -1))
 return prediction[0] == -1 # Verdadeiro se novo/anomalia

# Exemplo de Uso:
# Imagine que 'normal_sensor_readings' seja um DataFrame com dados típicos de sensores (por exemplo, temperatura, pressão, umidade)
# Para simplicidade, vamos criar dados normais fictícios
normal_data = pd.DataFrame(np.random.rand(100, 3) * 100, columns=['temp', 'pressure', 'humidity'])

detector = NoveltyDetector(normal_data)

# Testar com um ponto de dados normal
normal_point = np.array([50, 50, 50])
print(f"O ponto {normal_point} é novo? {detector.detect(normal_point)}") # Esperado: Falso

# Testar com um ponto de dados anômalo (por exemplo, temperatura muito alta)
anomalous_point = np.array([1000, 50, 50]) # Temperatura bem fora da faixa
print(f"O ponto {anomalous_point} é novo? {detector.detect(anomalous_point)}") # Esperado: Verdadeiro

# Testar com uma estrutura de dados completamente diferente (isso falharia se não pré-processado)
# Para um agente real, você gostaria de detectar incompatibilidades de esquema *antes* disso.
# Mas se for numérico, IsolationForest pode ainda sinalizá-lo.
weird_point = np.array([-1000, -2000, -3000])
print(f"O ponto {weird_point} é novo? {detector.detect(weird_point)}") # Esperado: Verdadeiro

Esse snippet mostra uma Isolation Forest básica para dados numéricos. Para entradas mais complexas e multimodais, você poderia usar técnicas como SVM de uma classe ou até mesmo modelos de representação pré-treinados (como um pequeno autoencoder) para detectar entradas que caem fora do manifold aprendido dos dados “normais”.

Pilar 2: Verificação de Coerência Contextual

É aqui que o módulo “Huh?” realmente brilha. Depois que um agente processa a entrada e formula um plano, precisamos perguntar: “Isso faz sentido no contexto geral?” Isso é mais difícil do que apenas verificar os dados de entrada. Envolve avaliar o estado interno do agente, sua ação proposta e como isso se alinha com seus objetivos e o ambiente conhecido.

Exemplo: Detecção de Discordância Estado-Ações-Objetivo

Consideremos um agente cujo objetivo é manter a utilização da CPU de um servidor abaixo de **70%**. Se o agente percebe a CPU em **65%**, e sua ação proposta é desligar serviços críticos, isso é um sinal de alarme maciço. A ação é inconsistente com o objetivo e o estado atual.

Isso pode ser implementado com um conjunto de regras pré-definidas ou, para cenários mais complexos, outro pequeno modelo de ML especializado (um modelo de “crítico” ou de “verificador”) que é especificamente treinado em exemplos de pares estado-ação consistentes vs inconsistentes. Você ensina essencialmente o que “faz sentido” no domínio operacional do agente.


# Verificação de Coerência Contextual Baseada em Regras Simplificadas

class ContextualVerifier:
 def __init__(self, operational_rules):
 self.rules = operational_rules # Lista de (condition_func, consequence_func, error_message)

 def verify_action(self, current_state, proposed_action):
 for condition, consequence, error_msg in self.rules:
 if condition(current_state, proposed_action):
 # Se a condição (por exemplo, "CPU alto") for atendida,
 # verifique se a consequência (por exemplo, "a ação deve ser aumentar") também é atendida.
 if not consequence(current_state, proposed_action):
 return False, error_msg
 return True, "A ação parece coerente."

# Definir algumas regras para um agente de gerenciamento de servidor
def rule_cpu_low_but_scaling_down_condition(state, action):
 return state['cpu_util'] < 0.30 # Se a CPU estiver baixa

def rule_cpu_low_but_scaling_down_consequence(state, action):
 return action['type'] != 'scale_down_services' # Não deve reduzir os serviços

def rule_cpu_high_no_scaling_up_condition(state, action):
 return state['cpu_util'] > 0.85 # Se a CPU estiver alta

def rule_cpu_high_no_scaling_up_consequence(state, action):
 return action['type'] == 'scale_up_services' or action['type'] == 'optimize_processes' # Deve aumentar ou otimizar

operational_rules = [
 (rule_cpu_low_but_scaling_down_condition, rule_cpu_low_but_scaling_down_consequence, "Erro: CPU baixo, mas o agente propõe reduzir os serviços!"),
 (rule_cpu_high_no_scaling_up_condition, rule_cpu_high_no_scaling_up_consequence, "Erro: CPU alto, mas o agente não propõe aumento ou otimização!")
]

verifier = ContextualVerifier(operational_rules)

# Casos de teste
state1 = {'cpu_util': 0.25, 'mem_util': 0.4}
action1 = {'type': 'scale_down_services', 'target': 'web_app'}
is_consistent, msg = verifier.verify_action(state1, action1)
print(f"Teste 1 : {msg} Coerente : {is_consistent}") # Esperado : Erro, Coerente : False

state2 = {'cpu_util': 0.90, 'mem_util': 0.7}
action2 = {'type': 'monitor_logs', 'severity': 'info'}
is_consistent, msg = verifier.verify_action(state2, action2)
print(f"Teste 2 : {msg} Coerente : {is_consistent}") # Esperado : Erro, Coerente : False

state3 = {'cpu_util': 0.50, 'mem_util': 0.6}
action3 = {'type': 'log_event', 'message': 'Tudo está nominal'}
is_consistent, msg = verifier.verify_action(state3, action3)
print(f"Teste 3 : {msg} Coerente : {is_consistent}") # Esperado : A ação parece coerente. Coerente : True

Essa abordagem baseada em regras é simples, mas eficaz para verificações críticas. Para uma continuidade mais sutil, um pequeno LLM especializado poderia ser incentivado a “criticar” uma ação proposta com base no estado completo e nos objetivos, perguntando “Essa ação decorre logicamente do estado atual e dos objetivos declarados?”

Pilar 3: Escalada com o Homem na Loop (HITL)

Quando o detector de novidade de entrada e o verificador de coerência contextual sinalizam um problema, o agente não deve agir de forma autônoma. Este é o momento para o HITL. O objetivo aqui não é substituir o agente, mas fornecer uma rede de segurança e um mecanismo para aprender com situações verdadeiramente novas.

Minha experiência mostrou que um sistema HITL bem projetado não é simplesmente um “botão do pânico.” Ele deve fornecer:

“`html

Contexto claro: O agente deve apresentar *por que* está escalando, quais dados está vendo e qual era sua ação proposta (mas bloqueada).
Escolhas acionáveis: Em vez de simplesmente dizer “Não sei”, o agente deve idealmente apresentar algumas interpretações ou ações potenciais, mesmo que não tenha certeza, permitindo que o humano selecione ou corrija.
Processo de feedback: Crucialmente, a decisão ou a entrada do humano *deve* ser reintegrada no processo de aprendizado do agente, seja diretamente (ajuste de um pequeno modelo), seja indiretamente (adição a uma base de conhecimento/conjunto de regras).

É aí que o agente aprende a distinguir entre “Não estou certo, por favor, confirme” e “Isso está completamente além da minha compreensão, preciso de orientação.”

Meus Feedbacks e o que faço em seguida

Construir agentes realmente robustos exige ir além da otimização de desempenho para casos médios. Precisamos projetar explicitamente para casos particulares, incógnitas e “e se.” Minha jornada com a Arquitetura de Verificação de Realidade me permitiu tirar algumas lições-chave:

Não confie, verifique: Cada etapa crítica no loop do agente deve ter um mecanismo de verificação, mesmo que seja simples.
Sobreponha suas defesas: Uma única pontuação de confiança não é suficiente. Combine a detecção de novidade de entrada com verificações de consistência contextual.
Abrace a incerteza: Projete agentes para reconhecer explicitamente quando estão operando fora de sua zona de conforto. Isso não é um fracasso; é uma funcionalidade.
Transforme o HITL em uma oportunidade de aprendizado: Cada intervenção humana é uma chance de tornar seu agente mais inteligente e resiliente. Certifique-se de haver um loop de feedback claro.
Comece simples: Você não precisa de modelos de aprendizado profundo complexos para cada verificação. Regras simples e métodos estatísticos podem resolver muitos problemas comuns. Aumente a complexidade apenas onde for necessário.

Para o futuro, estou focando na integração desses módulos de “Verificação de Realidade” mais profundamente em nossos frameworks de agentes. Estamos experimentando com pequenos LLM específicos de domínio para gerar explicações durante escaladas HITL e sugerir interpretações alternativas quando os modelos principais falham. O objetivo é construir agentes que não sejam apenas inteligentes, mas também sensatos e seguros, especialmente quando confrontados com a realidade caótica e imprevisível do mundo real.

Quais são suas experiências com agentes que agem de maneira imprevisível? Como você integra verificações de consistência? Deixe-me saber nos comentários abaixo! E se você tiver exemplos interessantes de módulos “Hein?” em ação, adoraria ouvir sobre isso.

“`

🕒 Published: April 5, 2026

🧬

Written by Jake Chen

Deep tech researcher specializing in LLM architectures, agent reasoning, and autonomous systems. MS in Computer Science.

Learn more →