Agent Benchmarking : Comment Mesurer la Réelle Performance
Si vous avez déjà été plongé jusqu’aux genoux dans des benchmarks d’agents, à vous cogner la tête contre eux, vous savez que la lutte est réelle. J’y ai été, en criant sur mon ordinateur portable, essayant de comprendre si mon agent est vraiment intelligent ou juste un autre aspirant HAL 9000. Choisir les bons benchmarks peut faire la différence entre penser que vous avez créé quelque chose