Pourquoi l’évaluation des agents a besoin d’une bonne remise en question
Lors de l’évaluation de l’IA, ce n’est pas de la science-fusée (même si nous le traitons comme tel)
Vous vous êtes déjà retrouvé en plein dans un projet, les deux pieds dans les évaluations de modèles d’agents, seulement pour réaliser que vous avez épuisé chaque foutue métrique imaginable, et pourtant vous n’êtes pas plus près de déterminer si votre IA vaut son pesant d’or numérique ? Oh, le