Agents Multi-Modal : Ajouter la Vision et l’Audio
J’ai presque abandonné ces histoires multimodales quand j’ai commencé. Sérieusement, essayer de faire comprendre à une machine à la fois des images et du son, c’était comme essayer de faire passer des chats et des chiens par une porte en même temps. Vous avez déjà essayé d’apprendre à une IA à reconnaître à la fois une image d’un chien qui aboie et le son de