Wall Street-Analyst:innen sind optimistisch in Bezug auf AI-Infrastruktur-Aktien und sagen massive Renditen bis 2026 voraus. In der Zwischenzeit wenden sich die tatsächlichen Ingenieur:innen, die agentische Systeme bauen, leise von den Architekturen ab, die diese Aktien repräsentieren. Eine dieser Perspektiven wird sich als katastrophal falsch erweisen.
Die Diskrepanz ist nicht subtil. Finanzanalyst:innen sehen GPU-Hersteller und Cloud-Anbieter als die unausweichlichen Gewinner der AI-Revolution. Aber als jemand, der seine Tage mit dem Debuggen von Multi-Agent-Systemen und der Optimierung von Inferenz-Pipelines verbringt, kann ich Ihnen sagen: Die Infrastruktur, auf die alle setzen, löst das Problem von gestern.
Die Verwirrung zwischen Training und Inferenz
Die meisten Wall Street-Analysen vermischen zwei grundlegend unterschiedliche Berechnungsprobleme: das Training von Basis-Modellen und die Ausführung von Agenteninferenzen. Ersteres erfordert massive parallele Rechenleistung – das Gebiet, in dem die aktuellen AI-Aktienlieblinge glänzen. Letzteres erfordert etwas ganz anderes: latenzfreies, zustandsbehaftetes Denken mit minimalem Overhead.
Wenn Sie GPT-5 trainieren, wollen Sie Tausende von GPUs, die Tensoren parallel verarbeiten. Wenn Sie einen Agenten ausführen, der 47 Werkzeugaufrufe benötigt, um eine Benutzeranfrage zu erfüllen, möchten Sie eine schnelle sequenzielle Verarbeitung mit intelligentem Caching. Diese sind nicht nur unterschiedliche Anwendungsfälle – sie sind architektonisch gegensätzliche Optimierungsziele.
Der Markt hat das noch nicht berücksichtigt. Aktuelle AI-Infrastruktur-Aktien werden unter der Annahme bewertet, dass die Bereitstellung von Agenten wie das Hochskalieren des Modelltrainings aussehen wird. Das wird nicht der Fall sein. Agentensysteme geben den größten Teil ihres Rechenbudgets für Koordinationsoverhead, Kontextmanagement und Ausführung von Werkzeugen aus – nicht für Matrixmultiplikation.
Was agentische Architekturen wirklich erfordern
Echte agentische Systeme offenbaren Infrastrukturbedürfnisse, die nicht mit den aktuellen Marktlieblingen übereinstimmen. Nach dem Bau von Produktions-Agenten-Frameworks hier, was tatsächlich wichtig ist:
Erstens wird das Zustandsmanagement zum Engpass. Agenten sind keine zustandslosen Inferenzaufrufe – sie behalten den Gesprächsverlauf, die Werkzeugergebnisse und den Planungszustand über Dutzende von Interaktionen hinweg. Die Infrastruktur, die hier gewinnt, ist nicht die mit den meisten FLOPS; es ist die mit der intelligentesten Speicherhierarchie.
Zweitens kumuliert die Latenz exponentiell. Eine einzelne Agentenaufgabe könnte 20+ sequenzielle LLM-Aufrufe auslösen. Wenn jeder Aufruf 200 ms Overhead hat, haben Sie 4 Sekunden hinzugefügt, bevor Sie tatsächlich Arbeit leisten. Die Unternehmen, die dies lösen, sind nicht die, die Analysten beobachten.
Drittens ist die Integration von Werkzeugen wichtiger als die Modellqualität. Ein Agent, der zuverlässig APIs aufrufen, Antworten parsen und Fehler behandeln kann, ist wertvoller als einer mit einem etwas besseren Sprachmodell. Das verschiebt den Wert von Rechenanbietern hin zu Orchestrierungsplattformen.
Der unsichtbare Architekturschwenk
Während die Finanzmedien sich darauf konzentrieren, welcher Chiphersteller dominieren wird, baut die eigentliche technische Gemeinschaft leise den Stack um. Wir sehen:
Spezialisierte Inferenzmaschinen, die für Agentenlasten optimieren und nicht für Batch-Verarbeitung. Diese Systeme verwenden spekulative Ausführung, aggressives Caching und zustandsbehaftete Kompilierung – Techniken, die sich nicht auf traditionelle GPU-Architekturen übertragen lassen.
Hybrid-Ausführungsmodelle, die kleine, schnelle Modelle für Routing und Planung ausführen und teure Grenzmodelle nur für komplexe Überlegungen reservieren. Dies kehrt die Wirtschaftlichkeit um, die Analysten annehmen.
Local-First-Agenten-Frameworks, die Netzwerkanfragen minimieren und wesentliche Logik auf der Client-Seite ausführen. Dies bedroht direkt die cloudzentrierte These, die den meisten AI-Aktienbewertungen zugrunde liegt.
Was das für Infrastrukturwetten bedeutet
Die Unternehmen, die sich auf den Gewinn der Agentenära positionieren, sind nicht unbedingt die, die die Trainingsinfrastruktur dominieren. Achten Sie auf:
Plattformen, die Agenten als erstklassige Primitive behandeln und nicht nur als API-Endpunkte. Der Unterschied ist architektonisch, nicht kosmetisch.
Infrastruktur, die für die Koordinationskosten optimiert und nicht nur für den reinen Durchsatz. Agentensysteme sind mehr durch Orchestrierungsoverhead als durch Rechenkapazität limitiert.
Werkzeuge, die das beobachtbare und Debugging-Albtraumszenario bei der mehrstufigen Agentenausführung lösen. Hier kommt der echte Unternehmenswert zustande.
Der blinde Fleck der Analysten
Die AI-Aktienanalyse von Wall Street leidet unter einem grundlegenden Kategoriefehler: Agenten als hochskalierte Chatbots zu behandeln, anstatt sie als ein eigenständiges Berechnungsparadigma zu betrachten. Die Infrastrukturanforderungen sind anders. Die Kostenstrukturen sind anders. Die Wettbewerbsvorteile sind anders.
Das schafft Opportunitäten. Wenn der Markt die technische Realität so falsch bewertet, ist die Korrektur in der Regel scharf. Die Frage ist nicht, ob die aktuellen AI-Infrastrukturführer wertvoll bleiben – das werden sie. Die Frage ist, ob sie für die tatsächlichen Agentenlasten positioniert sind, die in den nächsten fünf Jahren dominieren werden.
Basierend auf den aktuellen Trends in der Agentenarchitektur würde ich gegen den Konsens wetten. Die Aktien, die Analysten als „selbstverständlich“ bezeichnen, sind für eine Welt optimiert, in der AI bedeutet, größere Modelle zu trainieren. Aber die Welt, die wir tatsächlich aufbauen, basiert auf schnellen, zustandsbehafteten, orchestrierten Agentensystemen – und das erfordert eine ganz andere Infrastruktur.
Der Markt wird das irgendwann herausfinden. Die einzige Frage ist, wie viel Kapital fehlgeleitet wird, bevor das geschieht.
🕒 Published: