Meine Reise zur KI-Agenten-Speicherarchitektur im März 2026

🌐🇩🇪 Deutsch 🇫🇷 Français 🇫🇷 Français 🇪🇸 Español 🇺🇸 English

📖 13 min read•2,550 words•Updated Mar 28, 2026

Hallo zusammen, hier ist Alex von agntai.net. Es ist März 2026, und ich habe über etwas nachgedacht, das wahrscheinlich vielen von euch durch den Kopf geht: Wie bauen wir tatsächlich Agenten, die sich nicht nur wie glorifizierte API-Aufrufe anfühlen, sondern wirklich ein gewisses Maß an intelligentem, anhaltendem Verhalten zeigen? Insbesondere habe ich viel über Speicherarchitekturen für KI-Agenten nachgedacht. Es ist eine Sache, ein GPT-Modell dazu zu bringen, eine Frage zu beantworten; es ist ganz etwas anderes, einen Agenten zu haben, der sich an ein mehrtägiges Projekt erinnert, seine Strategie basierend auf vergangenen Misserfolgen anpasst und wirklich aus Interaktionen lernt.

Seit einiger Zeit stützen sich viele von uns stark auf Vektordatenbanken als unser primäres externes Gedächtnis für Agenten. Und ich möchte nicht falsch verstanden werden, sie sind fantastisch für retrieval-augmented generation (RAG) und geben unseren Agenten Zugang zu riesigen Mengen an faktischen oder kontextuellen Informationen. Aber nachdem ich ein paar Prototypen für Kunden gebaut habe – einer, der als persönlicher Forschungsassistent fungiert, ein anderer als dynamischer Kundenservice-Bot – begann ich, ihre Grenzen zu erkennen. Sie sind großartig für „Worüber haben wir letzten Dienstag gesprochen?“ oder „Was sind die Hauptmerkmale von Produkt X?“, aber sie haben Schwierigkeiten mit „Erinnere dich an die subtile Präferenz, die ich vor drei Wochen geäußert habe, und integriere sie in deine aktuelle Empfehlung.“

Es wurde mir klar, als ich versuchte, meinem Forschungsassistenten-Agenten zu erklären, dass ich *wirklich* übermäßig akademische Arbeiten nicht mag, es sei denn, es ist absolut notwendig. Ich würde ihm sagen, es würde zustimmen, und dann zwei Tage später würde es mir eine weitere dichte arXiv-Arbeit vorlegen. Die Vektor-Embeddings für „mag keine akademischen Arbeiten“ waren zwar vorhanden, aber der Agent lernte nicht wirklich *aus* meinem Feedback auf eine Weise, die seine langfristige Suchstrategie tatsächlich änderte. Es war, als würde man mit jemandem sprechen, der ein großartiges Kurzzeitgedächtnis hat, aber kein Langzeitgedächtnis für persönliche Präferenzen oder sich entwickelnden Kontext.

Über Vektorsuche hinaus: Der Bedarf an multimodalem Gedächtnis

Mein Fazit? Wir müssen über eine alleinige Abhängigkeit von Vektordatenbanken für das Gedächtnis von Agenten hinausgehen. Es geht nicht darum, sie zu ersetzen, sondern sie mit anderen Gedächtnisformen zu ergänzen, die unterschiedliche Arten von Informationen und unterschiedliche Zeitrahmen ansprechen. Denk darüber nach, wie Menschen sich Dinge merken. Wir haben Kurzzeit-Arbeitsgedächtnis, episodisches Gedächtnis (Ereignisse), semantisches Gedächtnis (Fakten) und prozedurales Gedächtnis (wie man Dinge macht). Ein einzelnes Vektor-Embedding eines Gesprächsabschnitts trennt diese nicht sauber.

Das Problem bei der ausschließlichen Abhängigkeit von Vektorsuche für alles ist, dass es alle Erinnerungen als gleich wichtig und gleich strukturiert behandelt. Eine subtile Präferenz, ein grundlegender Glaube, ein langfristiges Ziel oder eine vorübergehende Beobachtung – all das wird in Embeddings zusammengepresst. Wenn ein Agent in seinem Gedächtnis nachfragt, ruft er das ab, was semantisch ähnlich ist, aber nicht unbedingt das, was *am relevantesten* in einem tief kontextuellen oder zeitlich bewussten Sinne ist. Es ist, als hätte man eine Bibliothek, in der jedes Buch nur eine Sammlung von Schlüsselwörtern ist, und man kann Dinge nur finden, indem man diese Schlüsselwörter abgleicht, nicht indem man das Genre des Buches, die Absicht des Autors oder seinen Platz in einer Reihe versteht.

Wie würde also eine „multimodale“ Gedächtnisarchitektur für einen KI-Agenten aussehen? Für mich läuft es darauf hinaus, unterschiedliche Arten von Informationen zu trennen und zu strukturieren, und dann lässt man die zentrale Denkmaschine des Agenten intelligent entscheiden, welchen Gedächtnisspeicher sie konsultieren und wie sie ihn aktualisieren soll.

1. Kurzzeit-/Arbeitsgedächtnis: Der Notizblock

Das ist der unmittelbare Kontext deines Agenten. Es ist das, worüber der Agent gerade jetzt aktiv nachdenkt. Für mich ist das normalerweise eine einfache Liste der letzten Wendungen in einem Gespräch, aktuelle Aufgabenparameter und vorübergehende Beobachtungen. Es ist volatil und wird häufig gelöscht oder zusammengefasst. Denke daran, als wäre es der RAM des Agenten.

Beispiel: Wenn mein Forschungsassistent-Agent gerade den Auftrag hat „Finde Arbeiten zu Verbesserungen der Transformatorarchitektur aus 2024“, enthält sein Arbeitsgedächtnis diese spezifische Anfrage, die letzten paar Arbeiten, die er durchgesehen hat, und vielleicht ein Zeichen, das anzeigt, dass er weiterhin sucht. Dies wird in der Regel behandelt, indem die aktuelle Gesprächshistorie direkt an das LLM übergeben oder in einem einfachen In-Memory-Puffer gehalten wird.

2. Episodisches Gedächtnis: Das Ereignisprotokoll

Hier glänzen Vektordatenbanken wirklich, aber mit einer Wendung. Anstatt nur rohe Gesprächsabschnitte einzubetten, finde ich es nützlicher, Ereignisse zu *zusammenzufassen* und *zu kennzeichnen*, bevor ich sie einbettiere. Ein „Ereignis“ könnte eine Benutzerinteraktion, eine Agentenaktion, eine getroffene Entscheidung oder eine wichtige Beobachtung sein. Jedes Ereignis erhält einen Zeitstempel, eine kurze Beschreibung und vielleicht einige damit verbundene Entitäten oder Stimmungen.

Warum zusammenfassen/kennzeichnen? Weil ein rotes Gesprächstranskript zu laut sein könnte. „Der Benutzer sagte ‚das ist interessant‘ dann ‚kannst du mir mehr zeigen‘ dann ‚was ist mit X?‘“ kann zusammengefasst werden mit „Benutzer zeigte Interesse, bat um mehr Informationen und fragte dann nach X.“ Dies macht die Embeddings konzentrierter auf die *Bedeutung* der Interaktion statt auf die spezifische Formulierung. Es ermöglicht auch eine einfachere Filterung nach Tags später.


# Python Pseudocode für einen Eintrag im episodischen Gedächtnis
class EpisodicMemoryEntry:
 def __init__(self, timestamp, description, tags=None, associated_entities=None, raw_context=None):
 self.timestamp = timestamp
 self.description = description # LLM-zusammengefasstes Ereignis
 self.tags = tags if tags is not None else []
 self.associated_entities = associated_entities if associated_entities is not None else {}
 self.raw_context = raw_context # Ursprüngliche Interaktion für detaillierte Erinnerung, falls benötigt

 def to_embedding_text(self):
 # Relevante Felder für die Einbettung verketten
 return f"Ereignis am {self.timestamp}: {self.description}. Tags: {', '.join(self.tags)}. Entitäten: {self.associated_entities}"

# Beispielnutzung:
# Angenommen, 'llm_summarize_event' ist eine Funktion, die ein LLM aufruft
# um einen Gesprächsabschnitt in eine Beschreibung zu verdichten und Tags/Entitäten zu extrahieren.
conversation_chunk = "Benutzer: Ich muss diesen Bericht bis Freitag fertigstellen. Agent: Okay, wie kann ich helfen? Benutzer: Kannst du mir die aktuellen Marktentwicklungen für KI im Gesundheitswesen finden? Ich interessiere mich besonders für Finanzierungsrunden."

# LLM-Aufruf zur Verarbeitung dieses Abschnitts
summary, tags, entities = llm_summarize_event(conversation_chunk) 
# summary: "Benutzer bat um aktuelle Marktentwicklungen für KI im Gesundheitswesen, mit Schwerpunkt auf Finanzierungsrunden, bis Freitag."
# tags: ["research_request", "deadline_conscious", "healthcare_AI", "funding_rounds"]
# entities: {"topic": "KI im Gesundheitswesen", "deadline": "Freitag", "focus": "Finanzierungsrunden"}

event = EpisodicMemoryEntry(
 timestamp=datetime.now(),
 description=summary,
 tags=tags,
 associated_entities=entities,
 raw_context=conversation_chunk
)

# Dann embed event.to_embedding_text() und speichere es in der Vektordatenbank

Wenn der Agent vergangene Ereignisse abrufen muss, fragt er dieses episodische Gedächtnis ab, kann aber jetzt auch nach Tags, Entitäten oder Zeitbereichen filtern, zusätzlich zur semantischen Ähnlichkeit.

3. Semantisches Gedächtnis: Der Wissensgraph von Fakten und Überzeugungen

Dies ist vielleicht der am wenigsten entwickelte Bereich in vielen Agentenarchitekturen, aber hier kann der Agent strukturierte Fakten, Beziehungen und seine eigenen sich entwickelnden Überzeugungen oder Präferenzen speichern. Vektordatenbanken sind in Ordnung für allgemeine Fakten, aber sie sind nicht gut darin, Beziehungen darzustellen (z. B. „Alex bevorzugt X über Y“, „Projekt Z ist eine Unteraufgabe von Projekt A“).

Hier habe ich begonnen, mit Wissensgraphen zu experimentieren. Anstatt einfach alles einzubetten, benutze ich LLMs, um Tripel (Subjekt-Prädikat-Objekt) aus Interaktionen zu extrahieren und sie in einer Graphdatenbank (wie Neo4j oder sogar einer einfachen relationalen Datenbank, wenn der Graph nicht zu komplex ist) zu speichern.

Warum ein Wissensgraph? Weil er Beziehungen explizit modelliert. Wenn mein Agent lernt „Alex mag keine akademischen Arbeiten“, ist das eine direkte Beziehung. Wenn er dann lernt „KI im Gesundheitswesen sind oft akademische Arbeiten“, kann er folgern „Alex mag wahrscheinlich keine KI im Gesundheitswesen Arbeiten.“ Diese Art der Inferenz ist mit nur Vektorähnlichkeit schwer.


# Python Pseudocode zum Extrahieren und Speichern von Tripeln
def extract_and_store_triples(agent_id, text_input):
 # LLM-Aufruf zum Extrahieren von Tripeln.
 # Aufforderung: "Extrahiere faktische Tripel (Subjekt, Prädikat, Objekt) aus dem folgenden Text. 
 # Beispiel: 'Alex bevorzugt Kaffee' -> (Alex, bevorzugt, Kaffee)."
 # text_input = "Benutzer Alex erwähnte, dass er prägnante Zusammenfassungen bevorzugt und übermäßig akademische Arbeiten nicht mag."
 
 triples_str = call_llm_for_triple_extraction(text_input) 
 # Beispielausgabe: "[(Alex, bevorzugt, prägnante Zusammenfassungen), (Alex, mag nicht, akademische Arbeiten)]"

 extracted_triples = parse_triples_string(triples_str) # Konvertiere den String in eine Liste von Tupeln

 for s, p, o in extracted_triples:
 # In einer Graphdatenbank speichern (z. B. unter Verwendung eines einfachen Python-Dict für die Demonstration)
 # In einem echten System wäre dies ein Neo4j- oder ähnlicher Client-Aufruf
 graph_db_add_triple(agent_id, s, p, o) 

# Beispiel 'graph_db_add_triple' (vereinfacht)
knowledge_graph = {} # {Subjekt: {Prädikat: [Objekte]}}

def graph_db_add_triple(agent_id, s, p, o):
 if agent_id not in knowledge_graph:
 knowledge_graph[agent_id] = {}
 
 if s not in knowledge_graph[agent_id]:
 knowledge_graph[agent_id][s] = {}
 
 if p not in knowledge_graph[agent_id][s]:
 knowledge_graph[agent_id][s][p] = []
 
 if o not in knowledge_graph[agent_id][s][p]: # Duplikate verhindern
 knowledge_graph[agent_id][s][p].append(o)

# Um abzufragen: 
# Was mag Alex nicht? -> knowledge_graph[agent_id]["Alex"]["mag nicht"]

Der Agent kann dieses Graph nicht nur nach Schlüsselwörtern abfragen, sondern auch nach Beziehungen. „Was sind Alex’ Vorlieben?“ oder „Welche Aufgaben stehen in Zusammenhang mit Projekt A?“ Dies ist eine viel leistungsfähigere Möglichkeit, strukturiertes Wissen abzurufen.

4. Prozedurales Gedächtnis: Die Fähigkeitsbibliothek

Dies ist kein Gedächtnis im traditionellen Sinne, sondern eine Sammlung von Werkzeugen, Funktionen und Arbeitsabläufen, die der Agent zu nutzen weiß. Wenn ein LLM beschließt, eine Aktion auszuführen, konsultiert es diese „Fähigkeitsbibliothek.“ Das könnte eine Liste von Python-Funktionen, API-Spezifikationen oder sogar vordefinierte mehrstufige Arbeitsabläufe sein.

Meine Erfahrung: Ich habe es als nützlich empfunden, diese Fähigkeiten für das LLM mithilfe von beschreibenden Docstrings und klaren Funktionssignaturen auffindbar zu machen. Das LLM kann dann das richtige Werkzeug basierend auf dem aktuellen Ziel auswählen.


class AgentSkills:
 def search_web(self, query: str) -> str:
 """
 Durchsucht das Web nach Informationen, die mit der Anfrage in Zusammenhang stehen.
 Nützlich für Allgemeinwissen, Nachrichten und aktuelle Ereignisse.
 Args:
 query (str): Die Suchanfrage.
 Returns:
 str: Eine Zusammenfassung der Suchergebnisse.
 """
 # ... tatsächliche Implementierung der Websuche ...
 return f"Suchergebnisse für '{query}': ..."

 def analyze_document(self, document_id: str, analysis_type: str) -> str:
 """
 Analysiert ein bestimmtes Dokument für verschiedene Einsichten.
 Nützlich für Zusammenfassungen, das Extrahieren von Hauptpunkten oder Sentiment-Analysen eines Dokuments.
 Args:
 document_id (str): Die ID des zu analysierenden Dokuments.
 analysis_type (str): Art der durchzuführenden Analyse (z. B. 'Zusammenfassung', 'Stichworte', 'Sentiment').
 Returns:
 str: Das Ergebnis der Analyse.
 """
 # ... Implementierung der Dokumentenanalyse ...
 return f"Analyse des Dokuments {document_id} für {analysis_type}: ..."

 def get_user_preferences(self, user_id: str, preference_type: str = None) -> dict:
 """
 Ruft gespeicherte Präferenzen für einen bestimmten Benutzer ab.
 Nützlich zur Personalisierung von Antworten und Aktionen.
 Args:
 user_id (str): Die ID des Benutzers.
 preference_type (str, optional): Spezifische Art der abzurufenden Präferenz (z. B. 'mag nicht', 'Themen').
 Returns:
 dict: Ein Wörterbuch der Benutzerpräferenzen.
 """
 # Dies würde das semantische Gedächtnis abfragen (Wissensgraph)
 # Zur Vereinfachung hier fiktive Daten zurückgeben
 if user_id == "Alex" and preference_type == "mag nicht":
 return {"mag nicht": ["akademische Arbeiten", "ausführliche Erklärungen"]}
 return {"präferenzen": "..."}

# Das LLM würde aufgefordert werden, diese Funktionen basierend auf seinem Denken auszuwählen und aufzurufen.

Alles Zusammenbringen: Die Orchestrierungsschicht

Die wahre Magie geschieht in der Art und Weise, wie die zentrale Denkmaschine des Agents (das LLM selbst, typischerweise) mit diesen verschiedenen Gedächtnisspeichern interagiert. Es handelt sich nicht nur um ein passives Abrufsystem; der Agent muss aktiv entscheiden:

Welche Informationen benötige ich gerade jetzt?
Welcher Gedächtnisspeicher könnte diese Informationen am ehesten enthalten?
Wie sollte ich mein Gedächtnis basierend auf dieser neuen Interaktion/Beobachtung aktualisieren?

Dieser Entscheidungsprozess ist der Punkt, an dem der Agent wirklich dynamisch wird. Ich strukturiere dies normalerweise mit einer Aufforderung, die das LLM dazu anregt, laut zu denken, zu planen und dann Gedächtnisoperationen auszuführen. Es ist eine Gedankenkette, die die Interaktion mit dem Gedächtnis einbezieht.

Mein aktueller Ansatz:

Wahrnehmen: Der Agent erhält Eingaben (Benutzeranfrage, Systemereignis).
Reflektieren & Planen: Das LLM analysiert die Eingaben, berücksichtigt die aktuellen Ziele und formuliert einen Plan. Dieser Plan umfasst oft die Abfrage des Gedächtnisses.
- „Muss ich vergangene Interaktionen abrufen (episodisch)? Was sind die bekannten Präferenzen des Nutzers (semantisch)? Habe ich Werkzeuge, um dies zu erreichen (prozedural)?“
- Es könnte das episodische Gedächtnis nach ähnlichen vergangenen Situationen oder das semantische Gedächtnis nach relevanten Fakten abfragen.
Handeln: Basierend auf dem Plan und den abgerufenen Erinnerungen entscheidet das LLM über eine Aktion (z. B. eine Antwort generieren, ein Werkzeug aufrufen, das Gedächtnis aktualisieren).
Merken & Lernen: Nach einer Aktion reflektiert das LLM über das Ergebnis und aktualisiert seine verschiedenen Gedächtnisspeicher.
- Eine neue Interaktion wird zusammengefasst und dem episodischen Gedächtnis hinzugefügt.
- Neue Fakten oder Präferenzen werden extrahiert und dem semantischen Wissensgraph hinzugefügt.
- Wenn eine Strategie fehlgeschlagen ist, könnte sie einen Eintrag „gelernt“ im semantischen Gedächtnis erzeugen.

Dieser iterative Prozess ermöglicht es dem Agenten, im Laufe der Zeit ein reicheres, differenzierteres Verständnis seiner Umgebung, seines Nutzers und seiner selbst aufzubauen. Er geht über das bloße Abrufen von Fakten hinaus und bildet tatsächlich bleibende Überzeugungen und passt sein Verhalten an.

Praktische Erkenntnisse für Ihre Agentenarchitektur

Wenn Sie gerade KI-Agenten erstellen und die Grenzen einfacher RAG überschreiten, empfehle ich Folgendes:

Betrachten Sie nicht alles Gedächtnis als gleichwertig. Kategorisieren Sie die Art der Informationen, die Sie speichern müssen: kurzfristiger Kontext, Ereignishistorie, strukturierte Fakten/Präferenzen und Fähigkeiten.
Erweitern Sie Ihre Vektordatenbank. Sie ist großartig für das episodische Gedächtnis, insbesondere wenn Sie Einträge zusammenfassen und kennzeichnen. Aber machen Sie sie nicht zum einzigen Gedächtnisspeicher.
Experimentieren Sie mit Wissensgraphen für das semantische Gedächtnis. Selbst ein einfacher Tripelspeicher kann einen großen Unterschied darin machen, wie Ihr Agent strukturierte Beziehungen und Kernüberzeugungen speichert und abruft. Er ermöglicht wahre Inferenz, nicht nur Ähnlichkeitssuche.
Gestalten Sie ein aktives Gedächtnismanagement. Die zentrale Denkmaschine des Agenten (Ihr LLM-Prompt) sollte ausdrücklich Schritte für das Abfragen, Aktualisieren und Reflektieren über seine verschiedenen Gedächtnisspeicher beinhalten. Dumpen Sie nicht einfach den gesamten Kontext in einen einzigen Prompt.
Halten Sie das prozedurale Gedächtnis (Werkzeugnutzung) organisiert. Klare Beschreibungen und Beispiele für Ihre Werkzeuge helfen dem LLM, seine Fähigkeiten effektiv zu nutzen.

Wirklich intelligente Agenten zu bauen, hängt nicht nur von größeren Modellen ab; es geht um intelligentere Architekturen. Indem wir unseren Agenten ein menschlicheres Gedächtnissystem geben, können wir Agenten näherkommen, die nicht nur erinnern, sondern wirklich lernen und sich anpassen. Es ist ein herausfordernder, aber unglaublich lohnender Weg, und ich bin gespannt, wohin wir alle als Nächstes gehen werden.

🕒 Published: March 28, 2026

🧬

Written by Jake Chen

Deep tech researcher specializing in LLM architectures, agent reasoning, and autonomous systems. MS in Computer Science.

Learn more →

Über Vektorsuche hinaus: Der Bedarf an multimodalem Gedächtnis

1. Kurzzeit-/Arbeitsgedächtnis: Der Notizblock

2. Episodisches Gedächtnis: Das Ereignisprotokoll

3. Semantisches Gedächtnis: Der Wissensgraph von Fakten und Überzeugungen

4. Prozedurales Gedächtnis: Die Fähigkeitsbibliothek

Alles Zusammenbringen: Die Orchestrierungsschicht

Praktische Erkenntnisse für Ihre Agentenarchitektur

Das könnte Ihnen auch gefallen

You May Also Like

📚 You Might Also Like

Related Articles