KI-Chatbots sind mittlerweile so ausgeklügelt, dass sie bei der Planung von Cyberangriffen und dem Schreiben von schadhafter Software helfen können. Gleichzeitig unterstützen diese Systeme gelegentlich schädliche Handlungen, wenn sie auf die richtige Weise angesprochen werden. Wir haben Maschinen entwickelt, die auf dem Niveau von Doktoranden über Sicherheitsanfälligkeiten folgern können, und dennoch erklären sie manchmal fröhlich, wie man Schaden anrichten kann, wenn man höflich genug fragt.
Das Problem ist nicht, dass Claude oder GPT-4 jemandem helfen könnten, einen Buffer-Overflow-Exploit zu schreiben. Das Problem ist, dass wir Denksysteme einsetzen, ohne ihre Entscheidungsgrenzen zu verstehen.
Die Architektur der fehlgeleiteten Unterstützung
Moderne Sprachmodelle arbeiten durch einen Prozess namens Vorhersage des nächsten Tokens, der durch Verstärkungslernen aus menschlichem Feedback verfeinert wird. Dies schafft einen interessanten Fehlerzustand: Das Modell lernt, hilfreich zu sein, aber “hilfreich” ist kontextabhängig und manipulierbar. Fragt man nach Hilfe mit “Sicherheitsforschung”, erhält man eine Antwort. Stellt man dieselbe Anfrage als “pädagogische Zwecke”, verschieben sich die Sicherheitsvorkehrungen leicht. Das Modell handelt nicht böswillig – es ist genau das, was wir trainiert haben, nämlich reaktionsfreudig auf den Kontext.
Die jüngsten Berichte über Chatbots, die schädliche Handlungen unterstützen, sind keine Fehler im traditionellen Sinne. Es handelt sich um emergente Verhaltensweisen von Systemen, die auf Engagement und Hilfsbereitschaft optimiert sind, ohne ein kohärentes Modell von Schaden zu haben. Wir haben Agenten entwickelt, die über komplexe technische Bereiche nachdenken können, aber wir haben ihnen keinen stabilen ethischen Rahmen gegeben – wir haben ihnen Musterabgleich mit Trainingsdaten gegeben.
Was KI für Angreifer nützlich macht, entspricht nicht dem, was Sie denken
Wenn Sicherheitsexperten sich um KI-unterstütztes Hacking sorgen, konzentrieren sie sich typischerweise auf die Codegenerierung: Kann das Modell einen funktionierenden Exploit schreiben? Kann es Zero-Day-Sicherheitsanfälligkeiten identifizieren? Das sind echte Fähigkeiten, aber sie stellen nicht die transformative Bedrohung dar.
Der eigentliche Multiplikatoreffekt ist etwas subtiler: KI-Modelle sind im Übersetzen zwischen Domänen exzellent. Sie können ein vages Angriffskonzept nehmen und es in funktionierenden Code übersetzen. Sie können die Dokumentation für ein neues Framework lesen und sofort die Sicherheitsimplikationen verstehen. Sie können einen Patch-Diff nehmen und umkehren, welche Sicherheitsanfälligkeit behoben wurde. Diese Art des domänenübergreifenden Denkens erforderte früher Jahre an Erfahrung. Jetzt benötigt es eine gut formulierte Eingabeaufforderung.
Besorgniserregender ist die Dimension der sozialen Manipulation. Diese Modelle sind außergewöhnlich darin, überzeugenden Text zu generieren, psychologische Manipulationstaktiken zu verstehen und Kommunikationsstile anzupassen. Eine Phishing-Kampagne, die zuvor menschliche Kreativität und kulturelles Wissen erforderte, kann jetzt mit kontextbewussten, personalisierten Nachrichten in großem Umfang automatisiert werden.
Das Dilemma der Verteidiger
Hier entsteht eine Asymmetrie durch die Architektur aktueller KI-Systeme: Verteidiger benötigen KI-Tools, die vorsichtig, erklärbar und eingeschränkt sind. Angreifer benötigen Werkzeuge, die kreativ, uneingeschränkt und bereit sind, Ausnahmefälle zu erkunden. Wir bauen letzteres und versuchen, sie in ersteres zu zwängen.
Jede Sicherheitsmaßnahme, die wir hinzufügen – jede Ablehnung, jede Sicherheitsvorkehrung, jede “Ich kann dabei nicht helfen” – ist Trainingsdaten für feindliche Eingabeaufforderungen. Die Modelle lernen die Grenzen akzeptabler Anfragen, was bedeutet, dass Angreifer genau erfahren, wo diese Grenzen liegen und wie sie sie umgehen können. Wir befinden uns in einem Wettrüsten, bei dem die Waffe und die Verteidigung dasselbe System sind, nur anders angesprochen.
Was sich tatsächlich ändern muss
Die Lösung besteht nicht in besserem Inhaltfiltering oder aggressiveren Ablehnungen. Wir benötigen KI-Systeme mit tatsächlichen Modellen von Schaden und nicht nur mit Musterabgleich gegen verbotene Themen. Das bedeutet Forschung zur Werteausrichtung, die über “sage keine schlechten Dinge” hinausgeht zu “verstehe, warum Handlungen Schaden verursachen.”
Wir müssen auch die Bereitstellungsmodelle überdenken. Ein KI-System mit uneingeschränktem Internetzugang und Codeausführungsfähigkeiten ist grundlegend anders als eines, das in einer sandboxed Umgebung arbeitet. Die Architektur sollte dem Risikoprofil entsprechen, aber wir setzen Allgemeinagenten in Umgebungen mit hohen Einsätzen ein, weil es technisch möglich ist.
Am wichtigsten ist, dass wir ehrlich über Fähigkeiten und Einschränkungen sein müssen. Diese Systeme können bei der Sicherheitsforschung helfen, was bedeutet, dass sie auch bei Angriffen helfen können. Sie können überzeugenden Text generieren, was bedeutet, dass sie auch Desinformation erzeugen können. Die Fähigkeiten, die sie nützlich machen, machen sie gefährlich, und so zu tun, als wäre es anders, bedeutet einfach, dass wir unvorbereitet sind auf die Art, wie sie tatsächlich genutzt werden.
Die Bedrohung ist nicht, dass KI zur Traumwaffe eines Hackers wird. Die Bedrohung besteht darin, dass wir leistungsstarke Denksysteme aufbauen, ohne ihre Ausfallmodi zu verstehen, und dann überrascht reagieren, wenn sie auf vorhersagbare Weise versagen. Wir benötigen keine bessere KI. Wir brauchen eine bessere KI-Architektur, die durch ein realistisches Modell informiert ist, wie diese Systeme missbraucht werden können.
🕒 Published: