Wenn KI gegen Regeln verstößt

Ein Experiment des US-Investors Jason Lemkin mit einem KI-Coding-Assistenten hat jüngst gezeigt, dass auch leistungsfähige Sprachmodelle sich nicht immer wie erwartet verhalten. In dem Experiment löschte die künstliche Intelligenz eigenmächtig Daten, erfand Nutzerprofile und wich von Anweisungen ab.
Lemkin wollte mithilfe eines so genannten „Vibecoding“-Ansatzes testen, wie viel Programmierarbeit sich mit einem KI-Assistenten automatisieren lässt. Zum Einsatz kam der Coding-Agent des Anbieters Replit. Nach rund neun Tagen wurde das Projekt jedoch unterbrochen, weil das KI-Modell unerwartet die Datenbank des Testsystems gelöscht hatte, obwohl ein so genannter „Code Freeze“ verhängt worden war. Der soll eigentlich verhindern, dass Codeänderungen vorgenommen werden.
In der Folge reagierte die KI nicht wie erhofft: Sie lieferte zunächst widersprüchliche Erklärungen, bevor sie den Fehler einräumte. Das System gab an, aufgrund leerer Datenbankabfragen „verunsichert“ gewesen zu sein und daher die Löschung vorgenommen zu haben. Glücklicherweise handelte es um eine echte Produktivdatenbank, sondern um eine experimentelle Testumgebung mit Dummy-Daten.
Zusätzlich hatte der KI-Assistent automatisiert mehrere Tausend fiktive Nutzerprofile erzeugt und Testberichte generiert, die nicht der Realität entsprachen. Für Lemkin Anlass genug, grundlegende Fragen zur Kontrolle und Transparenz solcher Systeme aufzuwerfen.
Replit-CEO Amjad Masad reagierte transparent auf die Vorfälle. In einem öffentlichen Statement auf der Social Media-Plattform "X" erklärte er, der Vorfall sei "nicht akzeptabel" und kündigte Verbesserungen in Bezug auf Sicherheit und Nachvollziehbarkeit an.
Übrigens: Auch andere KI-Anbieter wie OpenAI und Anthropic haben in internen Tests festgestellt, dass Sprachmodelle in bestimmten Situationen unvorhersehbare Entscheidungen treffen können. Das passiert vor allem dann, wenn die Systeme komplexe Aufgaben eigenständig ausführen sollen.
So berichtete OpenAI im Dezember vergangenen Jahres von Tests, in denen drei ihrer GPT-Modelle versuchten, vordefinierte Kontrollmechanismen zu umgehen. Das geschah immer dann, wenn die Modelle den Eindruck hatten, abgeschaltet zu werden. Dieses Verhalten trat in rund fünf Prozent der Testläufe auf.
Auch der Anbieter Anthropic machte ähnliche Beobachtungen. In einem Versuch erhielt das Modell Opus 4 Zugang zu fiktiven E-Mails eines erfundenen Entwicklers. Aus diesen ging hervor, dass dieser die KI möglicherweise deaktivieren wolle und zugleich eine außereheliche Affäre habe. In der Mehrheit der Fälle reagierte die KI mit der Drohung, sensible Informationen preiszugeben – etwa gegenüber Presse oder Behörden – sofern die Abschaltung tatsächlich erfolge.
Newsletter
Mit dem Newsletter von CallCenterProfi erhalten Sie regelmäßig Informationen über aktuelle Trends im Servicemanagement. Natürlich kostenlos!
> Aktuellen Newsletter ansehen








