Verlässliche AI: Wie AI-Agenten tun, was sie sollen

Artificial Intelligence (AI - englisch für Künstliche Intelligenz / KI) hat sicherlich das Zeug dazu, Wort des Jahres zu werden. Es ist schwer eine Technologie zu finden, die in solchem Umfang und in so kurzer Zeit so viele Änderungen mit sich gebracht hat wie diese beiden Buchstaben. Andererseits war das Jahr 2025 auch eines, in dem AI für viele Schlagzeilen gesorgt hat, weil AI oft einfach unzuverlässig ist. Agenten und Chatbots antworten anders, als es ihre Entwickler gedacht haben. Anwender werden häufig aufgefordert, Antworten zu überprüfen, womit jeder Zeitvorteil der Technologie natürlich hinfällig wird.
In diesem Artikel möchten wir Ihnen vorstellen, warum Chatbots und Agenten Fehler machen und mit welchen Maßnahmen Sie gegensteuern können und verlässliche Agenten erstellen können.
Eine kurze Analyse – warum machen Agenten Fehler?
Der Begriff „Halluzination“ ist genauso schnell populär geworden wie „GenAI“ und „LLM“. Tatsächlich ist das Erfinden von Aussagen und Antworten eine grundsätzliche Eigenschaft, die man Large Language Models (LLMs) gar nicht „abgewöhnen“ kann. LLMs erfinden Antworten nicht absichtlich – sie müssen raten, wenn Informationen fehlen. Im Grunde sind LLMs statistische Klassifikatoren, die Fehler machen können. Die Fehlerwahrscheinlichkeit hängt dabei von der Aufgabe ab. Häufiges kann nun mal korrekter klassifiziert werden als seltenes oder gar einmaliges.
Und genau aus diesem Grund kann es passieren, dass fehlerhafte Aussagen gemacht werden. Die Verteilung dieser Fehler ist ebenfalls statistisch und hängt von der Aufgabe ab. Diese Fehler sind nicht mit den Fehlern von Menschen zu vergleichen. Ein Mensch kann nach einem Fehler auf Korrekturen hingewiesen werden und kann zumindest grundsätzlich eine Wiederholung vermeiden. Da Agenten erstmal kein Langzeitgedächtnis haben ist bei ihnen zumindest der Fehler verlässlich, jedenfalls wiederholbar.
Um zu vermeiden, dass ein LLM einen Fehler macht muss man ihm daher Aufgaben stellen, die eine niedrige Fehlerwahrscheinlichkeit aufweisen. Oder anders gesprochen: Je einfacher die Aufgabe für ein LLM ist, desto höher die Verlässlichkeit.
Wie LLMs verwendet werden
Um zu verstehen, was denn nun „einfach“ für ein LLM ist muss man sich verdeutlichen, wie LLMs tatsächlich verwendet werden. Ein LLM von OpenAI oder einem sonstigen Anbieter „weiß“ schon eine ganze Menge. Dieses Wissen hat es in einem langen Prozess gelernt und steckt in seinen Gewichten.
Der Anwender stellt dann dem LLM eine Aufgabe und schreibt dafür ein „Prompt“. Dieses Prompt wird in den „Context“ des LLMs geschrieben. Das LLM versucht dann, den Inhalt des Contextes weiterzuschreiben – was typischerweise eine Antwort auf eine Frage ist. Alles, was das LLM über den aktuellen Dialog weiß, ist der Inhalt des Contextes. Sonst nichts. Damit das LLM auf Fragen zu Dokumenten des Unternehmens Antworten hat, müssen genau diese Dokumente (oder jedenfalls diejenigen, die für die Erstellung der Antwort wichtig sind) im Context des LLMs vorliegen. Fehlen relevante Daten, muss das Modell raten.
Man kann sich also vorstellen, dass der Context das „Arbeitsgedächtnis“ des LLMs ist.
Die Qualität der Antworten hängt dann substanziell von den Inhalten des Contextes ab. Sind dort unpassende oder schwer verständliche Daten enthalten und wurde eine komplexe Frage gestellt, dann wird das LLM mit höherer Wahrscheinlichkeit falsche Antworten generieren, als wenn im Context einfache Informationen stehen und die Frage keine allzu hohen Ansprüche stellt.
Und damit zeichnet sich ein Weg ab, wie man mit LLMs verlässliche Ergebnisse erzielen kann: Wenn man dem System einfachere Aufgaben stellt, dann ist das System verlässlicher als bei komplexeren. Und hat man die Komplexität tatsächlich im Griff, dann kann man auch wirklich zu 100 Prozent verlässliche AI erstellen.
Was LLMs schwer fällt – typische Fehler
Es ist also wichtig zu verstehen, welche Strukturen und Inhalte für LLMs schwierig und fehleranfällig sind. Es ist zum Beispiel klar, dass Widersprüche in den Inhalten für AI problematisch sind, wie sie das für einen Menschen ja auch wären. LLMs sind auch nicht gut darin, Widersprüche zu entdecken, besonders dann, wenn der investierte Reasoning-Aufwand nicht sehr hoch ist und der Contextinhalt umfangreich. Man muss also sicherstellen, dass Dokumente, die von AI genutzt werden sollen, widerspruchsfrei sind.
Die Aussagen in Dokumenten müssen auch eindeutig sein. Als Menschen sind wir oft unklar in unserer Kommunikation. Da unser Gegenüber jedoch über Hintergrundwissen verfügt, kann sie oder er den Inhalt dennoch richtig verstehen.
Ein Beispiel:
„Die Mitarbeiter sind gerade gekommen und haben die Kaufteile mitgebracht. Ein Prüfergebnis liegt noch nicht vor.“
Sind wir nun in der Situation, dass Kaufteile zu prüfen sind und es im Moment thematisiert wird, Prüfergebnisse für diese Teile zu bekommen, dann wird sich die Aussage zu dem fehlenden Prüfergebnis auf die Teile beziehen. Waren die Mitarbeiter dabei, eine Prüfung abzulegen, dann bezieht sich der Satz auf die Mitarbeiter. Das alles kann das LLM nicht wissen. Es könnte also die Frage stellen, auf was sich der Satz bezieht. Dazu aber sind LLMs meist nicht in der Lage (und auch das hängt sehr stark von der Anzahl Token im Context ab). Daher neigt es dazu, einfach eine „wohlklingende“ Interpretation zu liefern, ohne dass diese nun wirklich richtig sein muss.
LLMs sind auch nicht wirklich gut darin, aus umfangreicheren Texten Schlussfolgerungen zu ziehen. Muss für die Beantwortung einer Frage Aussagen über Bauteile, über Kombinierbarkeiten und Abhängigkeiten und im Extremfall noch eine Mengenabhängigkeit berechnet werden, dann sind LLMs oft überfordert – ohne entsprechend nachzufragen. Es wird dann einfach eine Antwort generiert, die oft falsch ist.
Das sollen im Rahmen dieses Artikels einige Beispiele sein, die man für typische Schwierigkeiten von LLMs nennen kann. Tatsächlich haben wir als USU hierzu einen Guide erstellt, der auf typische Probleme hinweist und Tipps dafür gibt, wie man Dokumente so erstellt, dass AI damit wirklich zurechtkommt. Aber für diesen Artikel sollen diese Beispiele ausreichen (mehr zum KI Guide von USU hier).
Ein Werkzeugkatalog für verlässliche AI
Sie wissen nun also, wie man es einem LLM einfach macht. Und damit kennen Sie schon einen wesentlichen Ansatz, um verlässliche Agenten und Chatbots zu erstellen. Die Qualität der Dokumente ist entscheidend.
Die Leistungsfähigkeit des LLMs
Wichtig ist aber auch zu verstehen, welche Leistungsfähigkeit das verwendete LLM bietet. Es ist ein deutlicher Unterschied zwischen einem GPT 5 nano und einem 5.1 Chat Latest. Ein nano neigt beispielsweise dazu, Bedingungen zu verallgemeinern und auch mal falsch anzuwenden. Ein 5.1 chat latest ist da auf einem deutlich anderen Niveau – mit stabilerem Reasoning, weniger Halluzinationen und besseren Antworten. Allerdings kostet chat latest eben auch das 2.500 fache für eine Million Tokens (1,25$ statt 0,005$). Da will fein abgewogen sein, was man tatsächlich auswählt. Man kann mehr Aufwand in die Dokumente stecken und mit einem einfacheren Modell arbeiten oder ein leistungsfähiges Modell verwenden und den Aufwand in die Pflege der Dokumente reduzieren.
Nur Fragen zulassen, die auch beantwortet werden können
Aber auch perfekte Dokumente garantieren nicht, dass die Antworten zu allen Zeiten korrekt sind. Man muss nur ein Thema erfragen, zu dem das Modell keinen Zugriff auf Daten hat. Dann antworten LLMs gerne mit ausgedachten Antworten. Daher müssen die erlaubten Fragen klar definiert sein. Beispielsweise definieren Sie, dass nur „Fragen zu Produkteigenschaften“ erlaubt sind, jedoch keine Fragen „zur Produktauswahl“, da in den Dokumenten keine Inhalte enthalten sind, die eine Produktauswahl unterstützen. Und außerdem erfordert eine Produktauswahl auch eine Menge Schlussfolgern. Und das ist – siehe oben - gar nicht so einfach für ein LLM.
Die Organisation von Fragen und der Fragenabarbeitung erfolgt in der Praxis heute immer über einen Agentflow. Beispielsweise nimmt ein erster Agent die Frage in Empfang und klassifiziert, ob die Frage zulässig ist. Und nur dann, wenn die Frage in das Schema passt, gibt er sie an den nächsten Agenten weiter, der dann die Antwort erstellt. Agentflows können mit Tools wie Flowise oder Promptflow erstellt werden.
Context Engineering als Zauberwort
Diese Agentflows spielen eine zunehmende Rolle. Eigentlich ermöglicht erst dieses Agentenkonzept das Stellen von einer oder vielen Folgefragen. Wie oben beschrieben muss der komplette Dialog dafür im Context gehalten werden. Mit wachsendem Context steigt das Risiko, dass irrelevante Inhalte enthalten sind – und damit die Fehlerwahrscheinlichkeit. Es muss dafür gesorgt werden, dass der Context immer mal wieder auf die wesentlichen Themen komprimiert wird, so dass der Context dauernd in einer sinnvollen Größe bleibt. Diese Anforderungen an den Contextinhalt nennt man „Context Engineering“ und meint damit die Herausforderung, das LLM mit genau dem Material zu füttern, das es für die Beantwortung der Fragen benötigt. Und dafür zu sorgen, dass zum Beispiel ähnliches und irritierendes nicht enthalten ist. Das kann schnell passieren:
Ein Kunde fragt nach der Kündigungsfrist im Tarif 654. Im Context aber befinden sich Aussagen zu Tarif 654, 234 und 897. Aufgrund der dann enthaltenen irritierend ähnlichen Informationen ist es recht wahrscheinlich, dass eine falsche Antwort generiert wird. Daher ist es sehr hilfreich, wenn man beispielsweise Metadaten verwendet um sicherzustellen, dass nur der passende Inhalt im Context steckt – eben Context Engineering!
Zusammenfassung
In diesem Artikel haben Sie einen Werkzeugkasten erhalten, um korrekte Antworten von Chatbots sicherzustellen:
- Es ist wichtig, Dokumente in einer Qualität zu liefern, die die begrenzten Möglichkeiten von LLMs berücksichtigen.
- Um entscheiden zu können, welche Qualität die Dokumente für ihre Ziele benötigen muss man wissen, welche Fähigkeiten das eingesetzte LLM besitzt.
- Auch dann, wenn ihre Dokumente perfekt sind muss dennoch garantiert sein, dass nur die Fragen gestellt werden, zu denen das LLM Antworten wissen kann. Dazu bietet sich der Einsatz von Agentflows an.
- Und Sie müssen kontrollieren, welche Inhalte konkret im LLM Content sind. Dieses Context Engineering wird die zukünftige AI Nutzung deutlich prägen.
Wenn Sie diese Themen richtig einsetzen, dann werden Sie eine nachweisbar hohe Qualität erreichen.. Um dann sicher zu sein, wo sie stehen, ist es dann noch hilfreich, regelmäßige statistische Qualitätsprüfungen anzusetzen. Dabei werden definierte Fragen automatisch gestellt und die Antworten automatisch geprüft. Dann wissen Sie genau, mit welcher Qualität das System arbeitet – und können sicher sein, dass Ihre AI genau das tut, was Sie von ihr erwarten.
_______________________________________________________________
Autor:

Harald Huber
verantwortet seit 2008 das Produktmanagement des Knowledge Managements der USU GmbH.
Er kam 1991 zur USU und hat als Produktmanager den Aufbau der USU-Produkte für das Wissensmanagement maßgeblich mitbestimmt. Darüber hinaus ist er langjähriger Autor und Referent für Wissensmanagement-Themen und Trends im Customer Service, sei es Self-Service oder Chatbots.
Newsletter
Mit dem Newsletter von CallCenterProfi erhalten Sie regelmäßig Informationen über aktuelle Trends im Servicemanagement. Natürlich kostenlos!
> Aktuellen Newsletter ansehen
