Vertrauenskalibrierung in agentischen KI-Systemen

Vertrauenskalibrierung in agentischen KI-Systemen
Photo by Igor Omilaev / Unsplash

Agentische KI-Systeme gewinnen in Organisationen zunehmend an Bedeutung. Im Unterschied zu klassischen oder rein promptbasierten KI-Anwendungen bearbeiten sie nicht nur einzelne Aufgaben, sondern verfolgen Ziele, planen mehrere Schritte, nutzen externe Werkzeuge und können innerhalb bestimmter Grenzen selbstständig handeln. Dadurch entstehen neue Chancen, aber auch neue Herausforderungen: Nutzende müssen einschätzen können, wann sie einem solchen System vertrauen können, wann Kontrolle notwendig ist und wo die Grenzen der Verlässlichkeit liegen.


Kontext

Mit zunehmender Autonomie wird Vertrauen zu einem zentralen Gestaltungsproblem. Zu viel Vertrauen kann dazu führen, dass Nutzende auch fehlerhafte oder unpassende Ergebnisse und Handlungen des Systems nicht genügend hinterfragen. Besteht hingegen zu wenig Vertrauen, bleiben sinnvolle Anwendungsmöglichkeiten ungenutzt. Für Organisationen geht es deshalb nicht darum, möglichst viel Vertrauen aufzubauen, sondern Vertrauen angemessen zu kalibrieren. Vertrauen soll also zu den tatsächlichen Fähigkeiten, Grenzen und Risiken des Systems passen.


Ziel und Aufgabenstellung

Ziel der Bachelorarbeit war es, einen gestaltungsorientierten Beitrag zur Vertrauenskalibrierung in agentischen KI-Systemen zu leisten. Im Zentrum stand die Frage, welche Faktoren Nutzende bei der Einschätzung solcher Systeme als relevant wahrnehmen und wie diese Faktoren in konkrete Gestaltungsempfehlungen übersetzt werden können. Auf dieser Grundlage wurden Design-Prinzipien abgeleitet, die Organisationen bei der Einführung und Nutzung agentischer KI-Systeme unterstützen können.


Methodik

Die Arbeit folgt einem Design-Science-Research-Ansatz. Zunächst wurde eine Literaturrecherche durchgeführt, aus der zentrale Einflussfaktoren auf Vertrauen abgeleitet wurden. Da diese Faktoren mehrheitlich aus angrenzenden Forschungsbereichen stammen und nicht spezifisch für agentische KI-Systeme untersucht wurden, wurden sie anschliessend in acht semistrukturierten Nutzerinterviews auf diesen Kontext übertragen und konkretisiert. Die Erkenntnisse wurden über User Stories verdichtet und in acht Design-Prinzipien überführt. Abschliessend wurden die Design-Prinzipien mit vier Personen evaluiert, insbesondere hinsichtlich Verständlichkeit, Relevanz, Anwendbarkeit und Eignung zur Vertrauenskalibrierung.


Ergebnisse und Fazit

In der Arbeit wurden acht Design-Prinzipien entwickelt, die auf eine angemessene Kalibrierung von Vertrauen in agentische KI-Systeme ausgerichtet sind. Die Prinzipien zeigen, dass Vertrauen nicht allein durch technische Leistungsfähigkeit entsteht. Entscheidend ist, dass Nutzende Systemhandlungen nachvollziehen, Unsicherheiten erkennen, Handlungsspielräume verstehen und bei Bedarf eingreifen können.

Besonders deutlich wurde die Bedeutung von Activity Logs, abgestufter Autonomie, standardisierter Dokumentation und testbasierter Verifikation. Diese Elemente schaffen Orientierung und machen die Grenzen des Systems sichtbarer. Gleichzeitig zeigte sich, dass einzelne Massnahmen nicht isoliert betrachtet werden können. Vertrauenskalibrierung entsteht erst durch das Zusammenspiel von technischer Gestaltung, transparenter Interaktion und organisationaler Einbettung.

Für Organisationen bedeutet dies, dass agentische KI-Systeme nicht nur eingeführt, sondern bewusst gestaltet und begleitet werden müssen. Die entwickelten Design-Prinzipien bieten dafür eine Grundlage. Sie können helfen, erste Anwendungsfälle zu strukturieren, interne Vorgaben zu entwickeln und KI-gestützte Arbeitsprozesse so einzubetten, dass Vertrauen weder blind vorausgesetzt noch unnötig gehemmt wird.