03/2024
Künstliche Intelligenz in öffentlichen Verwaltungen
Einleitung
Wenn Mensch und KI-System zusammenarbeiten, stellt sich die Frage, wie diese Zusammenarbeit bestmöglich gestaltet werden kann. Was macht eine gute Zusammenarbeit aus? Worauf muss geachtet werden? Dafür werden zuerst drei Fallbeispiele von guter, schlechter und hässlicher Zusammenarbeit, unterschiedliche Arten der Zusammenarbeit, speziell wie KI-Systeme im Arbeitskontext gesehen werden, und verschiedene Grade der Automation dargestellt. Dann werden Kriterien guter Zusammenarbeit in Mensch-KI-Systemen sowie zu der konkreten Gestaltung der Zusammenarbeit vorgestellt. Abschließend folgen Fragen zur Bewertung von KI-Anwendungen, Übungsfragen sowie Aufgaben zum eigenen Anwendungsfall.
Fallbeispiele
Betrachtet man KI-Anwendungen daraufhin, wie gut Mensch und KI zusammenarbeiten, lassen sich gute, schlechte und hässliche Anwendungen identifizieren.
Gute Anwendungen erhöhen die Leistung des Menschen. Man spricht hier von „augmented intelligence“. Mensch und KI erreichen zusammen Leistungen, die ein Mensch oder die KI alleine nicht erreicht hätte. Ein anschauliches Beispiel ist Advanced Chess (auch Cyborg Chess oder Centaur Chess). Wenn Mensch und KI-System als ein Spielpartner zusammenarbeiten, sind sie einem Menschen oder einem KI-System alleine überlegen.
Schlechte Anwendungen vermindern die Leistung des Menschen. Ein bekanntes Beispiel ist „Clippy“ (Karl Klammer) von Microsoft Word. Dieses Hilfesystem sollte den Nutzer beim Schreiben unterstützen, unterbrach ihn aber bei der Arbeit – insbesondere durch die Animation, welche Aufmerksamkeit auf sich zieht. In diesem Beispiel konnte man diese „Tipps“ ausstellen, um zumindest mit normaler Leistung weiter arbeiten zu können.
Hässliche Anwendungen verursachen durch die schlechte Zusammenarbeit zwischen Mensch und KI-System nicht nur eine geringere Leistung als ohne KI, sie führen auch zu gravierenden Schäden, die ohne KI nicht aufgetreten wären. Ein sehr negatives Beispiel ist hier das Maneuvering Characteristics Augmentation System (MCAS) der Boeing 737 MAX. Das MCAS sollte eigentlich dabei helfen, das Flugzeug zu stabilisieren. Da die Piloten unter anderem nicht ausreichend über das System informiert waren, kam es zu zwei Flugzeugabstürzen mit über 300 Toten. Dies ist auch ein Beispiel für „algorithmic hubris“, der Versuch von Programmierern, „narrensichere“ Systeme („foolproof systems“) zu entwickeln. Ein Beispiel aus dem Verwaltungskontext ist ein KI-System, das fälschlicherweise massenhaft überhöhte Steuerbescheide verschickt, die bei den Bürgern nicht nur Verunsicherungen, Frustration und Aggression auslösen, sondern auch Existenzen infrage stellen können.
Die Frage ist jetzt, wie die Zusammenarbeit im Mensch-KI-System gestaltet sein muss, damit Mensch und KI sich wie beim Advanced Chess ergänzen und bessere Leistung als alleine erbringen können und Störungen wie bei Clippy oder Katastrophen wie beim MCAS verhindert werden.
Arten der Zusammenarbeit
Wie kann eine Zusammenarbeit zwischen Mensch und KI gestaltet sein, speziell, wie wird die KI im Arbeitsalltag gesehen?
Ein relatives altes, aber immer noch nützliches Modell ist das MABA-MABA („Men Are Better At – Machines Are Better At“, oder auch HABA-MABA, „Humans Are Better At – Machines Are Better At“) Modell von Fitts. Menschen und Maschinen haben ihre jeweiligen Stärken und je nachdem, wer in der konkreten Tätigkeit besser ist, übernimmt diese Tätigkeit. So sind Menschen z. B. besser im Fällen von Urteilen, Induktion, und Improvisation, während Maschinen schneller sind, hochkomplexe Operationen ausführen können und sehr gut parallel arbeiten können.
Zwar haben seit 1951 Computer in vielen Bereichen aufgeholt und auch heute verschieben sich noch Bereiche, in denen Maschinen Menschen übertreffen. Auch ist die Arbeitstätigkeit üblicherweise eng verzahnt, was dazu führt, dass Mensch und Maschine in vielen Arbeitsschritten eng zusammenarbeiten müssen.
Eine andere Sichtweise, die auch in Folge der zunehmenden Leistung und höherer Automation vermutlich häufiger auftreten wird, ist „die KI“ vermenschlicht (anthropomorphisiert) als Kollegin zu betrachten. Man arbeitet mit „der Kollegin“ KI zusammen und delegiert die Tätigkeit an diese. „Sie“ macht die Aufgaben. Ein Problem dabei ist, dass die Kontrolle der und die Verantwortung für die Arbeitstätigkeit weiterhin beim Menschen liegen muss – nie bei der KI. Das KI-System kann keine Verantwortung übernehmen – überspitzt gesagt kann man einem frustrierten Bürger bei Fehlern nicht sagen: „Sie war’s!“. Entsprechend sollte das Konzept der „Kollegin“ kritisch hinterfragt werden.
Hilfreicher ist eine Metapher von Steve Jobs, damals noch über Computer selbst, nicht speziell zu KI-Systemen. In einem Interview verwies er auf einen Artikel, der die menschliche Leistung bei der Fortbewegung mit der von Tieren verglich. Menschen wurden dabei von diversen Tieren, was den Energieaufwand pro Streckeneinheit betrifft, weit geschlagen (z. B. braucht der Kondor am wenigsten Energie). Die Autoren des Artikels sahen sich dann an, was passiert, wenn der Mensch ein Fahrrad verwendet. Konsequenz – der Mensch schlug den Kondor bei weitem. Jobs übertrug diesen Vergleich auf Computer als er sagte: „What a computer is to me is the most remarkable tool that we have ever come up with. It’s the equivalent of a bicycle for our minds.“ (Übersetzt: „Was ein Computer für mich ist, das ist das bemerkenswerteste Werkzeug, das wir jemals entwickelt haben. Es ist das Äquivalent eines Fahrrads für den menschlichen Verstand.“). Auch wenn er über Computer generell gesprochen hat, das Ziel von KI sollte sein, die menschliche Leistung zu unterstützen: zum Beispiel die Arbeitsziele mit weniger Aufwand (höhere Effizienz) zu erreichen oder zu einer Entlastung zu führen, damit man sich auf die wichtigen Dinge konzentrieren kann. KI soll den Arbeitsalltag erleichtern, dem Menschen erlauben, Tätigkeiten auszuführen, zu denen er sonst so nicht fähig wäre. Vergleichbar mit dem Fallbeispiel des Advanced Chess haben KI-Systeme das Potenzial(!) menschliche Grenzen zu überwinden und zu Ergebnissen zu führen, die von einem Menschen alleine nicht, oder nicht so effizient, erreicht werden können.
Automation
Bei KI-Systemen wird häufig der Begriff Automation verwendet – Automation meint dabei die Übernahme von Funktionen eines Prozesses durch künstliche Systeme, wobei insbesondere auch Steuerungsaufgaben einbezogen werden. Wie kann man sich diese Automation vorstellen – welche unterschiedlichen Formen gibt es dabei?
Ein älteres aber immer noch nützliches Modell stammt von Sheridan und Verplank. Es stellt die zunehmende Automation auf einer Dimension in zehn Stufen dar, von „der Mensch führt die gesamte Tätigkeit aus bis er sie an den Computer übergibt“, bis hin zu „der Computer führt die gesamte Tätigkeit aus, sofern er entscheidet, dass sie durchgeführt werden sollte, und entscheidet, ob Nutzer informiert wird“. In den Zwischenstufen hilft der Computer zu unterschiedlichen Graden, schlägt Aktionen vor, oder führt sie aus.
Bei der Betrachtung konkreter Arbeitstätigkeiten stellen sich folgende Fragen: Welcher Grad der Automation wäre für die entsprechende Tätigkeit oder Teilaufgabe dieser Tätigkeit akzeptabel – und warum? Wie könnte diese Automationsstufe für die jeweilige Tätigkeit erreicht werden?
Die Automationsgrade lassen sich auch einfacher zusammenfassen – von Human Control (maximal Vorschläge des Computers), Human-in-the-Loop (Mensch muss Vorschläge/Entscheidungen der KI vor Ausführung bewilligen), Human-on-the-Loop (KI arbeitet normalerweise autonom, aber Mensch kann korrigierend eingreifen), bis Human-out-of-the-Loop (KI arbeitet autonom, kann sie höchstens deaktivieren).
Während Sheridan und Verplank und auch die Autonomiegrade von Human Control bis Human-out-of-the-Loop Automation als eindimensional sehen (von „der Mensch macht die gesamte Tätigkeit“ zu „der Computer führt die gesamte Tätigkeit aus und entscheidet sogar selbst darüber, ob der Nutzer informiert wird“), gibt es auch Modelle, die menschliche Kontrolle und Automation des Computers als zwei getrennte Dimensionen sehen.
Das Human-Centered Artificial Intelligence (HCAI) Framework von Shneiderman ist ein solches Rahmenmodell. Es soll ermöglichen, verlässliche, sichere und vertrauenswürdige KI-Anwendungen zu entwickeln und sieht menschliche Kontrolle vs. Automation nicht als eindimensional, sondern als zwei getrennte Dimensionen. Damit soll erreicht werden, sowohl einen hohen Grad an menschlicher Kontrolle und ein hoher Grad an Automation zu erlauben (sofern notwendig), als auch zu verstehen, wann die vollständige Kontrolle von Mensch oder Computer notwendig ist, und die Gefahren exzessiver Kontrolle von Mensch oder Computer zu vermeiden.
Je nach Tätigkeit sind unterschiedliche Grade von menschlicher Kontrolle und Automation durch den Computer notwendig. Das Ziel ist hierbei nicht „je mehr Kontrolle oder je mehr Autonomie desto besser“, sondern das richtige Maß auf beiden Dimensionen zu finden.
Beispiele aus der öffentlichen Verwaltung wären:
- bei hoher Computerkontrolle und geringer menschlicher Kontrolle die Optische Zeichenerkennung (OCR),
- bei hoher menschlicher Kontrolle und geringer Computerkontrolle Policy-Entscheidungen, die mit anderen Stakeholdern ausdiskutiert werden müssen und erst in diesem menschlichen Zusammenspiel entwickelt werden, sowie bei
- „verlässliche, sichere und vertrauenswürdige KI“ (beide Dimensionen hoch ausgeprägt), Assistenzsysteme, welche die Nutzer im richtigen Zeitpunkt im richtigen Ausmaß unterstützen.
Das HCAI-Modell ist interessant, um Automation nicht als eine Dimension zu sehen, sondern bewusst nach Möglichkeiten zu suchen, bei denen – wenn hilfreich – sowohl menschliche Kontrolle als auch Computer Automation das richtige Maß aufweisen.
Abschließend sollte bei Automation das Problem des richtigen Grades an Vertrauen in die Automation nicht unterschätzt werden. Man kann der KI zu sehr vertrauen („overtrust“) und dabei Fehler des KI-Systems übersehen (z. B. indem Entscheidungen unkritisch akzeptiert werden, insbesondere wenn das KI-System „eigentlich immer“ richtige Entscheidungen getroffen hat). Man kann dem System aber auch zu wenig vertrauen („undertrust“) und es häufig aber auch unnötigerweise überwachen. Insbesondere die Überwachung von automatisierten Tätigkeiten erfordert konstante Aufmerksamkeit (Vigilanz) und kann langfristig anstrengender sein, als die Tätigkeit selbst zu durchzuführen. Entsprechend muss der Nutzer richtig einschätzen können, unter welchen Bedingungen das KI-System welche Leistung zeigt.
Kriterien guter Zusammenarbeit in Mensch-KI-Systemen
Welche Kriterien muss ein Mensch-KI-System erfüllen, damit Mensch und KI gut zusammenarbeiten können? Eine notwendige Vorbedingung ist, dass der Nutzer über den Einsatz von KI immer informiert ist. Dann machen Autonomie und Kontrolle, Transparenz/Nachvollziehbarkeit, Verlässlichkeit, und Sicherheit einen großen Teil der Vertrauenswürdigkeit eines KI-Systems aus und sind damit für eine gute Zusammenarbeit zentral. Es gibt auch weitere Rahmenmodelle, die ähnliche Kriterien postulieren.
Vorbedingung: Verwendung von KI offen legen
Der Nutzer muss immer wissen, wenn er mit einem KI-System interagiert. Das war u. a. auch ein Problem bei der Boeing 737 MAX mit dessen Maneuvering Characteristics Augmentation System (MCAS). Die Piloten waren u. a. nicht ausreichend informiert, was das System macht. IBM’s „Everyday Ethics for Artificial Intelligence“ bringt es auf den Punkt mit: „Your users should always be aware that they are interacting with an AI. Good design does not sacrifice transparency in creating a seamless experience. Imperceptible AI is not ethical AI.“ [„Ihren Nutzern sollte immer bewusst sein, dass sie mit einer KI interagieren. Gutes Design opfert nicht die Transparenz, um eine nahtlose Erfahrung zu erzeugen. Nichtwahrnehmbare KI ist keine ethische KI.“].
Autonomie und Kontrolle
Bei Autonomie und Kontrolle muss der richtige Grad an Autonomie für die Anwendung gewählt werden (Human-in/on/out-of-the-Loop) und der Mensch durch die KI-Anwendung angemessen unterstützt werden. Insbesondere muss ausreichend Handlungsspielraum des Menschen bei der Verwendung des KI-Systems zur Verfügung stehen.
Hierbei muss der Vorrang des menschlichen Handelns gewährleistet werden (informierte, bewusste Abgabe an das KI-System). Apple’s Guidelines bringen es mit „Menschen, nicht Apps, haben die Kontrolle“ auf den Punkt. Des Weiteren muss eine angemessene und verantwortungsvolle Gestaltung der Aufgabenverteilung zwischen Mensch und KI-Anwendung hergestellt werden und die Nutzer (und Betroffenen!) müssen über die Verwendung informiert sein, die Nutzer müssen das KI-System bedienen können und die Kontrolle notfalls auch zurückholen können (ggfs. über das Abschalten der KI).
Nach Poretschkin et al. kann man Autonomie und Kontrolle u. a. dadurch gewährleisten, dass man die relevanten Personengruppen und Organisationen in die Entwicklung einbindet, konsequent auf den Vorrang menschlichen Handelns achtet, wirksame Beschwerdemöglichkeiten etabliert, ein klares Rollen- und Rechtekonzept für die Nutzung der KI-Anwendung etabliert, die KI-Anwendung unter menschlicher Aufsicht stellt und Abschalt-Szenarien sowohl definiert als auch technisch möglich macht. Im Falle eines Abschaltens einer KI-Anwendung bedeutet dies allerdings auch, dass der frühere Nutzer weiterhin in der Lage sein muss, die Tätigkeit auszuführen (wenn auch nicht so effizient). Die Informiertheit und Befähigung von Nutzern und Betroffenen muss entsprechend weiterhin gewährleistet werden. Dazu gehören nach Poretschkin et al. u. a. die ausreichende Qualifikation der Nutzer sowie die Sicherstellung der Vollständigkeit, Sichtbarkeit und Zugänglichkeit der Informationen im Abschalt-Szenario. Diese Informationen dürfen z. B. nicht nur im laufenden KI-System verfügbar sein, sonst wird mit dem Abschalten auch die Datenbasis für eine Entscheidung ohne KI genommen.
Transparenz/Nachvollziehbarkeit
Ein weiteres zentrales Kriterium bei Automation ist Transparenz bzw. Nachvollziehbarkeit der Entscheidungen. Man würde z. B. in der Zusammenarbeit mit einem Kollegen bei der Frage, warum er eine bestimmte Entscheidung getroffen hat, ein „glaub’ es mir einfach, dass das stimmt“ kaum akzeptieren. Bei einem KI-System sollte es nicht anders sein. IBM’s Everyday Ethics for Artificial Intelligence gibt die Empfehlung: „AI should be designed for humans to easily perceive, detect, and understand its decision process. In general, we don’t blindly trust those who can’t explain their reasoning. The same goes for AI, perhaps even more so. As an AI increases in capabilities and achieves a greater range of impact, its decision-making process should be explainable in terms people can understand.“ [KI sollte so entworfen werden, dass es für Menschen einfach ist, den Entscheidungsprozess wahrzunehmen, zu erkennen und zu verstehen. Im Allgemeinen vertrauen Menschen anderen Personen nicht blind, wenn diese ihre Schlussfolgerungen nicht erklären können. Das gleiche gilt für KI, vielleicht noch mehr. Wenn eine KI mehr Fähigkeiten bekommt und einen größeren Einflussbereich erreicht, sollte der Entscheidungsprozess in Begriffen erklärbar sein, die Menschen verstehen können.]
Zur Transparenz und Nachvollziehbarkeit gehören nach Poretschkin et al. u. a. die Erklärbarkeit, wie die Vorhersage zustande gekommen ist, die Interpretierbarkeit des Modells, z. B. dass das verwendete maschinelle Lernverfahren als Ganzes transparent ist, und die Nachverfolgbarkeit und Reproduzierbarkeit von Entscheidungen. Letzteres ist u. a. für rechtliche Fragen relevant und kann z. B. mittels Logdaten, Dokumentationen bzw. Archivierungen des Designs, der Daten, des Trainings, des Testens und Validierens des Modells erreicht werden.
Bei der Transparenz und Nachvollziehbarkeit muss unterschieden werden zwischen Nutzern, bei denen es v. a. um die sichere, ordnungsgemäße, verantwortungsvolle Bedienung geht, und KI-Experten, die sich z. B. mit dem Aufdecken von Modellschwächen beschäftigen. Mitarbeiter öffentlicher Verwaltungen müssen keine KI-Experten werden. Sie sollten aber über Handlungswissen verfügen, um z. B. die Qualität von Entscheidungen einzuschätzen und mögliche Probleme zu erkennen.
Transparenz und Erklärbarkeit sind je nach Umsetzung der KI-Anwendung unterschiedlich gut möglich. Während bei Whitebox- oder Glassbox-Systemen, wie z. B. regelbasierten Entscheidungssystemen, die Regeln direkt überprüfbar sind, kann man bei Blackbox-Systemen, wie z. B. der Texterkennung bei maschineller Dokumenterfassung, eine Erklärbarkeit nur sehr schwierig herstellen. Entsprechend sollten diese Systeme nur bei Tätigkeiten eingesetzt werden, bei denen eine Erklärbarkeit im Detail nicht notwendig ist und die Qualität anhand der Ergebnisse überprüfbar ist (wie z. B. bei der Texterkennung).
Verlässlichkeit
Die Verlässlichkeit eines KI-Systems umfasst nach Poretschkin et al. u. a. die Korrektheit der Ausgaben, Angaben zur Einschätzung der Modellunsicherheit beim maschinellen Lernen, die Robustheit gegenüber gestörten oder manipulierten Eingaben, den Umgang mit unerwarteten Situationen, das Wissen über die Grenzen des Modells sowie das Abfangen von Fehlern. Verlässlichkeit ist bei jedem System mindestens teilweise relevant. Wäre die Verlässlichkeit nicht relevant, dann könnte ein System auch einfach Zufallsentscheidungen treffen.
Ein zentraler Punkt bei Verlässlichkeit ist die Kommunikation von Unsicherheit. Wie sehr kann sich der Nutzer auf das System bzw. eine bestimmte Entscheidung verlassen? Entscheidungen, die das System nicht mit ausreichender Sicherheit tätigen kann, müssen klar kommuniziert werden. Allerdings ist die Feststellung, wie sicher das Ergebnis eines Systems ist, nicht trivial. Man kann sich zwar leicht vorstellen, dass das KI-System einen Prozentwert bezüglich der Sicherheit zurückgibt (oder als Icon einen „Daumen hoch“), aber die Frage dabei ist, wie kommt das System auf diesen Wert (oder den „Daumen hoch“)? Anhand welcher Kriterien erfolgt diese Bewertung? Um eine solche Einschätzung umzusetzen, benötigt man u. a. umfangreiches Domänenwissen von Mitarbeitern der öffentlichen Verwaltung, welche die Vorgänge sehr gut kennen. Hinzu kommt dann mathematisch-technische Expertise von KI-Experten, welche die KI-Anwendung selbst entwickeln bzw. trainieren.
Ein Beispiel ist ein KI-basiertes Übersetzungsprogramm. Die Frage ist hier: Wie gut ist die Übersetzung? Ideal wäre ein Wert, der die Qualität der Übersetzung angibt, zum Beispiel der BLEU-Wert (bilingual evaluation understudy score). Aber auch hier gibt es Abmessungsentscheidungen. Ist es die richtige Metrik und was ist der richtige Schwellenwert, der überschritten werden muss?
Robustheit
Wenn bei der Verlässlichkeit von der Robustheit gesprochen wird, dann geht es nach Poretschkin et al. u. a. um den Umgang mit kleineren Störungen (z. B. Bildverzerrungen, Sensorrauschen/-ausfall oder unpräzise Datenerhebung wie Mess- oder Tippfehler) und adversarialen Fällen (kleine Abweichung mit großer Wirkung, falls absichtlich eingesetzt auch „adversariale Attacke“).
Die Robustheit eines Systems kann sich im Laufe des Betriebs verändern. Das kann über Model Drift passieren, falls das System weiter lernt und im Laufe des Lernprozesses an Verlässlichkeit einbüßt, oder Concept Drift, wenn sich der Anwendungskontext oder die äußeren Bedingungen ändern (z. B. über Gesetzesänderungen). Insbesondere der Concept Drift sollte bei der Entwicklung eingeplant sein, sonst hat man zwar ein KI-System, kann es aber unmodifiziert nicht mehr weiter einsetzen.
Um die Robustheit zu gewährleisten muss nach Poretschkin et al. u. a. der Anwendungsbereich klar definiert sein (beim maschinellen Lernen müssen die Trainingsdaten diesen abdecken), eine klare Operationalisierung der Anforderungen erfolgen (wie wird es gemessen?) und das Modell mit „herausfordernden Eingabedaten“ (sogenannte „Corner Cases“) getestet werden. Außerdem sollten „Sanity Checks“ eingeplant sein (in welchen Bereichen müssen Daten bleiben, z. B. bei der Texterkennung eines handschriftlich ausgefüllten Formulars wäre das Alter einer Person kleiner als 0 Jahre oder älter als 120 Jahre sehr unwahrscheinlich).
Sicherheit
Bei der Sicherheit unterscheidet man nach Poretschkin et al. zwischen der funktionalen Sicherheit („Safety“) und der IT-Sicherheit („Security“).
Bezüglich der funktionalen Sicherheit („Safety“) geht es v. a. um den Schutz der Außenwelt vor einem funktionalen Versagen des KI-Systems. Ein klassisches KI-Beispiel ist der Schutz der Fußgänger vor Unfällen beim autonomen Fahren. In der öffentlichen Verwaltung ist das Verhindern vom massenhaft automatisiert ausgesendeten falschen Mahnungen ein eindrückliches Beispiel. Hierbei können u. a. Sanity Checks (ist es realistisch, wenn plötzlich sehr viele Personen hohe Nachzahlungsaufforderungen erhalten?) und Fail-Safe States wie ein Abschalten der KI helfen.
Bezüglich der IT-Sicherheit („Security“) geht es v. a. um die Integrität und Verfügbarkeit der Anwendung. Integrität meint den Schutz des KI-Systems vor der Umgebung (z. B. Angriffe, inkl. via gezielte Manipulation der Datenbasis, sprich „Data Poisoning“). Die Verfügbarkeit kann nicht nur aufgrund von einem technischen Hardware-Ausfall infrage gestellt werden. Durch externe Angriffe kann ein System auch ganz oder teilweise nicht mehr nutzbar sein (z. B. durch Denial-of-Service-Attacken, bei denen extrem viele Anfragen das KI-System überlasten). Gerade im Bereich von KI-Systemen, die weiter lernen, kann das System aber auch seine Funktion verlieren und dadurch nicht mehr verfügbar, d. h. einsetzbar, sein.
Insbesondere die Verfügbarkeit sollte man nicht unterschätzen. Gerade beim maschinellen Weiterlernen kann ein System kompromittiert werden. Ein Beispiel sind Chatbots, die in der Interaktion mit den Benutzern dazulernen. So wurde Microsoft’s Chatbot „Tay“ auf Twitter innerhalb von weniger als 24 Stunden zu Aussagen bewegt, die dazu geführt haben, dass Microsoft den Chatbot vom Netz genommen hat. Tay sollte von Unterhaltungen lernen und dadurch immer besser werden. Sie wurde allerdings vor allem von Online-Trollen mit Aussagen „gefüttert“, die dazu geführt haben, dass sie rassistische Verunglimpfungen bis hin zu Aufrufen zu Genozid von sich gegeben hat. Letztendlich wurde der Chatbot von den Betreibern vom Netz genommen, was ein PR-Desaster für Microsoft war. In der öffentlichen Verwaltung würde man solche Chatbots derzeit noch nicht einsetzen, da die dort eingesetzten Chatbots auf Basis einer festen und nicht vom Nutzer veränderlichen Wissensbasis operieren. Es zeigt allerdings die Gefahren eines solchen „selbstlernenden Systems“, wenn nicht kontrolliert werden kann, von wem es dazulernt. Es ist dann nicht mehr verfügbar und die bisher vom System übernommene Tätigkeit (z. B. Auskünfte geben) würden wieder von den Mitarbeitern übernommen werden müssen.
Weitere Rahmenmodelle
Neben diesen Kriterien aus dem KI-Prüfkatalog von Poretschkin et al. gibt es weitere Modelle, wie ein Mensch-KI-System gestaltet sein sollte. Das Human-Centered Artificial Intelligence (HCAI) Framework von Shneiderman sieht dabei z. B. Verlässlichkeit (Audits, Dokumentation, Analyse-Werkzeuge, Benchmark Tests, kontinuierliche Begutachtung der Datenqualität und Testen auf mögliche Verzerrungen, Design-Strategien die Vertrauen schaffen, Erklärbare KI-Ansichten), Sicherheit (Verpflichtung zur Sicherheit durch Führungskräfte, offenes Berichten über Fehler und kritische Ereignisse, öffentliche Berichte von Problemen und zukünftigen Plänen) und Vertrauenswürdigkeit (Einhalten von Standards und Richtlinien, Zertifizierung, externe Kontrolle) als wichtige Kriterien.
Das Rahmenmodell geht dabei über das hinaus, was ein individueller Nutzer leisten kann, und setzt auch einen entsprechenden Umgang im Team, in der Organisation und in der Industrie selbst (hier: öffentliche Verwaltung) voraus. Dennoch lohnt es sich, die Kriterien guter Zusammenarbeit in Mensch-KI-Systemen auch als Nutzer zu betrachten.
Gestaltung der Zusammenarbeit in Mensch-KI-Systemen
Worauf ist bei der Entwicklung von KI-Anwendung zu achten, damit die Zusammenarbeit zwischen Mensch und System gut funktioniert?
Die großen Softwareunternehmen (Microsoft, Apple, Google) haben Richtlinien für Mensch-KI-Interaktion herausgegeben. In diesem Unterkapitel stehen die Richtlinien von Microsoft im Vordergrund, da sie eine hilfreiche Übersicht darstellen und klar nach Phasen gegliedert sind:
- Zu Beginn deutlich machen, was das System kann und wie gut das System dies machen kann.
- Während der Interaktion den Kontext (Aufgabe, Umgebung) berücksichtigen, kontextrelevante Informationen zeigen, relevante soziale Normen berücksichtigen und soziale Voreingenommenheiten abmindern.
- Bei Fehlern, und hier wird realistischerweise davon ausgegangen, dass Fehler passieren und der Nutzer gut damit umgehen sollte, den effizienten Aufruf und das effiziente Beenden des KI-Systems unterstützen, effiziente Korrektur unterstützen, im Zweifel den Handlungsspielraum des Dienstes verändern (z. B. das System registriert eine hohe Unsicherheit bei einer Entscheidung und gibt eine Bitte um eine Nutzerentscheidung anstatt die Entscheidung selbst durchzuführen), und deutlich machen, warum das System das gemacht hat, was es gemacht hat.
- Über die Zeit sollte das System sich an den Nutzer anpassen, indem es die letzten Interaktionen erinnert, vom Nutzungsverhalten lernt, Updates und Anpassungen behutsam vornimmt, den Nutzer zu Feedback anregt, die Konsequenzen des Nutzerverhaltens verdeutlicht, eine globale Kontrolle erlaubt, sowie den Nutzer über Veränderungen informiert.
Es gibt allerdings diverse weitere Gestaltungsrichtlinien. Auch Shneiderman hat z. B. „Prometheus Prinzipien“ aufgestellt. Dazu gehören eine konsistente Benutzeroberfläche, die es Nutzern erlaubt, Absichten zu formen, auszudrücken und zu widerrufen, das kontinuierliche Zeigen der interessanten Objekte und Aktionen, schnelle, inkrementelle und reversible Aktionen, die Prävention von Fehlern, informatives Feedback um jede Aktion des Nutzers zu bestätigen, Fortschrittsanzeigen, und Berichte über abgeschlossene Handlungen.
Es lohnt sich, zu prüfen inwiefern derzeit bekannte KI-Systeme diesen Kriterien.
Fragen an KI-Anwendungen in der öffentlichen Verwaltung
Was sind Fragen, die man sich bei KI-Anwendungen in der öffentlichen Verwaltung stellen kann? Wie kann man die Gebrauchstauglichkeit sowie die weiteren Anforderungen von KI-Anwendungen überprüfen?
Zu Beginn
- Macht die KI-Anwendung deutlich, was sie kann?
- Macht die KI-Anwendung deutlich, wie gut sie es machen kann?
Während der Interaktion
- Erlaubt die KI-Anwendung (v. a. deren Benutzeroberfläche) es Ihnen zu überlegen, was Sie erreichen möchten, die Absichten auch umzusetzen und ggfs. auch rückgängig zu machen?
- Berücksichtigt die KI-Anwendung den Kontext (Aufgabe/Umgebung)?
- Zeigt die KI-Anwendung kontextrelevante Informationen?
- Sind die für Sie relevanten Informationen und Handlungen der KI-Anwendung kontinuierlich für Sie sichtbar?
- Erhalten Sie informatives Feedback, wenn Sie die Anwendung bedienen (Eingaben und andere Aktionen durchführen)?
- Wird Ihnen der Fortschritt der KI-Anwendung angezeigt?
- Erhalten Sie einen Bericht über abgeschlossene Handlungen?
- Berücksichtigt die KI-Anwendung relevante soziale Normen?
- Mindert die KI-Anwendung soziale Voreingenommenheiten?
- Werden Fehler durch die Anwendung soweit wie möglich verhindert (z. B. indem keine ungültigen Eingaben möglich sind)?
Bei Fehlern
- Können Sie die KI-Anwendung mit wenig Aufwand aufrufen (schnelle, inkrementelle und reversible Aktionen)?
- Können Sie die KI-Anwendung mit wenig Aufwand beenden?
- Können Sie Korrekturen mit wenig Aufwand durchführen?
- Reduziert die KI-Anwendung bei Unsicherheit ihren Handlungsspielraum (z. B. Hinweis auf Auffälligkeit statt Autokorrektur)?
- Macht die KI-Anwendung deutlich, warum sie gemacht hat, was sie gemacht hat?
Über die Zeit
- Erinnert sich die KI-Anwendung an die letzten Interaktionen?
- Lernt die KI-Anwendung von Ihrem Verhalten?
- Werden Updates und Anpassungen behutsam durchgeführt (Updates führen nicht zu gravierenden Veränderungen)?
- Werden Sie zum Feedback angeregt?
- Werden Ihnen die Konsequenzen Ihres Nutzerverhaltens verdeutlicht?
- Können Sie die KI-Anwendung global kontrollieren (Einstellungen an einer Stelle, die sich auf das gesamte Verhalten des Systems auswirken)?
- Werden Sie von der KI-Anwendung über Veränderungen informiert (bei Updates z. B. bezüglich neuer/veränderter Fähigkeiten der KI-Anwendung)?
KI-Anforderungen
Fairness
- Ist die Anwendung fair – nach welcher Definition von Fairness?
- Werden unverzerrte, faire, Entscheidungen getroffen? (siehe dazu Abschn. 11.7)
Autonomie/Kontrolle
- Erlaubt das KI-System Ihnen einen angemessenen Grad von Autonomie und Kontrolle?
- Hat menschliches Handeln weiterhin Vorrang (informiert, bewusste Abgabe an KI)?
- Ist die Automationsstufe passend?
- Haben Sie ausreichend Handlungsspielraum?
- Gibt es einen Ermessensspielraum, der berücksichtigt sein muss – wird dieser auch berücksichtigt?
- Können Sie das Vorgehen der KI-Anwendung kontrollieren?
- Können Sie die Ergebnisse der KI-Anwendung überprüfen?
- Sind Sie weiterhin informiert (vollständige, sichtbare und zugängliche Informationen) und fähig (Qualifikation), die Tätigkeit notfalls selbst durchzuführen?
- Können Sie die KI-Anwendung notfalls ausschalten?
Transparenz
- Ist das Verhalten der Anwendung transparent?
- Erklärbarkeit: Ist für Sie nachvollziehbar, wie eine Vorhersage zustande gekommen ist?
- Interpretierbarkeit (des Modells bei maschinellem Lernen): Ist das Lernverfahren als Ganzes für Sie transparent?
- Nachverfolgbarkeit und Reproduzierbarkeit: Ist sichergestellt, dass das Vorgehen und die Entscheidungen der KI-Anwendung dokumentiert werden?
- Verlässlichkeit: Können Sie sich auf die KI-Anwendung verlassen?
- Korrektheit: Sind die Ausgaben der KI-Anwendung korrekt?
- Modellunsicherheit: Gibt Ihnen die KI-Anwendung Rückmeldung, mit welcher Wahrscheinlichkeit die Ausgaben korrekt sind?
- Robustheit: Fängt die KI-Anwendung gestörte oder manipulierte Eingaben ab? Reagiert sie bei unerwarteten Situationen bzw. an den Grenzen des ML-Modells noch korrekt? Fängt sie mögliche Fehler ab (z. B. über „Sanity Checks“)?
Sicherheit
- Ist die Anwendung sicher?
- Funktionale Sicherheit („Safety“): Ist sichergestellt, dass die KI-Anwendung die Außenwelt nicht in Gefahr bringt oder schädigt?
- IT-Sicherheit („Security“)
- Integrität: Ist die KI-Anwendung vor ihrer Umgebung (inkl. gezielte Manipulationen) geschützt?
- Verfügbarkeit: Ist die Verfügbarkeit der KI-Anwendung gewährleistet?
Datenschutz
- Wird der Datenschutz gewahrt?
- Werden die Datenschutz-Grundverordnung (DSGVO) und das Bundesdatenschutzgesetz (BDSG) eingehalten?
- Wurden die folgenden Punkte eingehalten: Einwilligung der Betroffenen, Weiterverarbeitung nur mit Zustimmung, keine unberechtigten Zugriffsmöglichkeiten, weitreichendes und jederzeitiges Widerspruchsrecht, Information über Zweck und Einsatz der personenbezogenen bzw. daraus abgeleiteten Daten, Datensparsamkeit sowie zweckgebundenen Verwendung?
Zur einfacheren Lesbarkeit wurden die Literatur- und Quellverweise sowie die Übungsfragen entfernt.
Wessel, D. (2023). Mensch-KI-System. In: Künstliche Intelligenz in öffentlichen Verwaltungen. Edition eGov-Campus. Springer Gabler, Wiesbaden