nach oben

Erschienen in:

Open Access 2023 | OriginalPaper | Buchkapitel

7. Mensch-KI-System

verfasst von : Daniel Wessel

Erschienen in: Künstliche Intelligenz in öffentlichen Verwaltungen

Verlag: Springer Fachmedien Wiesbaden

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config

KI-gestützte Suche

Patentsuche

Aus

Zusammenfassung

Bei KI-Anwendungen arbeiten Mensch und KI-System eng zusammen. Diese Zusammenarbeit muss entsprechend gestaltet sein. In diesem Kapitel werden Formen der Zusammenarbeit vorgestellt und die Rolle von KI im Arbeitsalltag hinterfragt. Grade der Automation und Kriterien guter Zusammenarbeit werden vorgestellt und Hinweise für die konkrete Gestaltung der Zusammenarbeit gegeben. Zur Bewertung der Qualität der Zusammenarbeit werden Fragen an KI-Anwendungen vorgestellt.

7.1 Einleitung

Wenn Mensch und KI-System zusammenarbeiten, stellt sich die Frage, wie diese Zusammenarbeit bestmöglich gestaltet werden kann. Was macht eine gute Zusammenarbeit aus? Worauf muss geachtet werden? Dafür werden zuerst drei Fallbeispiele von guter, schlechter und hässlicher Zusammenarbeit (Abschn. 7.2), unterschiedliche Arten der Zusammenarbeit (7.3), speziell wie KI-Systeme im Arbeitskontext gesehen werden, und verschiedene Grade der Automation (7.4) dargestellt. Dann werden Kriterien guter Zusammenarbeit in Mensch-KI-Systemen (7.5) sowie zu der konkreten Gestaltung der Zusammenarbeit (7.6) vorgestellt, was das vorherige Kap. 6 (Gebrauchstaugliche Entwicklung von KI-Anwendungen) erweitert. Abschließend folgen Fragen zur Bewertung von KI-Anwendungen (7.7), Übungsfragen (7.8) sowie Aufgaben zum eigenen Anwendungsfall (7.9).

7.2 Fallbeispiele

Betrachtet man KI-Anwendungen daraufhin, wie gut Mensch und KI zusammenarbeiten, lassen sich gute, schlechte und hässliche Anwendungen identifizieren.

Gute Anwendungen erhöhen die Leistung des Menschen. Man spricht hier von „augmented intelligence“. Mensch und KI erreichen zusammen Leistungen, die ein Mensch oder die KI alleine nicht erreicht hätte. Ein anschauliches Beispiel ist Advanced Chess (auch Cyborg Chess oder Centaur Chess). Wenn Mensch und KI-System als ein Spielpartner zusammenarbeiten, sind sie einem Menschen oder einem KI-System alleine überlegen.

Schlechte Anwendungen vermindern die Leistung des Menschen. Ein bekanntes Beispiel ist der in Kap. 6 schon erwähnte „Clippy“ (Karl Klammer) von Microsoft Word. Dieses Hilfesystem sollte den Nutzer beim Schreiben unterstützen, unterbrach ihn aber bei der Arbeit – insbesondere durch die Animation, welche Aufmerksamkeit auf sich zieht. In diesem Beispiel konnte man diese „Tipps“ ausstellen, um zumindest mit normaler Leistung weiter arbeiten zu können.

Hässliche Anwendungen verursachen durch die schlechte Zusammenarbeit zwischen Mensch und KI-System nicht nur eine geringere Leistung als ohne KI, sie führen auch zu gravierenden Schäden, die ohne KI nicht aufgetreten wären. Ein sehr negatives Beispiel ist hier das Maneuvering Characteristics Augmentation System (MCAS) der Boeing 737 MAX. Das MCAS sollte eigentlich dabei helfen, das Flugzeug zu stabilisieren. Da die Piloten unter anderem nicht ausreichend über das System informiert waren, kam es zu zwei Flugzeugabstürzen mit über 300 Toten. Dies ist auch ein Beispiel für „algorithmic hubris“, der Versuch von Programmierern, „narrensichere“ Systeme („foolproof systems“) zu entwickeln (Shneiderman, 2020a). Ein Beispiel aus dem Verwaltungskontext ist ein KI-System, das fälschlicherweise massenhaft überhöhte Steuerbescheide verschickt, die bei den Bürgern nicht nur Verunsicherungen, Frustration und Aggression auslösen, sondern auch Existenzen infrage stellen können (Rohde, 2017).

Die Frage ist jetzt, wie die Zusammenarbeit im Mensch-KI-System gestaltet sein muss, damit Mensch und KI sich wie beim Advanced Chess ergänzen und bessere Leistung als alleine erbringen können und Störungen wie bei Clippy oder Katastrophen wie beim MCAS verhindert werden.

7.3 Arten der Zusammenarbeit

Wie kann eine Zusammenarbeit zwischen Mensch und KI gestaltet sein, speziell, wie wird die KI im Arbeitsalltag gesehen?

Ein relatives altes, aber immer noch nützliches Modell ist das MABA-MABA („Men Are Better At – Machines Are Better At“, oder auch HABA-MABA, „Humans Are Better At – Machines Are Better At“) Modell von Fitts (1951). Menschen und Maschinen haben ihre jeweiligen Stärken und je nachdem, wer in der konkreten Tätigkeit besser ist, übernimmt diese Tätigkeit. So sind Menschen z. B. besser im Fällen von Urteilen, Induktion, und Improvisation, während Maschinen schneller sind, hochkomplexe Operationen ausführen können und sehr gut parallel arbeiten können.

Zwar haben seit 1951 Computer in vielen Bereichen aufgeholt und auch heute verschieben sich noch Bereiche, in denen Maschinen Menschen übertreffen. Auch ist die Arbeitstätigkeit üblicherweise eng verzahnt, was dazu führt, dass Mensch und Maschine in vielen Arbeitsschritten eng zusammenarbeiten müssen.

Eine andere Sichtweise, die auch in Folge der zunehmenden Leistung und höherer Automation (siehe Abschn. 7.4) vermutlich häufiger auftreten wird, ist „die KI“ vermenschlicht (anthropomorphisiert) als Kollegin zu betrachten. Man arbeitet mit „der Kollegin“ KI zusammen und delegiert die Tätigkeit an diese. „Sie“ macht die Aufgaben. Ein Problem dabei ist, dass die Kontrolle der und die Verantwortung für die Arbeitstätigkeit weiterhin beim Menschen liegen muss – nie bei der KI (siehe dazu auch Kap. 11, KI & Ethik). Das KI-System kann keine Verantwortung übernehmen – überspitzt gesagt kann man einem frustrierten Bürger bei Fehlern nicht sagen: „Sie war’s!“. Entsprechend sollte das Konzept der „Kollegin“ kritisch hinterfragt werden (vgl. Shneiderman, 2020a).

Hilfreicher ist eine Metapher von Steve Jobs, damals noch über Computer selbst, nicht speziell zu KI-Systemen. In einem Interview verwies er auf einen Artikel, der die menschliche Leistung bei der Fortbewegung mit der von Tieren verglich. Menschen wurden dabei von diversen Tieren, was den Energieaufwand pro Streckeneinheit betrifft, weit geschlagen (z. B. braucht der Kondor am wenigsten Energie). Die Autoren des Artikels sahen sich dann an, was passiert, wenn der Mensch ein Fahrrad verwendet. Konsequenz – der Mensch schlug den Kondor bei weitem. Jobs übertrug diesen Vergleich auf Computer als er sagte: „What a computer is to me is the most remarkable tool that we have ever come up with. It’s the equivalent of a bicycle for our minds.“ (Übersetzt: „Was ein Computer für mich ist, das ist das bemerkenswerteste Werkzeug, das wir jemals entwickelt haben. Es ist das Äquivalent eines Fahrrads für den menschlichen Verstand.“). Auch wenn er über Computer generell gesprochen hat, das Ziel von KI sollte sein, die menschliche Leistung zu unterstützen: zum Beispiel die Arbeitsziele mit weniger Aufwand (höhere Effizienz) zu erreichen oder zu einer Entlastung zu führen, damit man sich auf die wichtigen Dinge konzentrieren kann. KI soll den Arbeitsalltag erleichtern, dem Menschen erlauben, Tätigkeiten auszuführen, zu denen er sonst so nicht fähig wäre. Vergleichbar mit dem Fallbeispiel des Advanced Chess (7.2) haben KI-Systeme das Potenzial(!) menschliche Grenzen zu überwinden und zu Ergebnissen zu führen, die von einem Menschen alleine nicht, oder nicht so effizient, erreicht werden können.

7.4 Automation

Bei KI-Systemen wird häufig der Begriff Automation verwendet – Automation meint dabei die Übernahme von Funktionen eines Prozesses durch künstliche Systeme, wobei insbesondere auch Steuerungsaufgaben einbezogen werden (Voigt, 2018). Wie kann man sich diese Automation vorstellen – welche unterschiedlichen Formen gibt es dabei?

Ein älteres aber immer noch nützliches Modell stammt von Sheridan und Verplank (1978). Es stellt die zunehmende Automation auf einer Dimension in zehn Stufen dar, von „der Mensch führt die gesamte Tätigkeit aus bis er sie an den Computer übergibt“, bis hin zu „der Computer führt die gesamte Tätigkeit aus, sofern er entscheidet, dass sie durchgeführt werden sollte, und entscheidet, ob Nutzer informiert wird“. In den Zwischenstufen hilft der Computer zu unterschiedlichen Graden, schlägt Aktionen vor, oder führt sie aus.

Bei der Betrachtung konkreter Arbeitstätigkeiten stellen sich folgende Fragen: Welcher Grad der Automation wäre für die entsprechende Tätigkeit oder Teilaufgabe dieser Tätigkeit akzeptabel – und warum? Wie könnte diese Automationsstufe für die jeweilige Tätigkeit erreicht werden?

Die Automationsgrade lassen sich auch einfacher zusammenfassen (Poretschkin et al., 2021) – von Human Control (maximal Vorschläge des Computers), Human-in-the-Loop (Mensch muss Vorschläge/Entscheidungen der KI vor Ausführung bewilligen), Human-on-the-Loop (KI arbeitet normalerweise autonom, aber Mensch kann korrigierend eingreifen), bis Human-out-of-the-Loop (KI arbeitet autonom, kann sie höchstens deaktivieren).

Während Sheridan und Verplank (1978) und auch die Autonomiegrade von Human Control bis Human-out-of-the-Loop Automation als eindimensional sehen (von „der Mensch macht die gesamte Tätigkeit“ zu „der Computer führt die gesamte Tätigkeit aus und entscheidet sogar selbst darüber, ob der Nutzer informiert wird“), gibt es auch Modelle, die menschliche Kontrolle und Automation des Computers als zwei getrennte Dimensionen sehen.

Das Human-Centered Artificial Intelligence (HCAI) Framework von Shneiderman (2020a) ist ein solches Rahmenmodell. Es soll ermöglichen, verlässliche, sichere und vertrauenswürdige KI-Anwendungen zu entwickeln und sieht menschliche Kontrolle vs. Automation nicht als eindimensional, sondern als zwei getrennte Dimensionen. Damit soll erreicht werden, sowohl einen hohen Grad an menschlicher Kontrolle und ein hoher Grad an Automation zu erlauben (sofern notwendig), als auch zu verstehen, wann die vollständige Kontrolle von Mensch oder Computer notwendig ist, und die Gefahren exzessiver Kontrolle von Mensch oder Computer zu vermeiden.

Je nach Tätigkeit sind unterschiedliche Grade von menschlicher Kontrolle und Automation durch den Computer notwendig. Das Ziel ist hierbei nicht „je mehr Kontrolle oder je mehr Autonomie desto besser“, sondern das richtige Maß auf beiden Dimensionen zu finden. Beispiele aus der öffentlichen Verwaltung wären:

bei hoher Computerkontrolle und geringer menschlicher Kontrolle die Optische Zeichenerkennung (OCR),
bei hoher menschlicher Kontrolle und geringer Computerkontrolle Policy-Entscheidungen, die mit anderen Stakeholdern ausdiskutiert werden müssen und erst in diesem menschlichen Zusammenspiel entwickelt werden, sowie bei
„verlässliche, sichere und vertrauenswürdige KI“ (beide Dimensionen hoch ausgeprägt), Assistenzsysteme, welche die Nutzer im richtigen Zeitpunkt im richtigen Ausmaß unterstützen.

Das HCAI-Modell ist interessant, um Automation nicht als eine Dimension zu sehen, sondern bewusst nach Möglichkeiten zu suchen, bei denen – wenn hilfreich – sowohl menschliche Kontrolle als auch Computer Automation das richtige Maß aufweisen.

Abschließend sollte bei Automation das Problem des richtigen Grades an Vertrauen in die Automation nicht unterschätzt werden. Man kann der KI zu sehr vertrauen („overtrust“) und dabei Fehler des KI-Systems übersehen (z. B. indem Entscheidungen unkritisch akzeptiert werden, insbesondere wenn das KI-System „eigentlich immer“ richtige Entscheidungen getroffen hat). Man kann dem System aber auch zu wenig vertrauen („undertrust“) und es häufig aber auch unnötigerweise überwachen. Insbesondere die Überwachung von automatisierten Tätigkeiten erfordert konstante Aufmerksamkeit (Vigilanz) und kann langfristig anstrengender sein, als die Tätigkeit selbst zu durchzuführen. Entsprechend muss der Nutzer richtig einschätzen können, unter welchen Bedingungen das KI-System welche Leistung zeigt.

7.5 Kriterien guter Zusammenarbeit in Mensch-KI-Systemen

Welche Kriterien muss ein Mensch-KI-System erfüllen, damit Mensch und KI gut zusammenarbeiten können? Eine notwendige Vorbedingung ist, dass der Nutzer über den Einsatz von KI immer informiert ist („Sichtbare KI“, Abschn. 7.5.1). Dann machen Autonomie und Kontrolle (Abschn. 7.5.2), Transparenz/Nachvollziehbarkeit (Abschn. 7.5.3), Verlässlichkeit (Abschn. 7.5.4), und Sicherheit (Abschn. 7.5.6) einen großen Teil der Vertrauenswürdigkeit eines KI-Systems aus (Poretschkin et al., 2021) und sind damit für eine gute Zusammenarbeit zentral. Es gibt auch weitere Rahmenmodelle, die ähnliche Kriterien postulieren (Abschn. 7.5.7).

7.5.1 Vorbedingung: Verwendung von KI offen legen

Der Nutzer muss immer wissen, wenn er mit einem KI-System interagiert. Das war u. a. auch ein Problem bei der Boeing 737 MAX mit dessen Maneuvering Characteristics Augmentation System (MCAS, vgl. Abschn. 7.2). Die Piloten waren u. a. nicht ausreichend informiert, was das System macht. IBM’s (2019) „Everyday Ethics for Artificial Intelligence“ bringt es auf den Punkt mit: „Your users should always be aware that they are interacting with an AI. Good design does not sacrifice transparency in creating a seamless experience. Imperceptible AI is not ethical AI.“ [„Ihren Nutzern sollte immer bewusst sein, dass sie mit einer KI interagieren. Gutes Design opfert nicht die Transparenz, um eine nahtlose Erfahrung zu erzeugen. Nichtwahrnehmbare KI ist keine ethische KI.“].

7.5.2 Autonomie und Kontrolle

Bei Autonomie und Kontrolle muss der richtige Grad an Autonomie für die Anwendung gewählt werden (Human-in/on/out-of-the-Loop, siehe Abschn. 7.4) und der Mensch durch die KI-Anwendung angemessen unterstützt werden (Poretschkin et al., 2021). Insbesondere muss ausreichend Handlungsspielraum des Menschen bei der Verwendung des KI-Systems zur Verfügung stehen.

Hierbei muss (u. a. nach Poretschkin et al., 2021) der Vorrang des menschlichen Handelns gewährleistet werden (informierte, bewusste Abgabe an das KI-System). Apple’s Guidelines bringen es mit „Menschen, nicht Apps, haben die Kontrolle“ (Apple, 2022) auf den Punkt. Des Weiteren muss eine angemessene und verantwortungsvolle Gestaltung der Aufgabenverteilung zwischen Mensch und KI-Anwendung hergestellt werden und die Nutzer (und Betroffen!) müssen über die Verwendung informiert sein, die Nutzer müssen das KI-System bedienen können und die Kontrolle notfalls auch zurückholen können (ggfs. über das Abschalten der KI).

Nach Poretschkin et al. (2021) kann man Autonomie und Kontrolle u. a. dadurch gewährleisten, dass man die relevanten Personengruppen und Organisationen in die Entwicklung einbindet, konsequent auf den Vorrang menschlichen Handelns achtet, wirksame Beschwerdemöglichkeiten etabliert, ein klares Rollen- und Rechtekonzept für die Nutzung der KI-Anwendung etabliert, die KI-Anwendung unter menschlicher Aufsicht stellt und Abschalt-Szenarien sowohl definiert als auch technisch möglich macht. Im Falle eines Abschaltens einer KI-Anwendung bedeutet dies allerdings auch, dass der frühere Nutzer weiterhin in der Lage sein muss, die Tätigkeit auszuführen (wenn auch nicht so effizient). Die Informiertheit und Befähigung von Nutzern und Betroffenen muss entsprechend weiterhin gewährleistet werden. Dazu gehören nach Poretschkin et al. (2021) u. a. die ausreichende Qualifikation der Nutzer sowie die Sicherstellung der Vollständigkeit, Sichtbarkeit und Zugänglichkeit der Informationen im Abschalt-Szenario. Diese Informationen dürfen z. B. nicht nur im laufenden KI-System verfügbar sein, sonst wird mit dem Abschalten auch die Datenbasis für eine Entscheidung ohne KI genommen.

7.5.3 Transparenz/Nachvollziehbarkeit

Ein weiteres zentrales Kriterium bei Automation ist Transparenz bzw. Nachvollziehbarkeit der Entscheidungen. Man würde z. B. in der Zusammenarbeit mit einem Kollegen bei der Frage, warum er eine bestimmte Entscheidung getroffen hat, ein „glaub’ es mir einfach, dass das stimmt“ kaum akzeptieren. Bei einem KI-System sollte es nicht anders sein. IBM’s (2019) Everyday Ethics for Artificial Intelligence gibt die Empfehlung: „AI should be designed for humans to easily perceive, detect, and understand its decision process. In general, we don’t blindly trust those who can’t explain their reasoning. The same goes for AI, perhaps even more so. As an AI increases in capabilities and achieves a greater range of impact, its decision-making process should be explainable in terms people can understand.“ [KI sollte so entworfen werden, dass es für Menschen einfach ist, den Entscheidungsprozess wahrzunehmen, zu erkennen und zu verstehen. Im Allgemeinen vertrauen Menschen anderen Personen nicht blind, wenn diese ihre Schlussfolgerungen nicht erklären können. Das gleiche gilt für KI, vielleicht noch mehr. Wenn eine KI mehr Fähigkeiten bekommt und einen größeren Einflussbereich erreicht, sollte der Entscheidungsprozess in Begriffen erklärbar sein, die Menschen verstehen können.]

Zur Transparenz und Nachvollziehbarkeit gehören nach Poretschkin et al. (2021) u. a. die Erklärbarkeit, wie die Vorhersage zustande gekommen ist, die Interpretierbarkeit des Modells, z. B. dass das verwendete maschinelle Lernverfahren als Ganzes transparent ist, und die Nachverfolgbarkeit und Reproduzierbarkeit von Entscheidungen. Letzteres ist u. a. für rechtliche Fragen relevant und kann z. B. mittels Logdaten, Dokumentationen bzw. Archivierungen des Designs, der Daten, des Trainings, des Testens und Validierens des Modells erreicht werden.

Bei der Transparenz und Nachvollziehbarkeit muss unterschieden werden zwischen Nutzern, bei denen es v. a. um die sichere, ordnungsgemäße, verantwortungsvolle Bedienung geht, und KI-Experten, die sich z. B. mit dem Aufdecken von Modellschwächen beschäftigen. Mitarbeiter öffentlicher Verwaltungen müssen keine KI-Experten werden. Sie sollten aber über Handlungswissen verfügen, um z. B. die Qualität von Entscheidungen einzuschätzen und mögliche Probleme zu erkennen.

Transparenz und Erklärbarkeit sind je nach Umsetzung der KI-Anwendung unterschiedlich gut möglich (Gode & Franke, 2019). Während bei Whitebox- oder Glassbox-Systemen, wie z. B. regelbasierten Entscheidungssystemen, die Regeln direkt überprüfbar sind, kann man bei Blackbox-Systemen, wie z. B. der Texterkennung bei maschineller Dokumenterfassung, eine Erklärbarkeit nur sehr schwierig herstellen. Entsprechend sollten diese Systeme nur bei Tätigkeiten eingesetzt werden, bei denen eine Erklärbarkeit im Detail nicht notwendig ist und die Qualität anhand der Ergebnisse überprüfbar ist (wie z. B. bei der Texterkennung). Mehr Informationen zum Thema Erklärbarkeit gibt es in Kap. 8 („Erklärbare KI“).

7.5.4 Verlässlichkeit

Die Verlässlichkeit eines KI-Systems umfasst nach Poretschkin et al. (2021) u. a. die Korrektheit der Ausgaben, Angaben zur Einschätzung der Modellunsicherheit beim maschinellen Lernen, die Robustheit gegenüber gestörten oder manipulierten Eingaben, den Umgang mit unerwarteten Situationen, das Wissen über die Grenzen des Modells sowie das Abfangen von Fehlern. Verlässlichkeit ist bei jedem System mindestens teilweise relevant. Wäre die Verlässlichkeit nicht relevant, dann könnte ein System auch einfach Zufallsentscheidungen treffen (Poretschkin et al., 2021).

Ein zentraler Punkt bei Verlässlichkeit ist die Kommunikation von Unsicherheit. Wie sehr kann sich der Nutzer auf das System bzw. eine bestimmte Entscheidung verlassen? Entscheidungen, die das System nicht mit ausreichender Sicherheit tätigen kann, müssen klar kommuniziert werden. Allerdings ist die Feststellung, wie sicher das Ergebnis eines Systems ist, nicht trivial. Man kann sich zwar leicht vorstellen, dass das KI-System einen Prozentwert bezüglich der Sicherheit zurückgibt (oder als Icon einen „Daumen hoch“), aber die Frage dabei ist, wie kommt das System auf diesen Wert (oder den „Daumen hoch“)? Anhand welcher Kriterien erfolgt diese Bewertung? Um eine solche Einschätzung umzusetzen, benötigt man u. a. umfangreiches Domänenwissen von Mitarbeitern der öffentlichen Verwaltung, welche die Vorgänge sehr gut kennen. Hinzu kommt dann mathematisch-technische Expertise von KI-Experten, welche die KI-Anwendung selbst entwickeln bzw. trainieren.

Ein Beispiel ist ein KI-basiertes Übersetzungsprogramm (Poretschkin et al., 2021). Die Frage ist hier: Wie gut ist die Übersetzung? Ideal wäre ein Wert, der die Qualität der Übersetzung angibt, zum Beispiel der BLEU-Wert (bilingual evaluation understudy score). Aber auch hier gibt es Abmessungsentscheidungen. Ist es die richtige Metrik und was ist der richtige Schwellenwert, der überschritten werden muss?

7.5.5 Robustheit

Wenn bei der Verlässlichkeit von der Robustheit gesprochen wird, dann geht es nach Poretschkin et al. (2021) u. a. um den Umgang mit kleineren Störungen (z. B. Bildverzerrungen, Sensorrauschen/-ausfall oder unpräzise Datenerhebung wie Mess- oder Tippfehler) und adversarialen Fällen (kleine Abweichung mit großer Wirkung, falls absichtlich eingesetzt auch „adversariale Attacke“).

Die Robustheit eines Systems kann sich im Laufe des Betriebs verändern (Poretschkin et al., 2021). Das kann über Model Drift passieren, falls das System weiter lernt und im Laufe des Lernprozesses an Verlässlichkeit einbüßt, oder Concept Drift, wenn sich der Anwendungskontext oder die äußeren Bedingungen ändern (z. B. über Gesetzesänderungen). Insbesondere der Concept Drift sollte bei der Entwicklung eingeplant sein, sonst hat man zwar ein KI-System, kann es aber unmodifiziert nicht mehr weiter einsetzen.

Um die Robustheit zu gewährleisten muss nach Poretschkin et al. (2021) u. a. der Anwendungsbereich klar definiert sein (beim maschinellen Lernen müssen die Trainingsdaten diesen abdecken), eine klare Operationalisierung der Anforderungen erfolgen (wie wird es gemessen?) und das Modell mit „herausfordernden Eingabedaten“ (sogenannte „Corner Cases“) getestet werden. Außerdem sollten „Sanity Checks“ eingeplant sein (in welchen Bereichen müssen Daten bleiben, z. B. bei der Texterkennung eines handschriftlich ausgefüllten Formulars wäre das Alter einer Person kleiner als 0 Jahre oder älter als 120 Jahre sehr unwahrscheinlich).

7.5.6 Sicherheit

Bei der Sicherheit unterscheidet man nach Poretschkin et al. (2021) zwischen der funktionalen Sicherheit („Safety“) und der IT-Sicherheit („Security“).

Bezüglich der funktionalen Sicherheit („Safety“) geht es v. a. um den Schutz der Außenwelt vor einem funktionalen Versagen des KI-Systems. Ein klassisches KI-Beispiel ist der Schutz der Fußgänger vor Unfällen beim autonomen Fahren. In der öffentlichen Verwaltung ist das Verhindern vom massenhaft automatisiert ausgesendeten falschen Mahnungen ein eindrückliches Beispiel (vgl. Abschn. 7.2). Hierbei können u. a. Sanity Checks (ist es realistisch, wenn plötzlich sehr viele Personen hohe Nachzahlungsaufforderungen erhalten?) und Fail-Safe States wie ein Abschalten der KI helfen.

Bezüglich der IT-Sicherheit („Security“) geht es v. a. um die Integrität und Verfügbarkeit der Anwendung. Integrität meint den Schutz des KI-Systems vor der Umgebung (z. B. Angriffe, inkl. via gezielte Manipulation der Datenbasis, sprich „Data Poisoning“). Die Verfügbarkeit kann nicht nur aufgrund von einem technischen Hardware-Ausfall infrage gestellt werden. Durch externe Angriffe kann ein System auch ganz oder teilweise nicht mehr nutzbar sein (z. B. durch Denial-of-Service-Attacken, bei denen extrem viele Anfragen das KI-System überlasten). Gerade im Bereich von KI-Systemen, die weiter lernen, kann das System aber auch seine Funktion verlieren und dadurch nicht mehr verfügbar, d. h. einsetzbar, sein.

Insbesondere die Verfügbarkeit sollte man nicht unterschätzen. Gerade beim maschinellen Weiterlernen kann ein System kompromittiert werden. Ein Beispiel sind Chatbots, die in der Interaktion mit den Benutzern dazulernen. So wurde Microsoft’s Chatbot „Tay“ auf Twitter innerhalb von weniger als 24 Stunden zu Aussagen bewegt, die dazu geführt haben, dass Microsoft den Chatbot vom Netz genommen hat. Tay sollte von Unterhaltungen lernen und dadurch immer besser werden. Sie wurde allerdings vor allem von Online-Trollen mit Aussagen „gefüttert“, die dazu geführt haben, dass sie rassistische Verunglimpfungen bis hin zu Aufrufen zu Genozid von sich gegeben hat. Letztendlich wurde der Chatbot von den Betreibern vom Netz genommen, was ein PR-Desaster für Microsoft war. In der öffentlichen Verwaltung würde man solche Chatbots derzeit noch nicht einsetzen, da die dort eingesetzten Chatbots auf Basis einer festen und nicht vom Nutzer veränderlichen Wissensbasis operieren. Es zeigt allerdings die Gefahren eines solchen „selbstlernenden Systems“, wenn nicht kontrolliert werden kann, von wem es dazulernt. Es ist dann nicht mehr verfügbar und die bisher vom System übernommene Tätigkeit (z. B. Auskünfte geben) würden wieder von den Mitarbeitern übernommen werden müssen.

7.5.7 Weitere Rahmenmodelle

Neben diesen Kriterien aus dem KI-Prüfkatalog von Poretschkin et al. (2021) gibt es weitere Modelle, wie ein Mensch-KI-System gestaltet sein sollte. Das Human-Centered Artificial Intelligence (HCAI) Framework von Shneiderman (2020b) sieht dabei z. B. Verlässlichkeit (Audits, Dokumentation, Analyse-Werkzeuge, Benchmark Tests, kontinuierliche Begutachtung der Datenqualität und Testen auf mögliche Verzerrungen, Design-Strategien die Vertrauen schaffen, Erklärbare KI-Ansichten), Sicherheit (Verpflichtung zur Sicherheit durch Führungskräfte, offenes Berichten über Fehler und kritische Ereignisse, öffentliche Berichte von Problemen und zukünftigen Plänen) und Vertrauenswürdigkeit (Einhalten von Standards und Richtlinien, Zertifizierung, externe Kontrolle) als wichtige Kriterien.

Das Rahmenmodell geht dabei über das hinaus, was ein individueller Nutzer leisten kann, und setzt auch einen entsprechenden Umgang im Team, in der Organisation und in der Industrie selbst (hier: öffentliche Verwaltung) voraus (Shneiderman, 2021). Dennoch lohnt es sich, die Kriterien guter Zusammenarbeit in Mensch-KI-Systemen auch als Nutzer zu betrachten.

7.6 Gestaltung der Zusammenarbeit in Mensch-KI-Systemen

Worauf ist bei der Entwicklung von KI-Anwendung zu achten, damit die Zusammenarbeit zwischen Mensch und System gut funktioniert? Dieses Unterkapitel erweitert das Kap. 6 („Gebrauchstauglichen Entwicklung von KI Anwendungen“), hier allerdings stärker auf den Interaktionsaspekt mit dem KI-System.

Die großen Softwareunternehmen (Microsoft, Apple, Google) haben Richtlinien für Mensch-KI-Interaktion herausgegeben. In diesem Unterkapitel stehen die Richtlinien von Microsoft (Amershi et al., 2019; Microsoft, 2019) im Vordergrund, da sie eine hilfreiche Übersicht darstellen und klar nach Phasen gegliedert sind:

Zu Beginn deutlich machen, was das System kann und wie gut das System dies machen kann.
Während der Interaktion den Kontext (Aufgabe, Umgebung) berücksichtigen, kontextrelevante Informationen zeigen, relevante soziale Normen berücksichtigen und soziale Voreingenommenheiten abmindern (siehe dazu auch Kap. 11: KI & Ethik).
Bei Fehlern, und hier wird realistischerweise davon ausgegangen, dass Fehler passieren und der Nutzer gut damit umgehen sollte, den effizienten Aufruf und das effiziente Beenden des KI-Systems unterstützen, effiziente Korrektur unterstützen, im Zweifel den Handlungsspielraum des Dienstes verändern (z. B. das System registriert eine hohe Unsicherheit bei einer Entscheidung und gibt eine Bitte um eine Nutzerentscheidung anstatt die Entscheidung selbst durchzuführen), und deutlich machen, warum das System das gemacht hat, was es gemacht hat.
Über die Zeit sollte das System sich an den Nutzer anpassen, indem es die letzten Interaktionen erinnert, vom Nutzungsverhalten lernt, Updates und Anpassungen behutsam vornimmt, den Nutzer zu Feedback anregt, die Konsequenzen des Nutzerverhaltens verdeutlicht, eine globale Kontrolle erlaubt, sowie den Nutzer über Veränderungen informiert.

Es gibt allerdings diverse weitere Gestaltungsrichtlinien. Auch Shneiderman (2020a, „Human-Centered Artificial Intelligence (HCAI) Framework“, vgl. Abschn. 7.4) hat z. B. „Prometheus Prinzipien“ aufgestellt. Dazu gehören eine konsistente Benutzeroberfläche, die es Nutzern erlaubt, Absichten zu formen, auszudrücken und zu widerrufen, das kontinuierliche Zeigen der interessanten Objekte und Aktionen, schnelle, inkrementelle und reversible Aktionen, die Prävention von Fehlern, informatives Feedback um jede Aktion des Nutzers zu bestätigen, Fortschrittsanzeigen, und Berichte über abgeschlossene Handlungen.

Es lohnt sich, zu prüfen inwiefern derzeit bekannte KI-Systeme diesen Kriterien genügen (die von Amershi et al., 2019 und die von Shneiderman, 2020a).

7.7 Fragen an KI-Anwendungen in der öffentlichen Verwaltung

Was sind Fragen, die man sich bei KI-Anwendungen in der öffentlichen Verwaltung stellen kann? Wie kann man die Gebrauchstauglichkeit sowie die weiteren Anforderungen von KI-Anwendungen überprüfen? Siehe dazu auch Unterkapitel 6.7 und 11.7.

Mensch-KI-Interaktion (Amershi et al., 2019, kombiniert mit Shneiderman, 2020a).

Zu Beginn

Macht die KI-Anwendung deutlich, was sie kann?
Macht die KI-Anwendung deutlich, wie gut sie es machen kann?

Während der Interaktion

Erlaubt die KI-Anwendung (v. a. deren Benutzeroberfläche) es Ihnen zu überlegen, was Sie erreichen möchten, die Absichten auch umzusetzen und ggfs. auch rückgängig zu machen?
Berücksichtigt die KI-Anwendung den Kontext (Aufgabe/Umgebung)?
Zeigt die KI-Anwendung kontextrelevante Informationen?
Sind die für Sie relevanten Informationen und Handlungen der KI-Anwendung kontinuierlich für Sie sichtbar?
Erhalten Sie informatives Feedback, wenn Sie die Anwendung bedienen (Eingaben und andere Aktionen durchführen)?
Wird Ihnen der Fortschritt der KI-Anwendung angezeigt?
Erhalten Sie einen Bericht über abgeschlossene Handlungen?
Berücksichtigt die KI-Anwendung relevante soziale Normen?
Mindert die KI-Anwendung soziale Voreingenommenheiten?
Werden Fehler durch die Anwendung soweit wie möglich verhindert (z. B. indem keine ungültigen Eingaben möglich sind)?

Bei Fehlern

Können Sie die KI-Anwendung mit wenig Aufwand aufrufen (schnelle, inkrementelle und reversible Aktionen)?
Können Sie die KI-Anwendung mit wenig Aufwand beenden?
Können Sie Korrekturen mit wenig Aufwand durchführen?
Reduziert die KI-Anwendung bei Unsicherheit ihren Handlungsspielraum (z. B. Hinweis auf Auffälligkeit statt Autokorrektur)?
Macht die KI-Anwendung deutlich, warum sie gemacht hat, was sie gemacht hat?

Über die Zeit

Erinnert sich die KI-Anwendung an die letzten Interaktionen?
Lernt die KI-Anwendung von Ihrem Verhalten?
Werden Updates und Anpassungen behutsam durchgeführt (Updates führen nicht zu gravierenden Veränderungen)?
Werden Sie zum Feedback angeregt?
Werden Ihnen die Konsequenzen Ihres Nutzerverhaltens verdeutlicht?
Können Sie die KI-Anwendung global kontrollieren (Einstellungen an einer Stelle, die sich auf das gesamte Verhalten des Systems auswirken)?
Werden Sie von der KI-Anwendung über Veränderungen informiert (bei Updates z. B. bezüglich neuer/veränderter Fähigkeiten der KI-Anwendung)?

KI-Anforderungen (Poretschkin et al., 2021)

Fairness

Ist die Anwendung fair – nach welcher Definition von Fairness?
Werden unverzerrte, faire, Entscheidungen getroffen? (siehe dazu Abschn. 11.7)

Autonomie/Kontrolle

Erlaubt das KI-System Ihnen einen angemessenen Grad von Autonomie und Kontrolle?
Hat menschliches Handeln weiterhin Vorrang (informiert, bewusste Abgabe an KI)?
Ist die Automationsstufe passend (Automation z. B. via Stufen von Sheridan & Verplank, 1978; Human Control/Human-in/on/out-of-the-Loop; Shneiderman, 2020a)?
Haben Sie ausreichend Handlungsspielraum?
Gibt es einen Ermessensspielraum, der berücksichtigt sein muss – wird dieser auch berücksichtigt?
Können Sie das Vorgehen der KI-Anwendung kontrollieren?
Können Sie die Ergebnisse der KI-Anwendung überprüfen?
Sind Sie weiterhin informiert (vollständige, sichtbare und zugängliche Informationen) und fähig (Qualifikation), die Tätigkeit notfalls selbst durchzuführen?
Können Sie die KI-Anwendung notfalls ausschalten?

Transparenz

Ist das Verhalten der Anwendung transparent?
Erklärbarkeit: Ist für Sie nachvollziehbar, wie eine Vorhersage zustande gekommen ist?
Interpretierbarkeit (des Modells bei maschinellem Lernen): Ist das Lernverfahren als Ganzes für Sie transparent?
Nachverfolgbarkeit und Reproduzierbarkeit: Ist sichergestellt, dass das Vorgehen und die Entscheidungen der KI-Anwendung dokumentiert werden?
Verlässlichkeit: Können Sie sich auf die KI-Anwendung verlassen?
Korrektheit: Sind die Ausgaben der KI-Anwendung korrekt?
Modellunsicherheit: Gibt Ihnen die KI-Anwendung Rückmeldung, mit welcher Wahrscheinlichkeit die Ausgaben korrekt sind?
Robustheit: Fängt die KI-Anwendung gestörte oder manipulierte Eingaben ab? Reagiert sie bei unerwarteten Situationen bzw. an den Grenzen des ML-Modells noch korrekt? Fängt sie mögliche Fehler ab (z. B. über „Sanity Checks“)?

Sicherheit

Ist die Anwendung sicher?
Funktionale Sicherheit („Safety“): Ist sichergestellt, dass die KI-Anwendung die Außenwelt nicht in Gefahr bringt oder schädigt?
IT-Sicherheit („ Security“ )
- Integrität: Ist die KI-Anwendung vor ihrer Umgebung (inkl. gezielte Manipulationen) geschützt?
- Verfügbarkeit: Ist die Verfügbarkeit der KI-Anwendung gewährleistet?

Datenschutz

Wird der Datenschutz gewahrt?
Werden die Datenschutz-Grundverordnung (DSGVO) und das Bundesdatenschutzgesetz (BDSG) eingehalten?
Wurden die folgenden Punkte eingehalten: Einwilligung der Betroffenen, Weiterverarbeitung nur mit Zustimmung, keine unberechtigten Zugriffsmöglichkeiten, weitreichendes und jederzeitiges Widerspruchsrecht, Information über Zweck und Einsatz der personenbezogenen bzw. daraus abgeleiteten Daten, Datensparsamkeit sowie zweckgebundenen Verwendung?

7.8 Übungsfragen: Mensch-KI-System

Zur Überprüfung Ihres Wissensstandes können Sie die folgenden Fragen beantworten.

Was ist mit MABA-MABA (oder HABA-MABA) gemeint?

Warum kann man eine KI-Anwendung nicht einfach als Kollegin sehen?

Welche Metapher von Steve Jobs ist hier vielleicht hilfreicher?

Welche Sichtweise haben Sheridan und Verplank (1978) bezüglich der Automation von Tätigkeiten?

Schauen Sie sich einmal Ihre Arbeitstätigkeiten an und überlegen Sie, welchen Grad der Automation von Sheridan und Verplank (1978) Sie für die entsprechende Tätigkeit oder Teilaufgabe dieser Tätigkeit akzeptieren würden.

Was ist mit Human Control/in/on/out of the Loop gemeint?

Schauen Sie sich einmal Ihre Arbeitstätigkeiten an und überlegen Sie, welchen Grad der Automation von Human Control/in/on/out of the Loop Sie für die entsprechende Tätigkeit oder Teilaufgabe dieser Tätigkeit akzeptieren würden.

Das Human-Centered Artificial Intelligence (HCAI) von Shneiderman (2020a) unterscheidet sich in einem Hauptpunkt von Sheridan und Verplank (1978) – welchem?

Schauen Sie sich einmal Ihre Arbeitstätigkeiten an und überlegen Sie, welche Quadranten (Computerkontrolle, menschliches Können, verlässliche, sichere, und vertrauenswürdige KI) sich für die entsprechende Tätigkeit oder Teilaufgabe dieser Tätigkeit eignen würden.

10.

Welche Vorbedingung muss für gute Zusammenarbeit zwischen Mensch und KI gegeben sein?

11.

Welche Punkte müssen (u. a. von Poretschkin et al., 2021) bei der Gewährleistung von Autonomie und Kontrolle beachtet werden?

12.

Welche Punkte müssen (nach Poretschkin et al., 2021) bei Transparenz/Nachvollziehbarkeit sichergestellt werden?

13.

Was umfasst (nach Poretschkin et al., 2021) die Verlässlichkeit eines KI-Systems?

14.

Was fällt (nach Poretschkin et al., 2021) unter Sicherheit?

15.

Welche Phasen der Interaktion unterscheiden die Richtlinien von Microsoft (Amershi et al., 2019) und welche Punkte sollten jeweils eingehalten werden?

16.

Was sind die „Prometheus Prinzipien“ von Shneiderman (2020a)?

17.

Wenn Sie eine KI-Anwendung verwenden, dann schauen Sie einmal, wie gut diese Kriterien (die von Amershi et al., 2019 und die von Shneiderman, 2020a) eingehalten wurden.

7.9 Aufgaben zum eigenen Anwendungsfall

In diesem Aufgabenteil schauen Sie sich die Interaktion zwischen dem Nutzer und der KI-Anwendung an.

Bewerten Sie die Anwendung mit den Kriterien von Amershi et al. (2019) sowie den zusätzlichen Kriterien von Shneiderman (2020a).
Berücksichtigen Sie hier auch das Kriterium „Sicherheit“ (KI-Anforderungen). Bewerten Sie die Anwendung. Falls hier Defizite vorliegen – welche Ideen haben Sie, wie man die Anwendung bezüglich funktionaler und IT-Sicherheit (letzteres sowohl was Integrität und Verfügbarkeit betrifft) verbessern könnte?
Modifizieren Sie ggfs. Ihre Anwendung, sodass die Mensch-KI-Interaktion besser funktionieren kann.

Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Vorheriges Kapitel Gebrauchstaugliche Entwicklung von KI-Anwendungen

Nächstes Kapitel Erklärbare KI

Amershi, S., Weld, D., Vorvoreanu, M., Fourney, A., Nushi, B., Collisson, P., Suh, J., Iqbal, S., Bennett, P. N., Inkpen, K., Teevan, J., Kikin-Gil, R., & Horvitz, E. (2019). Guidelines for human-ai interaction. In Proceedings of the 2019 CHI conference on human factors in computing systems (S. 1–13). Association for Computing Machinery. https://doi.org/10.1145/3290605.3300233.

Apple Inc. (2022). Human Interface Guidelines. Apple Computer, Inc. https://developer.apple.com/design/human-interface-guidelines/guidelines/overview/. Zugegriffen: 15. Okt. 2022.

Fitts, P. M. (1951). Human Engineering for an effective air-navigation and traffic-control system. Ohio State University Research Foundation.

Gode, A., & Franke, T. (2019). KI in der ÖV – Der Computer in Erklärungsnot? In Tagungsband der Veranstaltung am 20. März 2019 Künstliche Intelligenz – Politische Ansätze für eine moderne Gesellschaft (S. 21–22). opencampus.sh. http://resources.opencampus.sh/190320_KI-Tagungsband.pdf. Zugegriffen: 15. Okt. 2022.

IBM. (2019). Everyday Ethics for Artificial Intelligence. IBM Corp. https://www.ibm.com/watson/assets/duo/pdf/everydayethics.pdf. Zugegriffen: 15. Okt. 2022.

Microsoft. (2019). Guidelines for human-AI interaction. Microsoft. https://www.microsoft.com/en-us/research/project/guidelines-for-human-ai-interaction/. Zugegriffen: 15. Okt. 2022.

Poretschkin, M., Schmitz, A., Akila, M., Adilova, L., Becker, D., Cremers, A., Hecker, D., Houben, S., Mock, M., Rosenzweig, J., Sicking, J., Schulz, E., Voss, A., & Wrobel, S. (2021). Leitfaden zur Gestaltung vertrauenswürdiger Künstlicher Intelligenz–KI-Prüfkatalog. Fraunhofer IAIS. www.iais.fraunhofer.de/ki-pruefkatalog. Zugegriffen: 15. Okt. 2022.

Rohde, N. (25. October 2017). In Australien prüft eine Software die Sozialbezüge – und erfindet Schulden für 20.000 Menschen. Algorithmenethik. https://algorithmenethik.de/2017/10/25/in-australien-prueft-eine-software-die-sozialbezuege-und-erfindet-schulden-fuer-20-000-menschen/. Zugegriffen: 15. Okt. 2022.

Sheridan, T. B., & Verplank, W. L. (1978). Human and Computer Control of Undersea Teleoperators. Massachusetts Institute of Technology.

Shneiderman, B. (2020a). Human-centered artificial intelligence: Reliable, safe & trustworthy. International Journal of Human-Computer Interaction, 36(6), 495–504. https://doi.org/10.1080/10447318.2020.1741118.CrossRef

Shneiderman, B. (2020b). Bridging the gap between ethics and practice: Guidelines for reliable, safe, and trustworthy human-centered AI systems. ACM Transactions on Interactive Intelligent Systems, 10(4). https://doi.org/10.1145/3419764.

Shneiderman, B. (2021). Responsible AI: Bridging from ethics to practice. Communications of the ACM, 64(8), 32–35. https://doi.org/10.1145/3445973.CrossRef

Voigt, K.-I. (2018). Automatisierung. Gabler Wirtschaftslexikon. https://wirtschaftslexikon.gabler.de/definition/automatisierung-27138/version-250801. Zugegriffen: 15. Okt. 2022.

Titel: Mensch-KI-System
verfasst von: Daniel Wessel
Verlag: Springer Fachmedien Wiesbaden
Buch: Künstliche Intelligenz in öffentlichen Verwaltungen
Print ISBN: 978-3-658-40100-9

Electronic ISBN: 978-3-658-40101-6

Copyright-Jahr: 2023
DOI: https://doi.org/10.1007/978-3-658-40101-6_7

Springer Professional