nach oben

Erschienen in:

Open Access 2023 | OriginalPaper | Buchkapitel

6. Gebrauchstaugliche Entwicklung von KI-Anwendungen

verfasst von : Daniel Wessel

Erschienen in: Künstliche Intelligenz in öffentlichen Verwaltungen

Verlag: Springer Fachmedien Wiesbaden

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config

KI-gestützte Suche

Patentsuche

Aus

Zusammenfassung

Dieses Kapitel behandelt die Gebrauchstauglichkeit von Produkten, d. h. welche Eigenschaften ein Produkt wie eine KI-Anwendung aufweisen muss, damit man damit gut arbeiten kann. Der menschzentrierte Gestaltungsprozess wird als ein Weg dargestellt, solche gebrauchstauglichen Anwendungen zu entwickeln. Dabei wird auf die Rolle der zukünftigen Nutzer, die besonderen Anforderungen von KI-Anwendungen und der öffentlichen Verwaltung eingegangen.

6.1 Einleitung

Wie muss eine KI-Anwendung – oder jegliches Produkt – gestaltet sein, dass man „gut“ damit arbeiten kann? Und woran kann man „gut“ festmachen? Um diese Fragen zu beantworten werden zunächst drei Fallbeispiele vorgestellt (Abschn. 6.2) und der Begriff der Gebrauchstauglichkeit (Abschn. 6.3) definiert – was unter „gut arbeiten“ zu verstehen ist. Um gebrauchstaugliche Anwendungen zu entwickeln, bietet sich der menschzentrierte Gestaltungsprozess an, der die zukünftigen Nutzer und andere Betroffene frühzeitig einbezieht (Abschn. 6.4). Dabei stellen sowohl KI-Anwendungen (Abschn. 6.5) als auch die öffentliche Verwaltung (Abschn. 6.6) besondere Anforderungen. Um Ihnen die Möglichkeit zu geben, KI-Anwendungen zu bewerten, werden mögliche Frage vorgestellt, die Sie an KI-Anwendungen in der ÖV stellen können (Abschn. 6.7), gefolgt von einer Bitte, sich bei der menschzentrierten Entwicklung zu beteiligen (Abschn. 6.8). Zur Lernüberprüfung folgen Übungsfragen (Abschn. 6.9) und Aufgaben zum eigenen Anwendungsfall (Abschn. 6.10).

6.2 Fallbeispiele

Betrachtet man KI-Anwendungen daraufhin, inwieweit man gut mit ihnen arbeiten kann, lassen sich gute, schlechte und hässliche Anwendungen identifizieren.

Gute Anwendungen wie z. B. „Spotify“ (Streamingdienst für Musik, der mittels KI passende Musik für die Nutzer auswählt) „funktionieren einfach“. Sie hören Musik und bemerken nicht unbedingt, dass im Hintergrund ein System Ihre Musikpräferenzen lernt. Die Anwendung spielt einfach gute Musik. Sie erreichen auf einfache Art Ihr Ziel, gute Musik zu hören.

Schlechte Anwendungen wie z. B. Microsoft’s Clippy („Karl Klammer“, eine digitale animierte Büroklammer in einer frühen Microsoft Word-Version) versuchen zu helfen, erreichen aber das Gegenteil. Clippy erkannte zum Beispiel, wenn der Nutzer einen Brief schreibt – die Versuche, das Schreiben des Briefes zu unterstützen, waren jedoch eher hinderlich. Da das System erst erkennen konnte, was geschrieben wurde, wenn der Nutzer schon mit dem Schreiben angefangen hat, hat die Animation zu Beginn des Schreibprozesses Aufmerksamkeit auf sich gezogen und den Prozess unterbrochen. Anstatt zu unterstützen, das Ziel zu erreichen, hat das System den Nutzer behindert und frustriert.

Hässliche Anwendungen wie der fiktionale Computer „HAL 9000“ aus „2001: A Space Odyssey“ behindern den Nutzer nicht nur, sie arbeiten aktiv gegen den Nutzer und nehmen ihm Autonomie und Kontrolle. Auch wenn es sich hierbei um ein Science-Fiction-Beispiel handelt, gibt es – weniger gravierend – schon heute eingesetzte Anwendungen, welche die Möglichkeiten der Nutzer einschränken. Im einfachen Fall wird einem Sachbearbeiter zum Beispiel der Ermessensspielraum genommen, weil dies in der Anwendung nicht vorgesehen ist. Mit entsprechend „hässlichen“ Konsequenzen für den Antragsteller.

Die Aufgabe einer gebrauchstauglichen Entwicklung von KI-Anwendungen ist es, Anwendungen zu entwickeln, die „einfach funktionieren“, und Anwendungen wie Clippy oder gar HAL 9000 zu vermeiden.

6.3 Gebrauchstauglichkeit

Wenn gesagt wird, dass man mit einer Software – oder generell mit einem Produkt – „gut arbeiten“ kann, was genau ist damit gemeint? Um diese Anforderungen genauer zu definieren, bietet sich der Begriff der „Gebrauchstauglichkeit“ an. Dieser ist in der Norm EN ISO 9241-210:2010 wie folgt definiert:

„Gebrauchstauglichkeit: Ausmaß, in dem ein System, ein Produkt oder eine Dienstleistung durch bestimmte Benutzer in einem bestimmten Nutzungskontext genutzt werden kann, um festgelegte Ziele effektiv, effizient und zufriedenstellend zu erreichen.“ EN ISO 9241-210:2010.

Neben den drei Kriterien effektiv, effizient und zufriedenstellend ist zusätzlich – nach einer Definition von Batinic und Appel (2008) – noch die Erlernbarkeit wichtig. Damit ergeben sich folgende Kriterien für „gut arbeiten“:

Effektivität (Zielerreichung): Können die Ziele erreicht werden, z. B. einen Antrag zu bearbeiten?
Effizienz (Aufwand; schnell & ohne Fehler): Können die Ziele mit wenig Aufwand, d. h. schnell und ohne Korrekturen erreicht werden?
Erlernbarkeit (einfach erlernbar): Ist die Arbeit mit der Anwendung leicht erlernbar – und findet man sich schnell wieder zurecht, wenn man sie lange nicht bedient hat?
Zufriedenstellung (positive Einstellung): Hat man ein zufriedenstellendes Gefühl, wenn man mit der Anwendung arbeitet?

Gebrauchstauglichkeit zu gewährleisten, ist alles andere als einfach. Selbst bei Benutzeroberflächen (Interfaces), die „offensichtlich“ zu bedienen sind, kann es zu Fehlern bei der Benutzung kommen. So kann z. B. der Fingerabdrucksensor eines iPhones trotz einer augenscheinlich eindeutigen Abbildung missverstanden werden und der Finger auf den Screen, statt auf dem Home-Button, gelegt werden. Ein kleiner Fehler, den die Person zwar selbst beheben kann, aber ein gutes Beispiel, dass es selbst bei Weltmarktführern wie Apple zu Problemen in der Gebrauchstauglichkeit kommen kann.

Ein anschauliches Beispiel für eine fiktive Anwendung, bei der alle vier vorgestellten Gebrauchstauglichkeitskriterien verletzt sind, sieht man in dem Kurzfilm „Lifted“ von Pixar. Sie finden das Video z. B. auf YouTube. In diesem Kurzfilm versucht ein Außerirdischer einen Menschen zu entführen – scheitert dabei aber an einer nicht gebrauchstauglichen Benutzeroberfläche. Die vielen kleinen Schalter machen die Anwendung schwer zu erlernen (schlechte Erlernbarkeit). Sie führen – zum Leidwesen des Menschen – zu einem langwierigen Prozess mit vielen Fehlern (nicht effizient). Das führt letztlich dazu, dass das Ziel nicht erreicht wird (nicht effektiv). Und insgesamt tritt dadurch mangelnde Zufriedenheit auf (keine Zufriedenstellung). Ein fiktives Beispiel mit einer Benutzeroberfläche, die so nie konstruiert werden würde. Es bringt durch die Überspitzung allerdings die Frustration vieler Nutzer mit schlecht entwickelten, d. h. nicht gebrauchstauglichen, Anwendungen auf den Punkt.

Um zu beurteilen, inwieweit eine Anwendung gebrauchstauglich ist, müssen die Kriterien genau erfasst werden. Es gibt verschiedene Möglichkeiten, die Kriterien der Gebrauchstauglichkeit zu messen (zu „operationalisieren“, d. h. Operationen angeben, wie diese erfasst werden können). Dazu gehören z. B. Beobachtungen (messen ob die Ziele erreicht wurden und wieviele Fehler auftreten), Eye Tracking (messen wohin die Person auf dem Bildschirm schaut, z. B. ob die relevanten Informationen gesehen wurden), oder Fragebögen (Bewerten der Gebrauchstauglichkeit über Selbstauskünfte). Insbesondere Verhaltensmaße (im Gegensatz zu Selbstauskünften bei Fragebögen) sind hilfreich um zu überprüfen, z. B. ob eine Person eine Aufgabe wirklich erfolgreich bearbeitet und wieviel Zeit sie dafür benötigt hat. Fragebögen haben allerdings den Vorteil, dass sie sehr gut skalieren – man kann schnell hunderte von Nutzern befragen. Ein älterer aber häufig eingesetzter Fragebogen ist die System Usability Scale (SUS). Er besteht aus zehn Fragen (z. B. ob das System einfach zu benutzen ist, schnell zu erlernen ist, etc.). Der Vorteil dieses Fragebogens ist, dass die Auswertung klar vorgegeben ist und ein Bewertungsmaßstab vorgegeben wird (vgl. Bangor et al., 2008).

Wie kann man gewährleisten, oder zumindest wahrscheinlicher machen, dass eine Anwendung auch gebrauchstauglich ist? Dafür bietet sich der menschzentrierte Gestaltungsprozess an.

6.4 Menschzentrierte Gestaltung

Wie kann man Anwendungen entwickeln, die auch wirklich gebrauchstauglich sind? Ein Weg ist die Verwendung des menschzentrierten Gestaltungsprozesses nach der Norm „Ergonomie der Mensch-System-Interaktion Teil 210: Prozess zur Gestaltung gebrauchstauglicher interaktiver Systeme“ (DIN EN ISO 9241-210, 2011).

Der Prozess beginnt mit dem Planen des menschzentrierten Gestaltungsprozesses (z. B. Methoden, Zeitplan und Ressourcen festlegen). Danach versucht man, den Nutzungskontext zu verstehen und legt ihn genauer fest (wer sind die Benutzer, welche Aufgaben sollen getätigt werden, etc.). Daraus ergeben sich die Nutzungsanforderungen, die im folgenden Prozess immer wieder zur Bewertung der Qualität der Lösungen verwendet werden. Sie sind auch die Basis für den nächsten Schritt, die Erarbeitung von Gestaltungslösungen, welche die Nutzungsanforderungen erfüllen sollen. Dazu gehören z. B. die Erarbeitung von Zeichnungen bis hin zu bedienbaren Anwendungen. Diese Lösungen werden auf Basis der Nutzungsanforderungen bewertet (evaluiert). Dies geschieht schon während des Gestaltungsprozesses, indem z. B. erste Skizzen der Anwendungen von der Zielgruppe bewertet werden und das Feedback in die Überarbeitung eingeht (formative Evaluation).

Kernbestandteil dieses Prozesses sind die Iterationen – man erwartet nicht, dass der erste Entwurf einer Anwendung direkt die Nutzungsanforderungen gut erfüllt. Stattdessen ist eingeplant, und erwünscht, zu früheren Schritten zurückzugehen. Dazu gehört das Verstehen und Festlegen des Nutzungskontextes, wenn sich in der Evaluation herausstellt, dass z. B. bestimmte Personengruppen oder Bedingungen nicht ausreichend bekannt sind (z. B. wenn sich bei einer Gestaltungslösung herausstellt, dass Prozesse in der Praxis anders ausgeführt werden). Es können auch die Nutzungsanforderungen überarbeitet werden (z. B. Anforderungen hinzufügen oder anders priorisieren) oder neue Gestaltungslösungen auf Basis des Evaluationsfeedbacks erarbeitet werden. Über meist mehrere Iterationen wird so eine Anwendung entwickelt, welche die Nutzungsanforderungen erfüllt. Diese Anwendung kann dann in einer abschließenden (summativen) Evaluation von einer größeren Gruppe von Nutzern bewertet werden.

Zentral im menschzentrierten Gestaltungsprozess ist, dass bei all diesen Schritten die Nutzer involviert werden – sowie die Personen, die von der Anwendung betroffen sind (Stakeholder). So werden bei einem Entscheidungsunterstützungssystem in der Sozialverwaltung (ein KI-System schlägt beispielsweise vor, welchen Anträgen stattgegeben werden sollte) z. B. die Sachbearbeiter zum Verstehen und Festlegen des Nutzungskontextes, der Bestimmung der Anforderungen und Bewertung der Lösungen einbezogen. Werden Bescheide z. B. automatisch verschickt, sollten als Betroffene auch die Antragsteller mit einbezogen werden (z. B. inwieweit der automatisch generierte Begründungstext für eine Ablehnung nachvollziehbar ist). Es sind die Nutzer, und die Betroffenen, die frühzeitig und wiederholt die Gebrauchstauglichkeit der Anwendung bewerten. Ihr Feedback wird in nachfolgenden Entwürfen berücksichtigt, um die Anwendung immer besser zu gestalten, bis sie schließlich die Anforderungen gut erfüllt.

Praktisch kann ein solcher menschzentrierter Gestaltungsprozess in die Phasen der Analyse, Konzeption (mit formativen Evaluationen), Realisierung und abschließende Evaluation unterteilt werden.

6.4.1 Analysephase

In der Analyse versucht man, den Nutzungskontext und die Anforderungen genau zu verstehen. Dabei helfen unter anderem die folgenden Analysen:

Benutzeranalyse: Wer sind die Personen, welche die Software verwenden bzw. davon beeinflusst werden (Stakeholder)? Was kennzeichnet sie? Was muss berücksichtigt werden?
Problem-/Aufgabenanalyse: Welche Aufgaben sollen mit der Software bearbeitet werden? Welche Probleme gilt es zu überwinden? Wie sieht die Arbeitstätigkeit für den Nutzer aus?
Organisationsanalyse: Welche organisationalen oder rechtlichen Rahmenbedingungen müssen beachtet werden?
Kontextanalyse: Wie ist der räumliche und zeitliche Kontext bei der Nutzung? Was muss hier beachtet werden?

Beispiel: Benutzeranalyse

Bei der Benutzeranalyse sind u. a. Interviews und Umfragen hilfreich, um die Nutzer zu verstehen und angemessen zu berücksichtigen. Bei KI-Systemen sind es v. a. Einstellungen, die über den Erfolg oder Misserfolg einer Software entscheiden können. Aber auch Vorwissen sowie evtl. zu hohe oder falsche Erwartungen müssen adressiert werden. Befragt man Mitarbeiter der öffentlichen Verwaltung zu KI-Systemen, dann kann unter Umständen beobachtet werden, dass viele Mitarbeiter davon ausgehen, dass ein KI-System schnell, objektiv, effizient und um jede Uhrzeit arbeitet. Man kann aber auch feststellen, dass dem KI-System weitgehend der Blick auf den Einzelfall abgesprochen wird. Ein Entscheidungsunterstützungssystem in der Sozialverwaltung, bei denen Mitarbeiter von KI-Systemen unterstützt werden sollen, muss z. B. solche Einstellungen adressieren. Dies kann beispielsweise dadurch passieren, dass ein KI-System nur Vorschläge macht bzw. die Erfüllung von Kriterien beurteilt, der Mitarbeiter aber weithin Ermessensspielraum nutzen kann.

Insbesondere bei der Einführung von KI-Systemen in Verwaltungsbereiche kann es hilfreich sein, die Einstellung der Mitarbeiter zu KI zu klassifizieren. Zhu und andere (2021) haben dafür ein Modell entwickelt, welches Personen in vier Quadranten gruppiert. Es verwendet eine rationale (kognitive, was denken die Personen über KI) und eine emotionale (was ist das „Bauchgefühl“ bei KI) Dimension. Die „KI-Furchtlosen“ sehen die Vorteile und sind optimistisch, was KI betrifft. Die „KI-Skeptiker“ haben ebenfalls positive Emotionen und sind interessiert an KI, möchten aber den Wert klar erkennen können. Die „KI-Zurückhaltenden“ sehen zwar kognitiv die Vorteile, KI fühlt sich für diese Personen allerdings nicht gut an, sie sind misstrauisch. Die „KI-Abweichler“ oder „KI-Dissidenten“ sehen weder die Vorteile, noch fühlt sich KI für diese Gruppe positiv an.

Auch wenn Kognition und Emotion keine unabhängigen Dimensionen sind (was Menschen denken, beeinflusst stark was sie fühlen und umgekehrt), hat das Modell einen hohen praktischen Nutzen. So sollten alle Gruppen in der menschzentrierten Entwicklung angesprochen werden und Feedback geben. Ein weiterer Nutzen liegt im Change Management, da es hilft, die unterschiedlichen Gruppen spezifisch anzusprechen. KI-Zurückhaltende sehen zum Beispiel schon die Vorteile – rationale Argumente, dass der Einsatz von KI zu mehr Effizienz führend wird, sind überflüssig. Das ist dieser Gruppe bekannt – sie hat eher emotionale Bedenken, ein schlechtes Bauchgefühl, wohin z. B. der Einsatz von KI führen könnte. Diese Gruppe muss man auf der emotionalen Ebene ernst nehmen und adressieren. Zhu und andere (2021) empfehlen u. a. die Furchtlosen als Multiplikatoren zu nutzen, die Bedenken der Dissenter zu adressieren, den Skeptikern zuzuhören (u. a. da sie konstruktiv-kritisch Probleme identifizieren können), und aus den Zurückhaltenden Furchtlose zu machen, indem man ihre Emotionen ernst nimmt und adressiert. Insbesondere muss man die emotionale Seite ernst nehmen. Bedenken, u. a. bezüglich Arbeitsplatzsicherheit, Arbeitsinhalt, Einfluss von KI auf die Gesellschaft (menschliche Intelligenz wird abgewertet, Wert von Menschen und Menschenwürde), müssen adressiert werden. Zum Beispiel sollten KI-Systeme vor allem menschliche Aktivitäten ergänzen und Autonomie und Kontrolle des Menschen fördern statt nehmen (siehe dazu auch Kap. 7). Einen großen Einfluss hat auch der erste Kontakt mit einer KI-Anwendung im Arbeitskontext. Die ersten Anwendungen müssen flexibel, verlässlich und einfach zu bedienen sein. Zum Teil müssen aber auch Erwartungen im Vorfeld adressiert werden und evtl. Organisationsstrukturen, soziale Normen und Gesetze verändert werden.

Zhu und andere (2021) haben auch analysiert, mit welchen Variablen die Zuteilung in die Quadranten einhergeht. Hierbei stellte sich heraus, dass z. B. nicht Alter oder Geschlecht den Ausschlag geben, sondern Aspekte wie „Technologieoptimismus“, „wahrgenommene kognitive Fähigkeiten von KI“, „wahrgenommene operative Fähigkeiten von KI“, „vermutete schädliche Auswirkungen von KI“, und die „Wissensintensität der eigenen Arbeit“.

Beispiel: Aufgaben-/Problemanalyse

Bei der Aufgaben-/Problemanalyse wird der Arbeitsprozess genau untersucht und z. B. auf den möglichen Einsatz von KI überprüft. Dieses Vorgehen zeigt die Arbeit von Houy et al. (2020). Die Autoren haben zuerst den Arbeitsprozess ohne KI erarbeitet. Aufgrund der Zerlegung in die Teilschritte kann dann bei jedem Schritt überprüft werden, ob bzw. inwieweit KI-Systeme den Prozessschritt unterstützen können. Der untersuchte Prozess kann z. B. über Handschriftenerkennung (Optical Character Recognition, OCR), Robotic-Process-Automation (RPA), Vollständigkeitsprüfungen (u. a. via Natural Language Processing/NLP) oder Bescheiderstellung via Natural Language Generation unterstützt werden.

6.4.2 Konzeptionsphase

In der Konzeptionsphase werden mögliche Gestaltungslösungen entwickelt. Hierbei versucht man möglichst viele verschiedene Ideen zu generieren (divergent zu denken). Diese werden von den Nutzern bewertet und das Feedback wird für neue Gestaltungslösungen aufgegriffen (formative Evaluation). Die besten Ideen werden weiter ausgearbeitet. Die Kriterien für gebrauchstaugliche Anwendungen (effektiv, effizient, zufriedenstellend, leicht erlernbar) sind hier zentral bei der Bewertung.

Als Anwender wird man meist mit Skizzen von möglichen Benutzeroberflächen konfrontiert, zu denen man Feedback geben soll. Die Skizzen wirken dabei einfach und unfertig, weil sie bewusst vorläufig sind. Würde man direkt programmierte oder echt aussehenden Benutzeroberflächen zeigen, ist das Feedback meist zurückhaltender und geht zu stark auf kleine Details ein (z. B. Position von Buttons, Farbgestaltung). Wichtiger ist erst einmal, grundsätzliches Feedback zu erhalten. Es gibt auch eine Reihe von Heuristiken („Daumenregeln“), die bei der Gestaltung zu berücksichtigen sind. Die Bekanntesten stammen von Nielsen (1994).

6.4.3 Realisierungsphase

In der Realisierungsphase wird die Anwendung programmiert. Hierbei versucht man sich möglichst nahe an die beste Idee aus der Konzeption zu halten, wobei auch während oder nach der Entwicklung die Anwendung evaluiert und gegebenenfalls weiter verbessert wird.

6.4.4 Summative Evaluationsphase

Bei der Entwicklung werden die Nutzer, wie beschrieben, in jeder Phase einbezogen. Ihr Feedback ist entscheidend, um eine gebrauchstaugliche – d. h. effektive, effiziente, zufriedenstellende und leicht erlernbare – Anwendung zu entwickeln.

Während der Entwicklung (v. a. in der Konzeptionsphase) passiert dies innerhalb von formativen Evaluationen, bei denen wenige Nutzer schnell Feedback geben. Nach der Realisierung sollte die finale Lösung abschließend (summativ) evaluiert werden. Hierbei wird Feedback von einer größeren Menge von Nutzern eingeholt, idealerweise durch Verwendung der Anwendung im echten Nutzungskontext mit realistischen (oder echten) Aufgaben.

6.4.5 Fazit zur menschzentrierten Gestaltung

Auch wenn der menschzentrierte Gestaltungsprozess nicht garantieren kann, dass die Anwendung nach der Entwicklung für alle Nutzer gebrauchstauglich ist – das kann bei einer kreativen Tätigkeit kein Prozess – macht er die Entwicklung einer solchen gebrauchstauglichen Anwendung wahrscheinlicher. Die Nutzer werden ernst genommen und in die Entwicklung einbezogen. Mögliche Probleme können bereits in frühen Stadien der Entwicklung identifiziert und – mit wesentlich weniger Aufwand als bei einer fertig realisierten Anwendung – behoben werden.

6.5 Besondere Anforderungen bei KI-Anwendungen

KI-Anwendungen müssen – da sie z. B. beim Entscheiden unterstützen oder sogar (teil-)autonom agieren – zusätzlich zu den erwähnten Kriterien von Gebrauchstauglichkeit (Abschn. 6.3; Effektivität, Effizienz, Zufriedenstellung, und Erlernbarkeit, EN ISO 9241-210:2010 und erweitert mittels Batinic & Appel, 2008) noch weitere Anforderungen erfüllen. Die Anforderungen für KI-Anwendungen lassen sich unter dem Begriff „Vertrauenswürdigkeit“ zusammenfassen (Poretschkin et al., 2021) und umfassen Fairness, Autonomie und Kontrolle, Transparenz, Verlässlichkeit, Sicherheit, sowie Datenschutz.

Der Prüfkatalog von Poretschkin und anderen (2021) gibt hier eine sehr detaillierte Übersicht dieser Kriterien. Bei der Berücksichtigung der Kriterien müssen sowohl Nutzer und Betroffene, aber auch z. T. Experten berücksichtigt werden (z. B. wenn es um die Transparenz eines Systems geht). Speziell bei Anwendungen, die maschinelles Lernen (ML) verwenden, ist zu beachten, dass damit häufig probabilistische Entscheidungen getroffen werden. Die Qualität, z. B. der Unterstützung, variiert dadurch, was eine Bewertung (Evaluation) der Anwendung erschwert. Auch gibt es ML-Anwendungen, die im Laufe des Betriebs weiter lernen – bei diesen kann man sich nicht auf eine Bewertung unmittelbar nach der Entwicklung verlassen. Das System kann durch das Lernen nicht nur besser werden, sondern auch falsche Entscheidungen lernen („model drift“). Schließlich müssen noch Veränderungen der Eingabedaten oder Rahmenbedingungen berücksichtigt werden, die zu schlechteren Entscheidungen führen können („concept drift“). Das ist zum Beispiel der Fall wenn nach einer Gesetzesänderung die auf die vorherigen Gesetze trainierte KI jetzt falsche Empfehlungen geben würde.

Bei der Berücksichtigung der Kriterien werden in den meisten Fällen Zielkonflikte nicht ausbleiben, die thematisiert und adressiert werden müssen. So kann z. B. ein Zielkonflikt zwischen Fairness und Genauigkeit auftreten. Parameter, die aus Fairnessgründen (keine ungerechtfertigte Diskriminierung auf Basis von z. B. Geschlecht, Hautfarbe, oder Migrationshintergrund) nicht berücksichtigt werden dürfen, könnten dennoch insgesamt zu einer besseren Vorhersage führen. Auch kann ein Zielkonflikt zwischen Transparenz und Sicherheit vorliegen – ein System, das komplett „durchschaubar“ ist, kann auch leichter von außen manipuliert werden.

Der Bericht von Poretschkin und anderen (2021) gibt auf 166 Seiten einen Leitfaden zur strukturierten Identifikation KI-spezifischer Risiken, eine Anleitung zur Formulierung von Prüfkriterien sowie eine Anleitung zur strukturierten Dokumentation von technischen und organisatorischen Maßnahmen für den Einsatz von KI-Anwendungen.

Es gibt noch viele weitere Richtlinien zum Einsatz von KI. Die großen Softwareunternehmen (Google, Microsoft, Apple, etc.) geben auch Empfehlungen heraus, wie KI-Anwendungen entwickelt werden sollten und welche Kriterien sie erfüllen sollten. Die „Responsible AI Practices“ von Google empfehlen u. a., menschzentriert zu entwickeln (vgl. Abschn. 6.4), unterschiedliche Metriken für Training und Überwachungen verwenden, falls möglich, die Rohdaten auf mögliche Verzerrungen zu untersuchen (vgl. Kap. 11 KI & Ethik), die Beschränkungen des Datensatzes und des Models zu verstehen, und schließlich zu „testen, testen, testen“. Insbesondere beim maschinellen Lernen sollte man nicht erwarten, dass das maschinelle Lernen herausfindet, welche Probleme gelöst werden sollten. Es ist zu überlegen, ob maschinelles Lernen wirklich einen einzigartigen Beitrag leistet (regelbasierte Lösungen nicht unterschätzen) und zu prüfen, welche Kosten durch falsche Entscheidungen (falsch positiv/falsch negativ) entstehen können (Lovejoy & Holbrook, 2017). Insbesondere zur Vermeidung von Fehlinvestitionen bietet sich die „Wizard-of-Oz“-Methode an. Der Nutzer hat bei der Evaluation der Anwendung den Eindruck mit einem KI-System zu interagieren, in Wirklichkeit werden die intelligenten Handlungen allerdings von einem Menschen getätigt, der für den Nutzer nicht sichtbar ist (daher „Wizard-of-Oz“, „Pay no attention to that man behind the curtain!“). Erst wenn die so simulierte KI-Anwendung wirklich positiv bewertet wird – z. B. eine effizientere und effektivere Bearbeitung erlaubt – wird das System entwickelt.

6.6 Besondere Anforderungen der öffentlichen Verwaltung

Die öffentliche Verwaltung unterliegt weiteren, besonderen Regelungen, u. a. was die Transparenz, Nachvollziehbarkeit und Erklärbarkeit von Entscheidungen betrifft (Gode & Franke, 2019, siehe hierbei u. a. Artikel 22 der DSGVO). Entscheidungen müssen z. B. begründbar sein – und das muss mehr sein als „die KI hat es so gesagt“. Des weiteren müssen bestehende Prozesse in Behörden berücksichtigt werden. Mehr Informationen dazu im Kap. 12 KI und Recht.

6.7 Fragen an KI-Anwendungen in der öffentlichen Verwaltung

Was sind Fragen, die man sich bei KI-Anwendungen in der öffentlichen Verwaltung stellen kann? Wie kann man die Gebrauchstauglichkeit sowie die weiteren Anforderungen von KI-Anwendungen überprüfen? Siehe dazu auch Unterkapitel 7.7 und 11.7.

Wie sieht die Gebrauchstauglichkeit der Anwendung aus (Batinic & Appel, 2008 , EN ISO 9241-210, 2010)?

Effektivität: Können Sie mit der Anwendung Ihre Ziele erreichen?
Effizienz: Ist der Aufwand im Vergleich im Ergebnis gering (z. B. wenige Korrekturen notwendig)?
Erlernbarkeit: Können Sie den Umgang mit der Anwendung leicht erlernen?
Zufriedenstellung: Können Sie mit der Anwendung zufriedenstellend arbeiten?

Wie gut werden die KI-Anforderungen der Anwendung erfüllt (siehe dazu auch Abschn. 7.7 )?

Fairness: Ist die Anwendung fair (und wie ist „fair“ hier definiert, vgl. Abschn. 11.7)?
Autonomie & Kontrolle: Erlaubt sie Ihnen den richtigen Grad von Autonomie und Kontrolle?
Transparenz: Ist das Verhalten der Anwendung transparent?
Verlässlichkeit: Können Sie sich auf die Anwendung verlassen?
Sicherheit: Ist die Anwendung sicher?
Datenschutz: Wird der Datenschutz gewahrt?

Auch wenn man nicht alle Fragen beantworten kann, lohnt es sich, KI-Anwendungen in der öffentlichen Verwaltung kritisch und differenziert zu hinterfragen. Werden Defizite identifiziert, können sie im Rahmen des menschzentrierten Gestaltungsprozesses überarbeitet und verbessert werden.

6.8 Ihr Beitrag bei der menschzentrierten Entwicklung von KI-Anwendungen für die öffentliche Verwaltung

Die menschzentrierte Entwicklung von KI-Anwendungen kann nur dann gelingen, wenn sich die Nutzer auch bei der Entwicklung beteiligen, sprich: Feedback geben. Hierbei müssen die Nutzer, die Feedback geben, die spätere Nutzergruppe möglichst gut abbilden (repräsentativ dafür sein).

Eine relevante Eigenschaft, die berücksichtigt werden sollte, ist, wie gerne sich die Personen mit Technik auseinandersetzen (Affinität für Technikinteraktion, ATI). Diese reicht von sehr gering (die Personen interagieren mit Technik nur, wenn sie es wirklich müssen, ihnen genügt es, wenn die Technik einfach funktioniert, und grundlegendes Wissen reicht ihnen aus) bis sehr hoch (Personen möchten Technik explorieren, möchten verstehen, wie sie funktioniert, und verbringen gerne Zeit mit der Interaktion mit Technik). Ein Risiko bei der menschzentrierten Entwicklung ist, dass sich v. a. Personen am Entwicklungsprozess durch das Testen und Geben von Feedback beteiligen, die gerne mit Technik interagieren. Personen, die keinen Spaß oder Interesse an der Interaktion mit Technik haben, überlassen das Feedback geben diesen Personen – schließlich haben diese Spaß daran und melden sich schnell dafür. Das Problem ist dann allerdings, dass die Anwendung zwar iterativ verbessert wird, allerdings für die Mitarbeiter, die gerne mit Technik interagieren. Die Benutzeroberfläche und die Funktionen werden immer mehr so gestaltet wie Personen, die gerne mit Technik interagieren, sie haben möchten – und immer weniger wie Personen, die nur wollen, dass die Technik einfach funktioniert. Es kann entsprechend zu einem Matthäus-Effekt kommen: „Denn wer da hat, dem wird gegeben, dass er die Fülle habe; wer aber nicht hat, dem wird auch das genommen, was er hat.“ (Matthäus-Evangelium, vgl. Wessel et al., 2020).

Entsprechend ist es – auch für die eigene spätere Arbeitszufriedenheit – entscheidend, dass auch Personen mit geringer Affinität für Technikinteraktion Feedback bei der Entwicklung von Anwendungen geben. Dafür sind keine technischen Kenntnisse nötig. Mitarbeiter der öffentlichen Verwaltung sind Inhaltsexperten. Sie bringen die inhaltlich-fachliche Expertise ein und bewerten die Gestaltungslösungen, indem sie damit versuchen, ihre Sachaufgaben zu bearbeiten. Wie die Anwendung dann konkret umgesetzt wird, die technisch-kreative Expertise, das ist Aufgabe der Entwickler. In der Hinsicht greift Henry Ford’s Kommentar „Wenn ich die Menschen gefragt hätte, was sie wollen, hätten sie gesagt ‚schnellere Pferde‘.“ zu kurz. Nutzer informieren die Entwickler über Anforderungen (hier z. B. schneller zum Ziel zu kommen). Wie diese technisch erreicht werden können, ist Aufgabe der Entwickler, nicht der Nutzer.

Entsprechend, beteiligen Sie sich, wenn Sie die Chance haben. Geben Sie Feedback über den gesamten Prozess, von den konkret zu erreichenden Zielen, das Verständnis und die genaue Festlegung des Nutzungskontextes, die spezifischen Nutzungsanforderungen die Konzeption bzw. Bewertung der möglichen Umsetzungen (Gestaltungslösungen) sowie die abschließende oder gar kontinuierliche Bewertung der Software. Es lohnt sich.

6.9 Übungsfragen: Gebrauchstaugliche Entwicklung von KI-Anwendungen

Zur Überprüfung Ihres Wissensstandes können Sie die folgenden Fragen beantworten.

Wie ist Gebrauchstauglichkeit definiert?

Welche Kriterien muss Gebrauchstauglichkeit nach EN ISO 9241-210:2010 und erweitert mittels Batinic & Appel (2008) erfüllen?

Wie können Sie die Gebrauchstauglichkeit einer Anwendung feststellen?

Skizzieren Sie den menschzentrierten Gestaltungsprozess nach DIN EN ISO 9241-210 (2011).

In welche Phasen gliedert sich ein Entwicklungsprozess üblicherweise?

Welche Analysen kann man u. a. durchführen, um den Nutzungskontext besser zu verstehen? Was schaut man sich in diesen Analysen jeweils an?

Skizzieren Sie einmal eine Ihrer typischen Arbeitstätigkeiten (ähnlich wie es Houy et al., 2020) gemacht haben. An welchen Stellen könnte die Tätigkeit mit welchen KI-Methoden unterstützt werden? Zur Erinnerung, bei Houy et al. (2020) wurden u. a. Handschriftenerkennung/OCR Robotic-Process-Automation (RPA), Natural Language Processing (NLP), und Natural Language Generation eingesetzt.

Welche zehn Heuristiken sollten nach Nielsen (1994) berücksichtigt werden? Was ist mit ihnen jeweils gemeint?

Welche weiteren Anforderungen müssen KI-Anwendungen (nach Poretschkin et al., 2021) erfüllen, um vertrauenswürdig zu sein?

6.10 Aufgaben zum eigenen Anwendungsfall

Eine KI Anwendung arbeitet selten vollständig autonom – die Nutzer werden mit der Anwendung und ihren Ergebnisse interagieren und sie teilweise auch überwachen müssen. Dafür ist ein gebrauchstaugliche Anwendung, speziell ein Mensch-KI-Interface, notwendig.

In diesem Abschnitt wird entsprechend die Gebrauchstauglichkeit der geplanten Anwendung bewertet sowie eine mögliche Evaluation des Systems konzipiert. Hierfür bietet es sich an, das nächste Kapitel (Kap. 7: Mensch-KI-System) vor der Bewertung der Anwendung zu berücksichtigen.

Beschreiben Sie zuerst eine Beispiel-Situation, in welcher der Nutzer mit der KI-Anwendung interagiert, anhand derer das Zielszenario Ihres Projektes deutlich wird. Z. B. das KI-System wertet die oben genannten Daten aus und macht Vorschläge – was sieht bzw. macht der Nutzer?
Skizzieren (zeichnen! ca. eine halbe Seite) Sie die Benutzeroberfläche Ihrer KI-Anwendung (Sie können es einfach halten, man muss nur verstehen, wie der Nutzer mit dem System interagiert).
Bewerten Sie die Gebrauchstauglichkeit mittels der Gebrauchstauglichkeitskriterien Effektivität, Effizienz, Zufriedenstellung und Erlernbarkeit. Beachten Sie auch die Anforderungen an KI-Anforderungen wie Autonomie/Kontrolle, Transparenz und Verlässlichkeit. Stellen Sie z. B. als Tabelle dar, welches Kriterium Sie wie erfassen können (z. B. anhand welcher beobachtbarer Maße oder mit welchen Fragen). Woran würde man bei der Beispielsituation erkennen, dass das Kriterium erfüllt ist?

Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Vorheriges Kapitel KI-Strategie

Nächstes Kapitel Mensch-KI-System

Bangor, A., Kortum, P. T., & Miller, J. T. (2008). An empirical evaluation of the system usability scale. International Journal of Human-Computer Interaction, 24(6), 574–594.CrossRef

Batinic, B., & Appel, M. (2008). Medienpsychologie. Springer Medizin.

DIN Deutsches Institut für Normung e. V. (2011). DIN EN ISO 9241-210. Ergonomie der Mensch-System-Interaktion – Teil 210: Prozess zur Gestaltung gebrauchstauglicher interaktiver Systeme. Beuth Verlag.

Gode, A., & Franke, T. (2019). KI in der ÖV – Der Computer in Erklärungsnot? In Tagungsband der Veranstaltung am 20. März 2019 Künstliche Intelligenz – Politische Ansätze für eine moderne Gesellschaft (S. 21–22). opencampus.sh. http://resources.opencampus.sh/190320_KI-Tagungsband.pdf. Zugegriffen: 15. Okt. 2022.

Houy, C., Gutermuth, O., Fettke, P., & Loos, P. (2020). Potentiale Künstlicher Intelligenz zur Unterstützung von Sachbearbeitungsprozessen im Sozialwesen (No. 8; Berichte des NEGZ). Nationales E-Government Kompetenzzentrum e. V.

Lovejoy, J., & Holbrook, J. (2017). Human-centered machine learning. Google Design. https://medium.com/google-design/human-centered-machine-learning-a770d10562cd. Zugegriffen: 15. Okt. 2022.

Nielsen, J. (1994/2020). 10 Usability heuristics for user interface design. NN/g Nielsen Norman Group. https://www.nngroup.com/articles/ten-usability-heuristics/. Zugegriffen: 15. Okt. 2022.

Poretschkin, M., Schmitz, A., Akila, M., Adilova, L., Becker, D., Cremers, A., Hecker, D., Houben, S., Mock, M., Rosenzweig, J., Sicking, J., Schulz, E., Voss, A., & Wrobel, S. (2021). Leitfaden zur Gestaltung vertrauenswürdiger Künstlicher Intelligenz – KI-Prüfkatalog. Fraunhofer IAIS. www.iais.fraunhofer.de/ki-pruefkatalog. Zugegriffen: 15. Okt. 2022.

Responsible AI practices. (n.d.). Google AI. https://ai.google/responsibilities/responsible-ai-practices/. Zugegriffen: 15. Okt. 2022.

Wessel, D., Heine, M., Attig, C., & Franke, T. (2020, September). Affinity for technology interaction and fields of study – Implications for human-centered design of applications for public administration. Mensch und Computer 2020 (MuC’20). https://doi.org/10.1145/3404983.3410020.

Zhu, Y.-Q., Corbett, J., & Chiu, Y.-T. (2021). Understanding employees’ responses to artificial intelligence. Organizational Dynamics, 50(2), 100786. https://doi.org/10.1016/j.orgdyn.2020.100786.CrossRef

Titel: Gebrauchstaugliche Entwicklung von KI-Anwendungen
verfasst von: Daniel Wessel
Verlag: Springer Fachmedien Wiesbaden
Buch: Künstliche Intelligenz in öffentlichen Verwaltungen
Print ISBN: 978-3-658-40100-9

Electronic ISBN: 978-3-658-40101-6

Copyright-Jahr: 2023
DOI: https://doi.org/10.1007/978-3-658-40101-6_6

Springer Professional