Skip to main content
Erschienen in:
Buchtitelbild

Open Access 2023 | OriginalPaper | Buchkapitel

2. Grundlagen: Input

verfasst von : Anna-Katharina Dhungel

Erschienen in: Künstliche Intelligenz in öffentlichen Verwaltungen

Verlag: Springer Fachmedien Wiesbaden

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Zusammenfassung

Häufig wird davon gesprochen, dass Daten wertvoll sind. Daten würden Entscheidungen unterstützen, Prozesse beschleunigen oder Erkenntnisse liefern. Diese Aussagen sind so allerdings nicht korrekt, denn Daten allein haben keinen intrinsischen Mehrwert, sie sind zunächst einfach nur „da“. Erst eine Verwertung und Verarbeitung von Daten führt zu einem Wertzuwachs. Dennoch ist es wichtig, dass vor der Verarbeitung ein präzises Verständnis darüber vorhanden ist, welche Art von Daten vorliegen. Nur wenn man dieses tiefreichende Verständnis von Daten hat, kann man diese anmessen nutzen und den angesprochenen Mehrwert erzeugen. Daher wird in dieser Lerneinheit der Fokus darauf liegen, Daten zu verstehen (2.2), die Qualität von Daten zu beurteilen (2.4), die Beziehungen zwischen Daten zu analysieren (2.5) sowie mögliche Verzerrungen von Daten zu erkennen (2.6). Das angeeignete Wissen kann im eigenen Anwendungsfall eingesetzt werden (2.7).

2.1 Einleitung

In dieser Lerneinheit steht die Voraussetzung für das Trainieren eines KI-Systems im Fokus – womit muss das System sozusagen „gefüttert“ werden bzw. Was ist der Input? Die Antwort hierauf erscheint simpel: ein KI-System benötigt Daten. Doch Daten sind nicht gleich Daten, eine Excel-Tabelle unterscheidet sich von einem Foto, eine Audio-Aufnahme ist etwas anderes als ein handschriftlich ausgefülltes Formular. Bevor eine präziere Betrachtung der Funktionsweisen von KI-Systemen durchgeführt werden kann, muss daher vorab eine Analyse der vorliegenden Daten stattfinden.
Übung
Für einen Einstieg in das Thema soll zunächst ein bestimmtes Formular aus der öffentlichen Verwaltung näher betrachet werden. Es handelt sich hierbei um den Antrag auf eine Beihilfe für Renovierungskosten gemäß § 22 Absatz 1 SGB II, der Antrag ist über das Jobcenter Kreis Warendorf verfügbar. Die Inhalte der meisten Felder sind konkret vorgegeben, zum Beispiel der Name oder das Einzugsdatum in die Wohnung (Abb. 2.1).
Das Formular enthält jedoch auch eine indirekte „Warum“-Frage: „Begründung für die Beantragung der Renovierungskostenbeihilfe“ (Abb. 2.2).
Ein solches Freitextfeld ist für Computer in der Regel schwierig zu verarbeiten. Bei der Angabe des Namens kann man etwa festlegen, dass in dem Feld keine Sonderzeichen oder Ziffern auftreten dürfen. Dadurch werden die eingegebenen Daten gleichartig und sind leichter auszuwerten. In einem Freitextfeld kann es jedoch notwendig sein, Ziffern zu nutzen, wie hier etwa „In der Wohnung sind 3 Heizungen defekt, die Temperatur beträgt deshalb durchschnittlich lediglich 17 °C.“
Versuchen Sie nun, die Frage in eine andere Form umzuwandeln, ohne dass Information möglicherweise verloren geht oder nicht abgefragt wird. Es sollte sich dabei um ein fixes Antwortschema statt einer offenen „Warum“-Frage handeln.
Die Übung zeigt, dass es nicht immer möglich ist, jeden Sachverhalt mit einem einfachen Antwortschema zu erfassen. Die Welt ist komplex und so sind es auch die zugehörigen Daten. Deshalb ist es wichtig zu verstehen, was bei der Erhebung und Verarbeitung von Daten zu beachten ist und wie man Daten verwenden und interpretieren kann.

2.2 Daten verstehen

Daten spielen im Kontext von Künstlicher Intelligenz eine entscheidende Rolle: ohne Daten keine KI. Daten werden daher auch häufig als das „Gold des 21. Jahrhunderts“ bezeichnet (Focus, 2020), wobei hierzu direkt ergänzt werden sollte, dass Daten an sich keinen Mehrwert generieren, sondern erst wertvoll werden, wenn sie in Lösungen integriert sind (Stöger, 2017, S. 59). Während im Jahr 2008 die größten Unternehmen nach Marktkapitalisierung noch auf Öl und seine Derivate konzentriert waren – Exxon Mobile, Petro China, General Electrics – wird dieses Ranking mittlerweile von Unternehmen angeführt, deren Portfolios datenbasiert sind: Apple, Alphabet (Google) und Microsoft (Bünte, 2018, S. 2 f.). Auch im öffentlichen Sektor spricht man inzwischen von Data-Driven Government, in dessen Kontext die Potenziale datenbasierter Verwaltung ausgeschöpft werden sollen (Fadavian et al., 2019). Die Bundesregierung bezeichnet Daten sogar als die „Grundlage eines modernen Staates und einer mündigen Gesellschaft“ (Bundesregierung, 2021a). Die Corona-Pandemie hat einmal mehr verdeutlicht, dass zuverlässige Daten Grundlage für politische Maßnahmen sind, weshalb die Bundesregierung beschlossen hat, dass alle Ministerien sowie das Kanzleramt eigene Datenlabore unter der Leitung von Chief Data Scientists aufbauen sollen (Bundesregierung, 2021b). Was aber verbirgt sich überhaupt hinter dem Terminus Daten und wie kann man dies zu anderen Begrifflichkeiten abgrenzen?
Daten – Informationen – Wissen
Daten sind (alpha-)numerische Zeichenfolgen mit einer zugehörigen Syntax, welche durch Beobachtungen, Messungen, statistische Methoden o. ä. ermittelt wurden. Synonyme sind etwa Fakten oder Maße. Zentral ist die in der Regel digitale Verarbeitungsmöglichkeit von Daten (Abts & Mülder, 2017, S. 11). Daten unterliegen keinem Verschleiß, sie sind beliebig reproduzierbar und sie können über unterschiedliche Quellen verfügbar gemacht werden.
Informationen hingegen beziehen sich auf den Sinngehalt, der durch menschliche Interpretation von Daten entsteht (Deutscher Bundestag, 2020, S. 54). Informationen werden gewonnen durch die Auswertung von Daten. Hieraus entsteht Wissen. Letzteres kann als eine vom Menschen klassifizierte und interpretierte Auswertung von Informationen verstanden werden (Abts & Mülder, 2017, S. 12). Wissen ist die Grundlage für Entscheidungen und Handlungen. Heutzutage ist es weniger eine Herausforderung Informationen zu gewinnen, denn diese sind im Überfluss vorhanden (Stichwort Information Overflow), vielmehr geht es darum, Informationen in Wissen zu transformieren (vgl. von Rimscha, 2014, S. 27).
Struktur von Daten
Von der Struktur der Daten hängen weitere Verarbeitungsmöglichkeiten ab. Daher ist es von Bedeutung zu verstehen, inwiefern Daten unterschiedlich strukturiert sein können und was das für die Verarbeitung bedeutet. Man unterscheidet grundsätzlich strukturierte, semi-strukturierte und unstrukturierte Daten. Strukturierte Daten haben eine bestimmte Länge und ein vorgegebenes Format – sie besitzen eine bestimmte Struktur – beispielsweise die Kundennummer oder das Datum auf einer Online-Rechnung. Man spricht in diesem Kontext auch von traditionellen Daten, die in relationalen Datenbanken in Tabellenform gespeichert werden und einem vorgegebenen Datenmodell zugrunde liegen. Unstrukturierte Daten verfügen nicht über eine einheitliche Struktur, traditionelle Methoden der Datenanalyse können hierfür nicht angewendet werden. Zu dieser Kategorie gehören beispielsweise Berichte und Präsentationen, Fotos, Videos oder Kommentare. Es ist beispielsweise nicht möglich, aus Fotos einen Durchschnittswert zu errechnen, mit dem sinnvoll weitergearbeitet werden kann. Semi-strukturierte Daten sind zwischen diesen beiden Extremen zu verorten. Sie folgen keiner allgemein gültigen Struktur, enthalten aber bestimmte Strukturinformationen, wie etwa die Kennzeichnung von Nachrichten in natürlicher Sprache mittels eines Hashtags. Etwa 20 % der weltweit vorhandenen digitalen Daten sind strukturiert, bei den restlichen 80 % handelt es sich um semi- oder unstrukturierte Daten (Heuberger-Götsch, 2016, S. 87).
Kategorisierung von Daten
Neben dem Grad der Strukturierung gibt es noch weitere Merkmale, anhand derer man Daten kategorisieren kann. Hierzu gehört etwa die Syntax, also die Regeln, nach denen eine formale Sprache mit einem vorgegebenen Zeichenvorrat gebildet wird. Man unterscheidet hierbei drei Arten von Syntax:
  • numerisch: 0123456789
  • alphabetisch: ABCDEFGHIJK
  • alphanumerisch: AB5Z14TXM3
Darüber hinaus kann man Daten in der Art und Weise unterscheiden, in der sie nach außen in Erscheinung treten. Es kann sich beispielsweise um Texte, Zahlen, Bilder oder Audioaufnahmen handeln. Der zeitliche Bezug von Daten kann zwei Ausprägungen haben: entweder beziehen sich die Daten auf einen bestimmten Zeitpunkt (z. B. Anzahl der Corona-Neuinfektionen am 01.05.2020) oder auf einen Zeitraum (z. B. Anzahl der Corona-Neuinfektionen von März 2020 bis März 2022). Natürlich ist auch der statistische Aussagegehalt von Daten zu beachten. Man unterscheidet hierbei verschiedene Skalenniveaus (vgl. Fahrmeir et al., 2016, S. 16):
  • Nominal: Daten können in keine logische oder natürliche Reihenfolge gebracht werden, z. B. Verkehrsmittel (Bus, Auto, Zug, E-Roller, …).
  • Ordinal: Eine Rangfolge im Sinne von „ist größer“ oder „ist kleiner als“ ist möglich, der Abstand zwischen den Merkmalsausprägungen kann aber nicht interpretiert werden, z. B. Pflegestufen (Pflegestufe 1, Pflegestufe 2, Pflegestufe 3, …).
  • Kardinal: Auch metrische Skala genannt, zusätzlich zu den bisherigen Eigenschaften sind die Differenzen zwischen den Merkmalsausprägungen hier interpretierbar, z. B. Gebühren in Euro oder die Anzahl denkmalgeschützter Gebäude.
Damit ein Computer die Daten „versteht“, muss festgelegt werden, um welchen Datentyp es sich handelt. Dies ist für die weitere Operationalisierung der Daten von Bedeutung. Es gibt eine lange Liste an Datentypen, diese variieren zudem zwischen den einzelnen Programmiersprachen (vgl. Sanella et al., 2022, S. 8). In der folgenden Liste wird eine Auswahl an Datentypen vorgestellt, in Klammern ist die Bezeichnung des Datentyps, wie der Computer sie versteht):
  • Zeichen (CHAR): Personalausweis
  • Ganzzahl (INTEGER): 518024
  • Gleitkommazahl (FLOAT, DOUBLE): 23,67 * 103
  • Dezimalzahl (DECIMAL): 95,14
  • Datum/Zeit (DATE, TIMESTAMP): 15/05/2021
  • Boolean (BOOL): TRUE/FALSE
Es ist nicht immer einfach, Daten genau zu kategorisieren und manchmal ist es auch möglich, dieselbe Variable durch unterschiedliche Datentypen darzustellen. Folgende Beispiele zeigen alle das Alter einer Person:
  • 15.05.1982
  • 15. Mai 1982
  • 39 Jahre
  • 15/05/1982
  • 1982/05/15
  • Neununddreißig Jahre
  • 15.5.82
Das Wort „Neununddreißig“ ist ein String bzw. eine Zeichenkette (CHAR), es wird von einem Computer ganz anders behandelt und kann in dieser Form nicht genauso verarbeitet werden wie etwa „15.05.1982“ – also eine Datumsangabe (DATE). Manchmal ist auch nicht das genaue Geburtsdatum notwendig, sondern lediglich das Alter einer Person, etwa bei statistischen Erhebungen. Dann kann die Angabe 39 ausreichend sein, also ein INTEGER. Wichtig ist, sich im Vorfeld zu fragen, wie die Daten weiterverarbeitet werden sollen. Von großer Bedeutung ist außerdem, dass man sich für ein Format entscheiden muss und dieses dann auch durchgängig nutzt.

2.3 Übung zum Verständnis von Daten

Sehen Sie sich nun noch einmal das Formular zum Antrag auf eine Beihilfe für Renovierungskosten an (Abb. 2.3). Versuchen Sie, die dort im ersten Teil erhobenen personenbezogenen Daten möglichst präzise zu kategorisieren. Vielleicht fällt Ihnen auch bereits auf, an welcher Stelle dieses Formular zur weiteren Datenverarbeitung verbessert werden könnte.
Der „Name“ ist beispielsweise alphabetisch, die Ausprägung der Daten tritt nach außen als Text auf und ist statistisch betrachtet dem nominalen Skalenniveau zuzuordnen. Es bietet sich an, die Angaben unter „Name“ als Dateityp CHAR abzuspeichern. Durchlaufen Sie nun in dieser Art und Weise die anderen Angaben.
Beispiel
Im Feld PLZ/Wohnort wird es schwierig, denn hier tauchen zwei unterschiedliche Datentypen in einem Feld auf. Die Postleitzahl ist beispielsweise numerisch, der Wohnort hingegen alphabetisch. Die Postleitzahl tritt als Zahl in Erscheinung, der Wohnort als Text. Während die Postleitzahl als INTEGER gespeichert werden kann, wäre der Wohnort als CHAR zu speichern. Werden zwei unterschiedliche Datentypen in einem Feld gespeichert, kann dies im weiteren Verlauf zu Problemen führen. Als Lösung bietet es sich hier an, die beiden Angaben in getrennten Feldern abzufragen. Zusätzlich ist zu berücksichtigen, dass auch nicht-numerische Postleitzahlen auftreten können. Dies ist relevant wenn Personen aus anderen Staaten zuziehen oder in andere Staaten wegziehen. Darüber hinaus können bei Postleitzahlen führende Nullen auftreten, die unter Umständen fehlerhaft verarbeitet werden. Zum Beispiel werden führende Nullen in Software zur Tabellenkalkulation ohne entsprechende Einstellungen automatisch entfernt.

2.4 Datenqualität

Unter Datenqualität wird ein Konzept verstanden, welches als Grundlage genutzt wird, um die Qualität von Daten objektiv zu bewerten. Seit spätestens Mitte der 1990er Jahre wird das Thema der Datenqualität systematisch wissenschaftlich untersucht. Dabei kommt es teilweise dazu, dass durch unterschiedliche Perspektiven auf Datenprobleme divergierende Definitionen derselben Dimension entstehen. Im Management bewertet man eine Dimension anders als mit einer Daten-orientierten Perspektive, mit einer reinen Anwendersicht beurteilt man ebenfalls anders. Dennoch existieren bestimmte Dimensionen, bei denen man sich einig ist, dass diese für die meisten Anwendungsbereiche von Bedeutung sind. Hierzu gehören (vgl. Hildebrand et al., 2018, S. 62–61):
  • Vollständigkeit: Hiermit ist vor allem die Abwesenheit von NULL-Werten bzw. das Verhältnis von Non-NULL-Werten zur Gesamtheit aller Werte gemeint. NULL kann dabei für einen fehlenden Wert stehen, es kann sich aber auch um eine nicht zutreffende Angabe handeln, etwa wenn ein Bürger keine Angabe zum Geburtsnamen macht, weil dieser mit dem Familiennamen übereinstimmt. Vollständigkeit kann aber auch auf das Verhältnis zwischen den Daten in der Datenbank und denen in der Realwelt abzielen, beispielsweise ob alle im Straßenverkehr teilnehmenden Kraftfahrzeuge auch korrekt bei der entsprechenden Zulassungsstelle gemeldet sind. Es ist jedoch eine große Herausforderung, diese Form der Vollständigkeit zu überprüfen, da entweder zusätzliche Metadaten notwendig sind oder ein manueller Abgleich mit (zumindest einer Stichprobe) der Realwelt durchgeführt werden müsste.
  • Genauigkeit: Dieser Aspekt beschreibt das Ausmaß, in dem Daten korrekt, zuverlässig und nachweislich fehlerfrei sind. Fraglich ist auch hierbei, inwiefern die Daten mit der Realwelt übereinstimmen – allerdings dieses Mal aus inhaltlicher Sicht. Wenn in einer Tabelle die Bearbeitungsgebühr für einen bestimmten Antrag mit 35 EUR aufgelistet wird, dann sollte dies auch die Summe sein, die in der Behörde tatsächlich anfällt und die formal vorgegeben ist. Unter Genauigkeit wird demnach die Differenz zwischen digitalen Daten und der realen Entsprechung verstanden, wobei diese möglichst gering sein sollte. Eine Herausforderung ist dies teilweise bei semantischen Daten, die als Datentyp CHAR gespeichert werden und in der Regel Wörter aus natürlicher Sprache beinhalten. „München“ und „Munich“ sind von der Syntax her unterschiedlich, beides beschreibt aber dieselbe Stadt.
  • Konsistenz: Unter Konsistenz versteht man das Ausmaß, in dem die Daten eines Systems den vorgegebenen Beschränkungen und Geschäftsregeln entsprechen. Hierbei kann es sich um klassische Datenbank-Vorgaben handeln, etwa dass die Kundennummer einmalig (unique) sein muss oder um Regeln wie etwa „Alter = heutiges Datum – Geburtsdatum“.
  • Aktualität: Veraltete Daten führen zu Fehlern und reduzieren somit die Datenqualität. Es sollte daher sichergestellt werden, dass die verwendeten Daten aktuell sind. Es gilt dabei jedoch nicht grundsätzlich, dass ältere Daten, also mit einer größeren Zeitspanne zwischen der Erstellung und heute, automatisch weniger Wert hätten. Eine Kundennummer beispielsweise bleibt in der Regel gleich, unabhängig davon, wann sie erstellt wurde. Beträge für Sozialleistungen werden hingegen regelmäßig angepasst, etwa anhand der Inflationsrate. Es gilt, je häufiger Daten aktualisiert werden müssen, desto schneller altern sie. Gleichzeitig sind Daten, die nie modifiziert werden müssen (wie etwa die Kundennummer) immer aktuell. Mangelnde Aktualität wirkt sich also auch auf die Genauigkeit aus, was deutlich macht, dass die Dimensionen der Datenqualität häufig miteinander verwoben sind.
Daneben findet man in der Praxis noch weitere Kriterien, anhand derer die Datenqualität beurteilt wird, wie etwa die Integrität oder die Abstammung (Conformed Dimensions of Data Quality, 2021). Darüber hinaus sollten die Daten widerspruchsfrei sowie valide sein und Redundanz sollte vermieden werden. Das Fraunhofer-Institut empfiehlt, für die Gestaltung vertrauenswürdiger Künstlicher Intelligenz qualitative Anforderungen an die verwendeten Daten festzulegen. Dabei sollten mindestens folgende Aspekte berücksichtigt werden:
  • technische Kriterien, wie etwa das Format oder die Größe der Datei;
  • die Daten sollten vollständig sein;
  • die Daten sollten mit der realen Welt übereinstimmen;
  • Annotationen und Labels sollten korrekt sein;
  • die Daten sollten relevant für den jeweiligen Anwendungsbereich sein;
  • ein Zugriff auf die Daten sowie die zugehörigen Metadaten sollte sichergestellt bzw. die Daten sollten jederzeit verfügbar sein (Fraunhofer, 2021, S. 93).
Wichtig ist jedoch, dass bei der Qualitätsbewertung nicht nur technische Aspekte, sondern auch der Inhalt und die Verständlichkeit der Daten berücksichtigt werden. Möchte man etwa ein KI-System trainieren, Bilder von Hunden zu erkennen, dann benötigt man einen Datensatz mit entsprechenden Bildern. Hat der Datensatz aber nur Bilder von ein und demselben Hund, dann ist die Qualität gering – selbst wenn alle technischen Vorgaben erfüllt sind. Das KI-System kann anhand solcher Daten nicht lernen, allgemein Hunde auf Fotos zu erkennen. Es wird lediglich diesen einen Hund identifizieren können.

2.5 Beziehungen zwischen Daten

Man differenziert bei Daten zwischen unabhängigen und abhängigen Variablen. Abhängige Variablen hängen hierbei von unabhängigen Variablen ab und werden von diesen beeinflusst. Bei der sogenannten Regressionsanalyse wird beispielsweise die Beziehung dieser Variablen zueinander untersucht nach dem Schema „je mehr x, desto mehr y“ oder „je mehr x, desto weniger y“. Hier hängt der Wert von y davon ab, wie der Wert von x ist. Damit ist y abhängig von x und x ist unabhängig.
Zum einen sollen die abhängigen Parameter auf Basis der unabhängigen prognostiziert und zum anderen der Grad einer Korrelation festgestellt werden. Das Prinzip der Regressionsanalyse wird im dritten Kapitel dieses Moduls genauer erläutert. Wenn etwa die Dauer einer Altbausanierung die Variable ist, die erklärt werden soll, dann sind die Wetterbedingungen während der Bauzeit eine unabhängige Variable, die auf das Ergebnis Einfluss nimmt. Diese Beziehung erscheint zwar auf dem ersten Blick einfach und nachvollziehbar, allerdings sollte man eine berühmt gewordene Weisheit aus der Statistik immer im Hinterkopf behalten:
Korrelation ist ungleich Kausalität!
Es ist möglich, dass zwischen Variablen ein statistischer Zusammenhang (z. B. eine Korrelation) besteht, dies bedeutet aber nicht automatisch, dass eine Ursache-Wirkung Beziehung (Kausalität) vorliegt (vgl. Fahrmeir et al., 2016, S. 140 f.). Ein in diesem Kontext häufig aufgeführtes Beispiel ist das der Störche und Babys. Demnach würde die Anzahl der Störche mit der Anzahl der Geburten korrelieren, also je mehr Störche desto mehr Babys. Man könnte nun also voreilig annehmen, die Anzahl der Störche sei die Ursache für die Anzahl der Babys. Allerdings war nicht nur die Erhebung von lediglich zwei Variablen für eine Untersuchung äußerst schwach, es wurde vielmehr eine dritte Variable schlicht ignoriert: die geographische Lage. Denn tatsächlich war der ländliche Raum Ursache für sowohl die Anzahl der Störche als auch für die Anzahl der Babys. Die beiden Variablen selbst – also die Störche und die Babys – standen jedoch nicht in kausaler Beziehung zueinander, sondern korrelierten aufgrund einer dritten Variable: dem ländlichen Raum.
Schließlich sei noch auf die Bezeichnungen hingewiesen. Wie so häufig in der IT-Welt gibt es nicht nur zwei eindeutige Begrifflichkeiten für diese beiden Arten von Variablen. Unabhängige Variablen werden auch als Input-Feature, Regressor, erklärende oder exogene Variable, Prädiktor oder Faktor bezeichnet. Eine abhängige Variable wird auch als Regressand, endogene oder erklärte Variable, Ziel- oder Prognosevariable oder als zu erklärende Variable benannt.

2.6 Die Verzerrung von Daten (Bias)

KI-Systeme werden in der Regel mit historischen Daten trainiert. Das bedeutet, dass diese Daten alle in der Vergangenheit entstanden sind. Diese Daten sind nicht automatisch neutral, wert- oder vorurteilsfrei – auch dann nicht, wenn die Qualität der Daten als hoch eingestuft wird. Es kann beispielsweise sein, dass bestimmte Gruppen in den Daten nicht oder kaum vorkommen. Eine solche Datenverzerrung, häufig als Bias bezeichnet, beeinflusst das Ergebnis des KI-Systems signifikant und es können Benachteiligungen entstehen. In den USA wurde beispielsweise ein KI-System eingesetzt, das Patientinnen und Patienten mit besonderem Pflegebedarf identifizieren sollte. In einer Studie über dieses System wurde jedoch festgestellt, dass bei afroamerikanischen Menschen seltener ein zusätzlicher Pflegebedarf identifiziert wurde als bei Weißen – und das bei gleicher Krankheitsschwere. Eine manuelle Überprüfung ergab, dass die doppelte Anzahl an afroamerikanischen Menschen den Pflegebedarf benötigt hätte. Wie kam es nun, dass das KI-System diskriminierte, obwohl weder Hautfarbe noch ethnische Zugehörigkeit Daten waren, mit denen es trainiert wurde?
Der Grund hierfür ist, dass der Algorithmus die zu erwartenden Kosten für das Gesundheitssystem berücksichtigte statt der tatsächlich vorliegenden Krankheit und dem zugehörigen Pflegebedarf. Aufgrund diverser Faktoren gaben und geben die USA weniger Geld aus für die Behandlung von schwarzen als für die von weißen Menschen. Diese Prognose geringerer Kosten wurde mit der Notwendigkeit für Pflegebedarf vom System gleichgesetzt, was zu den angesprochenen verzerrten Ergebnissen führte (vgl. Obermeyer et al., 2019).
Ein solcher Bias kann unterschiedliche Ursachen haben, die Daten können im Vorfeld nicht vollständig oder durch Manipulation verzerrt sein, es kann aber auch sein, dass die Daten mit der Realität übereinstimmen, diese jedoch Ungerechtigkeiten und Benachteiligung enthält. Es ist ein spannendes und wichtiges Thema, welches bei jeder Konzeption eines KI-Systems mit bedacht werden sollte. In Kap. 11 „KI und Ethik“ wird dieses Thema detailliert beleuchtet.

2.7 Aufgaben zum eigenen Anwendungsfall

Sie haben nun gelernt, dass der Begriff Daten vielschichtig ist. Daten sind die Grundlage für jedes KI-System. Überlegen Sie nun, welche Daten Sie für Ihr Projekt benötigen:
  • Was ist Ihre Datenquelle bzw. welche Daten möchten Sie nutzen?
  • Handelt es sich um Daten, die intern in Ihrer Organisation vorliegen oder benötigen Sie (entweder zusätzlich oder ausschließlich) Daten externer Quellen?
  • Handelt es sich um strukturierte oder unstrukturierte Daten?
  • Wählen Sie aus Ihrem Datensatz zwei bis drei Variablen und beschreiben Sie deren Syntax, Erscheinung, zeitlichen Bezug, das Skalenniveau und den Datentyp.
Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://​creativecommons.​org/​licenses/​by/​4.​0/​deed.​de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
Literatur
Zurück zum Zitat Fahrmeir, L., Heumann, C., Künstler, R., Pigeot, I., & Tutz, G. (2016). Statistik: Der Weg zur Datenanalyse. Springer-Verlag. Fahrmeir, L., Heumann, C., Künstler, R., Pigeot, I., & Tutz, G. (2016). Statistik: Der Weg zur Datenanalyse. Springer-Verlag.
Zurück zum Zitat Hildebrand, K., Gebauer, M., Hinrichs, H., & Mielke, M. (2018). Daten-und Informationsqualität. Springer Fachmedien Wiesbaden. Hildebrand, K., Gebauer, M., Hinrichs, H., & Mielke, M. (2018). Daten-und Informationsqualität. Springer Fachmedien Wiesbaden.
Zurück zum Zitat Sannella, D., Fourman, M., Peng, H., & Wadler, P. (2022). Introduction to computation: Haskell, logic and automata. Springer Nature. Sannella, D., Fourman, M., Peng, H., & Wadler, P. (2022). Introduction to computation: Haskell, logic and automata. Springer Nature.
Zurück zum Zitat Stöger, R. (2017). Umsetzung der Digitalisierung. Fazit 1.0 in der Neuen Welt. Zeitschrift für Organisationsentwicklung, 36(1), 58–64. Stöger, R. (2017). Umsetzung der Digitalisierung. Fazit 1.0 in der Neuen Welt. Zeitschrift für Organisationsentwicklung, 36(1), 58–64.
Zurück zum Zitat Von Rimscha, M. (2014). Algorithmen kompakt und verständlich. Springer Fachmedien Wiesbaden. Von Rimscha, M. (2014). Algorithmen kompakt und verständlich. Springer Fachmedien Wiesbaden.
Metadaten
Titel
Grundlagen: Input
verfasst von
Anna-Katharina Dhungel
Copyright-Jahr
2023
DOI
https://doi.org/10.1007/978-3-658-40101-6_2

Premium Partner