3.5 Die sozio-technischen Dimensionen von Big Data
Mauro et al. haben mit Blick auf die allgemeine Literatur zu Big Data den Versuch einer Synthese von Definitionen unternommen. Die Autoren legen ihrer Betrachtung einen ganzen Korpus an Literatur aus Industrie und Wissenschaft zu Grunde. Die finale Definition von Big Data von Mauro et al. liest sich mithin ähnlich der bereits besprochenen Beschreibungsdimensionen: “Big Data is the Information asset characterised by such a High Volume, Velocity and Variety to require specific Technology and Analytical Methods for its transformation into Value [sic]”.
Die vorliegende Arbeit fragt insbesondere nach dem Einfluss der digitalen Datenbestände auf soziales Handeln und Gesellschaft. Charakterisierungen der digitalen Datenbestände für eine weiter gefasste Betrachtung der soziotechnischen Voraussetzungen und Konsequenzen des Umgangs mit Daten werden also dann besonders relevant, wenn es nicht mehr um die Fragen nach dem Was und Womit geht, sondern vor allem, wenn in sozialen Zusammenhängen das Wie und auch Warum der Datenerzeugung, -speicherung und -auswertung in den Vordergrund gestellt wird. Hierauf deutet die Bezugnahme von Mauro et al. auf Begriffe wie Asset und Value bereits hin. Es erfolgt hinsichtlich des Verarbeitungszusammenhangs der digitalen Datenbestände hier entsprechend eine Erweiterung der Betrachtung auf den Menschen in seiner Rolle als Daten- erzeuger, -betrachter und -verwerter, so dass die sozialen Bedingungen und/oder Konsequenzen digitaler Datensammlung und -verwertung in den Fokus geraten. So stellt bspw. das einflussreiche, jedoch eher populärwissenschaftlich gehaltene Werk von Mayer-Schönberger und Cukier insbesondere auf diesen Zusammenhang ab: “Big data refers to things one can do at a large scale that cannot be done at a smaller one, to extract new insights or create new forms of value, in ways that change markets, organizations, the relationship between citizens and governments, and more”. Jegliche Beiträge, die den Schwerpunkt aus einer sozio-technischen Anwendersicht auf Big Data legen, gehen also meist davon aus, dass die Daten im Rahmen von Big Data über die zuvor beschriebenen Eigenschaften verfügen. Sie halten sich mithin selten mit definitorischen Grenzziehungen auf oder streifen diese nur kurz, um dann zu thematisieren, wie der menschliche Umgang mit den Daten charakterisiert werden kann; insbesondere welche epistemische Qualität und welchen Nutzen die Daten für ihn haben und welche Konsequenzen hieraus für Individuum und Gesellschaft erwachsen. Diese sozio-technischen Fragen lassen sich daher in den als konsequentiell-evaluativen Dimensionen Veracity und Value von Big Data verorten, die laut Ylijoki und Porras in 23 % bzw. 27 % aller von ihnen untersuchten Definitionen adressiert werden und nachfolgend besprochen werden. Dabei muss insbesondere auch die Charakterisierung der beiden Dimensionen als konsequentiell-evaluativ herausgearbeitet werden. Diese bezieht sich auf die Variabilität der Einschätzung der Ausprägung der zugrunde liegenden Dimensionen. Das bedeutet, dass es Big Data gibt, die diese Charakteristika und erwarteten Potentiale besitzen, dies jedoch nicht zwingend für alle großen digitalen Datenbestände der Fall sein muss.
3.5.1 Die Richtigkeit digitaler Daten
Die Richtigkeit (Veracity) digitaler Daten betrifft die epistemische Qualität der Daten, bezieht sich also auf Erkenntnis und Wissen. Man kann Veracity auch mit Wahrhaftigkeit übersetzen, da jedoch nachfolgend gesondert auf die speziellen Wesensmerkmale Wahrhaftigkeit und Objektivität eingegangen wird, ist hier zunächst der Oberbegriff der Richtigkeit vorzuziehen. Dieser zielt nicht auf eine moralische Qualität ab, sondern auf den qualitativen Wirklichkeitsbezug der Daten. Die Richtigkeit betrifft mithin sowohl (1) die Informationsqualität realitätstreuer Abbildung der Daten sowie (2) das Wissen, das in den Daten steckt bzw. aus ihnen gezogen wird. Bevor also gesichertes Wissen auf Grundlage von Big Data entsteht, müssen weitere Voraussetzungen und notwendige Bedingungen bezüglich der Datenqualität erfüllt sein, die nachfolgend diskutiert werden. Für boyd und Crawford ist es nämlich insbesondere die zugesprochene Richtigkeit der digitalen Daten, die einen Mythos von Big Data nährt: “The widespread belief that large data sets offer a higher form of intelligence and knowledge that can generate insights that were previously impossible, with the aura of truth, objectivity, and accuracy”. Hier werden bereits die zentralen Aspekte genannt, die zur Richtigkeit der Daten zählen und nachfolgend erörtert werden. Hierzu gehören die Genauigkeit sowie die Wahrhaftigkeit und Objektivität der digitalen Daten, die einen vermeintlichen Wissensgewinn erst möglich machen.
Die Genauigkeit digitaler Daten (Accuracy)
Die Genauigkeit von digitalen Daten wird oft als eines ihrer zentralen Charakteristika hervorgehoben. Genauigkeit meint die Wiedergabequalität der Beschreibung von Zuständen durch Daten oder wie Cai und Zhu definieren: “Data representation (or value) well reflects the true state of the source information”. Auch wenn in dieser Definition von Genauigkeit bereits der Wahrheitsbegriff enthalten ist und somit anscheinend vorweggenommen wird, ist er hier lediglich als Bedingung im Sinne einer Reliabilität der Daten zu verstehen. Wie mit Blick auf die nachfolgend besprochene Dimension der Wahrhaftigkeit und Objektivität zu diskutieren ist, können jedoch auch subjektive und unwahre Zustandsbeschreibungen reliabel in ein konsistentes Datenformat überführt werden. Deshalb ist zu ergänzen, dass die codierte Information dahingehend ambiguitätsfrei sein muss, als dass der Übersetzungsvorgang in das digitale Format störungsfrei vonstattengeht und zu vollständigen mangelfreien Daten führt. Eine einmal programmierte Maschine führt Befehle prinzipiell immer auf die gleiche Art und Weise aus und produziert somit zumindest in der Theorie Ergebnisse gleichbleibender Qualität. Dennoch können Datensätze trotz weitreichender Automatisierung ihrer Generierung zufällige sowie systematische Integritätsverletzungen beinhalten, unvollständig sein sowie Daten ganz unterschiedlicher Codierungsqualität und Güte beinhalten. Die Gründe für diese Fehlerhaftigkeit und hieraus resultierende Dirty Data sind dabei mannigfaltig und können nicht nur technischen Ursprungs sein, sondern haben vor allem auch menschliche Ursachen, auf die sogleich eingegangen wird.
Die Wahrhaftigkeit und Objektivität digitaler Daten (Truth and Objectivity) Aufbauend auf der Genauigkeit der Daten, die insbesondere auf Reliabilität und hierauf fußender Belastbarkeit des technischen Übersetzungsvorgangs als Prozess abstellt, wird der Anspruch formuliert, dass die Daten als Produkt dieses Prozesses vor allem auch objektiv und wahrhaftig sind. Ihr Anspruch ist es, Merkmale und Eigenschaften von Wirklichkeit transparent zu machen. Dabei zielen beide Begriffe auf dasselbe ab und bauen untrennbar aufeinander auf: Digitale Daten sollen in ihrer Qualität repräsentativ für eine vermeintlich tatsächliche Realität und in ihrem wahrheitsgetreuen Wirklichkeitsabbild nicht durch äußere Einflüsse verzerrt sein. Es stellt sich mithin die Frage nach der Validität der Daten; also ob diese auch tatsächlich dasjenige repräsentieren, was sie mit Blick auf ihre Bedeutungszuschreibung repräsentieren sollen.
Dabei werden entsprechende Verzerrungen auch als Bias bezeichnet und können vielfältiger Natur sein. Am Ende veranlasst und beeinflusst immer menschliche Entscheidung den Übersetzungs- und Produktionsprozess von digitalen Daten, weshalb die Daten womöglich nicht das wiedergeben, was sie wiedergeben sollen. So können Daten auf der einen Seite bereits mit einem Bias produziert werden, bspw. wenn Klassifikationen fehlerhaft sind, da Codierentscheidungen subjektiv geprägt sind. Richardson, Schultz und Crawford greifen diesbezüglich auch den zuvor angesprochenen Begriff Dirty Data auf, wenn sie die in den USA verbreitete Praxis des Predictive Policing kritisieren. Im Rahmen dieses Beispiels wird die Problematik subjektiv verzerrter Daten deutlich, die Ansprüche an Objektivität und Wahrhaftigkeit verletzen:
These policing practices and policies shape the environment and the methodology by which data is created, which raises the risk of creating inaccurate, skewed, or systemically biased data (‘dirty data’). If predictive policing systems are informed by such data, they cannot escape the legacies of the unlawful or biased policing practices that they are built on.
Auf der anderen Seite können Daten nicht geeignet sein, die spezifischen Fragen zu klären, für deren Beantwortung sie herangezogen werden. So sind Bevölkerungsstichproben auf Grundlage sogenannter Sozialer Online-Netzwerke biased, da sie nicht repräsentativ für die Gesamtbevölkerung sind.
Unabhängig davon, wie der Bias zustande gekommen ist, führen entsprechende Validitätsverletzungen und Verzerrungen der Daten dazu, dass Objektivitäts- und Wahrheitsannahmen häufig nicht haltbar sind. Objektivität und Wahrhaftigkeit sowie auch die Genauigkeit der Daten sind im Rahmen von Big Data also zunächst einmal in vielen Definitionen als Ansprüche formuliert, die jedoch wie dokumentiert nicht immer eingelöst werden bzw. einfach einzulösen sind. Es ist eben wie von boyd und Crawford angesprochen nur der Anspruch der genannten epistemischen Bedingungen, die Big Data anhaftet. Es zeigt sich allerdings, dass eine qualitative Varianz auf einem Kontinuum zwischen genau und ungenau, objektiv und nicht objektiv sowie wahr und unwahr bestehen kann. Dabei kann die Verletzung der Validität von Daten bzw. das beobachtete Ausmaß der Verzerrung nicht immer zweifelsfrei erkannt und festgestellt werden und ist mithin diskussionswürdig. Entsprechend kommt Messick auch zu dem Schluss: “Validity judgments are value judgments”. Es bleibt an dieser Stelle jedoch zunächst einmal festzustellen, dass Validitätseinschätzungen bezüglich Genauigkeit, Objektivität und Wahrhaftigkeit digitaler Daten variabel sind.
Der Wissensgewinn aus digitalen Daten (Knowledge)
Unter der Voraussetzung, dass die Bedingungen der Genauigkeit sowie Wahrhaftigkeit und Objektivität digitaler Daten zu einem hohen Grad gewährleistet sind, können digitale Daten als Abbild beobachteter Tatsachen Fakten bereitstellen, die zu neuen Erkenntnissen und einem Wissensgewinn führen. Nachfolgend beschäftigt sich Abschnitt 4.1 daher ausführlich mit dem Wissensbegriff und der Wahrheit als zentralem Kriterium dieses Wissens. An dieser Stelle soll zunächst lediglich die Bedeutung des Wissensbegriffs im Rahmen der sozio-technischen Beschreibung von Big Data erörtert werden.
Wissen auf Grundlage von Big Data ist die elementare Voraussetzung einer weitergehenden Verwertung und Nutzung dieser. Dabei soll die Datensammlung und -auswertung nicht nur neues Wissen produzieren, sie kann natürlich auch bereits bestehendes Wissen in Form digitaler Daten speichern. Die Erwartung ist jedoch darauf ausgerichtet, dass durch die binär codierten Sequenzen von Zustandsbeschreibungen Unterscheidungen getroffen werden können, aus denen Menschen (und eben auch Maschinen) Einsichten generieren und etwas lernen können. Gewonnene Erkenntnis über Zustände und Mechanismen beeinflusst in der Folge Anschlusshandlungen, bspw., wenn Wissen zu treffende Entscheidungen anleitet.
Es ist zu diskutieren, inwieweit eine Verletzung der Bedingungen der Genauigkeit und Objektivität der Daten zwingend dazu führt, dass keine oder geminderte Erkenntnis aus digitalen Daten gezogen werden kann. Ausschlaggebend hierfür sind dann jedoch primär der jeweilige Grad der Verletzung und der Kontext, in dem das Wissen konkrete Konsequenzen zeitigt. Im Vergleich mit den Ergebnissen eines Temperatursensors, der auf wenige Grad Celsius die ungefähre tatsächliche Temperatur wiedergibt, sind die Daten einer stehen gebliebenen Uhr nutzlos, selbst wenn sie zweimal am Tag richtig geht. Ist die Genauigkeit des Temperatursensors jedoch entscheidend, bspw. bei der Herstellung von temperatursensiblen Produkten, dann ist eine hohe Genauigkeit dennoch zentral. Eine finale Diskussion dieser Problematik ist also nur mit Blick auf die Erfordernisse des Verwertungszusammenhangs digitaler Daten zu entscheiden und kann hier nicht abschließend getroffen werden. Wichtig ist jedoch, dass die Genauigkeit der Daten prinzipiell technisch möglich ist bzw. sein sollte und mit Blick auf die Richtigkeit der digitalen Daten definitorisch vorausgesetzt wird. Wie deutlich geworden ist, hängen die Wahrhaftigkeit sowie die Objektivität jedoch vor allem von der zu messenden Entität ab, ihrer konstruierten menierung auf Seiten der Messenden sowie den getroffenen Operationalisierungs- und Messentscheidungen im Rahmen der Überführung realweltlicher Phänomene in Daten.
Gerade mit Blick auf die Ubiquität digitaler Datenerzeugung ukeiten ihrer Auswertung ist nun also diejenige Erkenntnis von Interesse, die erst aus den digitalen Daten gewonnen werden kann. Dabei ist es zunächst unerheblich, ob die Daten gezielt erzeugt werden oder ganz nebenbei anfallen. Während die Qualität der Daten und der hieraus gewonnenen Erkenntnisse also durchaus auf einem Kontinuum eingeordnet werden können, soll an dieser Stelle zunächst die zentrale Bedeutung der Dimension des Wissensgewinns im Rahmen der Definition großer digitaler Datenbestände hervorgehoben werden. Eine detaillierte Diskussion der Qualität und sozialen Bedeutung dieses Wissens, insbesondere auf Grundlage von Big Data, wird nachfolgend in Kapitel 4 geleistet.
Die Qualität der Daten aus epistemischer Perspektive, sprich ihre Erforderlichkeiten und Konsequenzen mit Blick auf mögliche Erkenntnis, hat eine zentrale Bedeutung im Entstehungs- und Verwertungskontext von Big Data. Während die zuvor thematisierten Wesensmerkmale eine vermeintliche Grundvoraussetzung für den Wissensgewinn sind, ist der Wissens- gewinn wiederum die Vorbedingung für den aus den Daten gezogenen Nutzen und somit ein notwendiges Bindeglied zwischen Ausmaß der Datensammlung und -verwertung und den hiermit verbundenen positiven Konsequenzen für Individuum oder Gesellschaft. Der nun nachfolgend besprochene Nutzen digitaler Daten hängt maßgeblich von der Qualität und der Reichweite dieses generierten Wissens ab.
3.5.2 Der Nutzen digitaler Daten
Die Unmengen von digitalen Daten werden selbstverständlich nicht zum Selbst- zweck erzeugt und gespeichert. Zwar fallen wie gezeigt viele Daten ganz nebenbei beim Betrieb von Computertechnik und Sensoren an. Die Entschei- dung über Speicherung und Verarbeitung wird jedoch bewusst getroffen. Denn auch wenn Rechenkapazität und Speicherplatz über die Zeit immer preisgünsti- ger werden, verursachen Entstehung, Speicherung und Verarbeitung von Daten hohe Kosten mit Blick auf Speichermedien, Prozessoren, Serverinfrastruktur und den beim Betrieb anfallenden Stromverbrauch. Diese Kosten werden nur in Kauf genommen, wenn ihnen gegenüber auch ein erwarteter Nutzen (Value) steht.
Die Dimension des Nutzens ist nun eng mit der Wahrhaftigkeit und dem in den Daten enthaltenen Wissen verknüpft und baut unmittelbar auf ihr auf. Der aus den Daten gewonnene Nutzen stellt auf einen generierten Mehrwert ab, der auf Grundlage der Daten geschaffen wird. Diese Nutzenerwartung ist dabei immer mit Bezug auf das menschliche Individuum oder die Gesellschaft und somit als explizit sozio-technische Dimension zu verstehen. Die Zweckgebundenheit von Datensammlung und -verarbeitung ist dabei an vielen Stellen in den vor- hergehenden Abschnitten bereits durchgeklungen, soll an dieser Stelle jedoch noch einmal differenziert betrachtet werden. Denn Nutzen kann hier durchaus in seinem doppeldeutigen Gebrauch verstanden werden.
Zum einen können Daten verwendet werden: Sie sind dann mit Blick auf ihren oft als ‚Öl des 21. Jahrhunderts‘ beschriebenen Charakter ein nicht-dinglicher Energieträger, der ‚genutzt‘ oder ‚einer Nutzung oder Verwertung zugeführt‘ wer- den kann; gleich eines Schmierstoffes, der datenverarbeitende Anwendungen am Laufen hält. Gleichzeitig entspringt mit Blick auf den Erkenntnisgewinn aus die- ser Nutzung ein Nutzen im Sinne von Gewinn oder Profit, so wie auch Öl einen Marktpreis hat und als Produktionsmittel für mit Gewinnabsicht produzierte Güter und Dienstleistungen verwendet wird. Dieser Nutzen ist dann vor allem, jedoch nicht allein als Nutzen im Rahmen einer ökonomischen Verwertungslogik zu sehen.
Der Zuschnitt nur auf ökonomischen Nutzen ist hier also zu eng gefasst. Ein Nutzen kann sich ferner auch in anderen sozialen Kontexten wie Poli- tik, Wissenschaft und Zivilgesellschaft manifestieren und ist hier vor allem mit Begriffen wie bspw. Open Data verbunden, womit kostenfreie öffentlich zugängliche Datensätze, auf die jeder frei zugreifen kann, gemeint sind und deren Nutzen vielfältigerer Natur sein kann. Gleichwohl der konkrete Nutzen vor allem im jeweiligen Entstehungs- und Verwertungskontext betrachtet werden muss, lässt sich mit Blick auf die allgemeine gesellschaftliche Durchdringung von informationstechnischen Anwendungen der Datenverwertung insbesondere mit Blick auf deren öffentliche Thematisierung zwischen einem Nutzen unterscheiden, der sich auf einer gesellschaftlich höhergelagerten Ebene realisiert, und einem Nutzen, der sich für das Individuum ergibt.
Individueller Nutzen digitaler Datensammlung und -verwertung
Aus der Sicht des Individuums in der digitalen Gesellschaft sind mit Blick auf die Bewertung des großen Ausmaßes digitaler Datensammlung und -verwertung zunächst insbesondere Konsequenzen für die eigene Person relevant, da Big Data auch seine unmittelbare Lebenswelt betrifft. Geht es um eine generelle Bewertung von Big Data, haben bedingt durch die Zweckgebundenheit digitaler Datensammlung und -verwertung mithin Einschätzungen zum persönlichen Nutzen einen zentralen Einfluss: Jedes Individuum trifft hier für sich im Rahmen einer laufenden Kosten-Nutzen-Kalkulation eine Abwägung, ob und inwieweit es von Big Data profitiert. Das gilt zwar ganz allgemein für die weitreichende Datensammlung, wird jedoch vor allem in Situationen relevant, in denen eine Entscheidung getroffen werden muss, eigene persönliche Daten preiszugeben. Insbesondere hier stellt sich die Frage, warum Daten gesammelt und ausgewertet werden sollten: Was habe ich davon, wenn Online-Angebote umfassende Daten erheben und speichern und ich im Internet laufend der Aufzeichnung und Auswertung meiner Nutzungsdaten zustimmen muss? Warum sollte ich der Uhr an meinem Handgelenk erlauben, laufend meinen Puls zu messen? Entscheidend für diesbezüglich getroffene Entscheidungen ist, dass man sich etwas hiervon verspricht. Etwa, wenn man bei Online-Angeboten auf die eigenen Präferenzen abgestimmte Produktangebote und Vorschläge für Videos oder Musikstücke erhält, die einem gefallen könnten. Oder wenn man aus der Erhebung der eigenen Vitalparameter etwas über den eigenen Gesundheitszustand erfährt und man bspw. sieht, dass das Ausdauertraining auch tatsächlich zu einer Leistungssteigerung führt. Dabei knüpft der vermeintliche Nutzen auch und insbesondere an die zuvor beschriebene Leistungsfähigkeit der Daten hinsichtlich eines Erkenntnisgewinns an:
Where the question of the value of data for those who generate it is addressed, this value is typically understood as residing in the aura of neutrality and objectivity that numbers convey, and their role in a will to (quantified) truth.
Der Abwägungsprozess bezüglich des Ausmaßes individuellen Nutzens speist sich dabei im Rahmen der Kosten-Nutzen-Kalkulation aus diversen Nutzener- fahrungen und -erwartungen, die sich aus den unterschiedlich gelagerten Ver- wertungskontexten digitaler Daten ergeben können. Dies ist etwa der Fall, wenn es Sicherheitsbedenken bei der Preisgabe persönlicher Daten im Rahmen von digitaler Mediennutzung gibt, deren Zusammenhang in der Privacy-Forschung untersucht wird.
Gesellschaftlicher Nutzen aus digitaler Datensammlung und -verwertung
Jenseits eines individuell realisierten Nutzens durch Big Data werden durchaus auch Erwartungen formuliert, die darauf abzielen, wie Big Data für die Gesell- schaft von Nutzen sein können und sollen. Big Data müssen hierbei fernab jedes Technikoptimismus oder -pessimismus zunächst einmal als ein Werk- zeug betrachtet werden, das sowohl Schäden verursachen oder Nutzen bringen kann. So können Schäden, die aus einer weitreichenden Datensammlung von Gesundheitsdaten entstehen, etwa wenn diese Daten in falsche Hände geraten, den individuellen und vor allem auch gesellschaftlichen Vorteilen gegenüberge- stellt werden. Es ist positiv zu bewerten, sollten aus der zentralen Speicherung und Auswertung von Daten zu Krankheiten und deren Behandlung neue Thera- piemöglichkeiten entstehen, von denen ich und viele andere profitieren, weil sich Gesundheit verbessert und sich Kosten vermeiden lassen.
Natürlich muss ein Nutzen, der nicht vom Individuum realisiert wird, nicht auch automatisch auf gesamtgesellschaftlicher Ebene eintreten. Zwischen der Mikro- und der Makro-Ebene gibt es unzählige weitere mögliche Profiteure mit individuellen Sonderinteressen, die sich auf der Meso-Ebene ansiedeln lassen. Die Nutzenerwartung an die großen digitalen Datenbestände kann hier wie folgt beschrieben werden: Right now big data is enabling organizations to move away from intuitive- to data- based decision making. Ultimately, enterprises will use big data because it creates value by solving new problems, as well as solving existing problems faster or chea- per, or providing a better and richer understanding of those problems.
Zu den angesprochenen Organisationen gehören bspw. Hacker sowie Datenakti- vist*innen oder gleich ganze gesellschaftliche Felder wie die Forschung, der Journalismus, die Wirtschaft sowie staatliche Institutionen. Doch selbst wenn diese einzelnen Gruppen und Einheiten partikulare Interessen verfolgen, so sind sie gesellschaftlichen (Teil-)Systemen zuzuordnen, die innerhalb der Gesellschaft wichtige Funktionen übernehmen und gesellschaftlichen Wandel bewirken und hier etwaigen Nutzen für die Gesellschaft erbringen oder auch nicht.
Für eine übergeordnete gesellschaftliche Wahrnehmung von digitalen Daten kann an dieser Stelle daher mit Blick auf Nutzenerwartungen nicht kleinteilig unterschieden werden. Es mag je nach individueller Bewertung und eigenem Vorwissen und Erfahrung auf unzählige einzelne Bereiche abgestellt werden, in denen Nutzen durch Big Data gesehen wird oder eben auch nicht. Darüber hinaus sollte es jedoch zu einer allgemeinen Gesamtbewertung beim beobachten- den Individuum kommen, die auf einer Einschätzung zum Nutzen von Big Data für die Gesamtgesellschaft beruht, deren Teil man ist. In Abhängigkeit von vie- len individuell zu treffenden Einschätzungen wird der generelle Nutzen von Big Data sowohl für das Selbst als auch für die Gesellschaft bewertet. Unbenommen möglicher noch feinteilig differenzierter Zwischenstufen der Nutzeneinschätzung, die jedoch theoretisch und empirisch erst einmal zu beschreiben wären. Es ist zunächst zu prüfen, inwieweit sich individuelle und gesellschaftliche Nutzenüber- zeugungen analysieren lassen. Dies lässt dann immerhin auch die Möglichkeit zu, zu untersuchen, ob beide Einschätzungen zusammen- oder auseinanderfallen, was mit Blick auf die Abwägung von Schadens- und Nutzenbewertung eine relevante Frage ist.
3.6 Die Bedeutung von Big Data im Zusammenhang mit Algorithmen, Künstlicher Intelligenz und maschinellem Lernen
An dieser Stelle muss nun zudem kurz auf technische Anwendungskontexte im Zusammenhang mit den großen digitalen Datenmengen abgestellt werden, um deutlich zu machen, wie Big Data sich zu unmittelbar angrenzenden Techni- ken wie Algorithmen oder Anwendungen Künstlicher Intelligenz (KI) verhalten, die Datenverarbeitung und -auswertung in den vorliegenden Ausmaßen erst ermöglichen.
Algorithmen sind hier das Bindeglied zwischen der Hardware und den digi- talen Daten, denn „elektronische Datenverarbeitung beruht auf Algorithmen“. Ein Algorithmus definiert sich nach Kraemer et al. wie folgt: “An algorithm is, roughly speaking, a finite sequence of well-defined instructions that describe in sufficiently great detail how to solve a problem”. Die Computerhardware wird nicht zuletzt auch Rechner genannt, aufgrund der programmiersprachlichen Formulierung von Algorithmen als Entscheidungsregeln, die häufig in Gestalt von mathematischen Formeln festgelegt sind. Die digitalen Daten werden den Algorithmen als Eingabe zugeführt oder entstehen als Ausgabe algorithmischer Verarbeitung. Dabei ist das besondere an den Algorithmen, dass sie wie die IuK fortlaufend eingesetzt werden können. Als einprogrammiertes System von Rechenvorschriften können Rechenprobleme nun mit Hilfe von IuK automatisiert gelöst werden. Dabei stehen die Algorithmen nicht nur in einem Verwertungszusammenhang mit digitalen Daten, auch mit ihnen verbundene Problematiken erinnern an die zuvor aufgeworfenen Schwierigkeiten menschlicher Fehlbarkeit und subjektiver Einflüsse im Rahmen ihres Einsatzes:
Zwar genießen Algorithmen oftmals den Nimbus der Objektivität, weil sie unper- sönlich sind und quantitative Daten verarbeiten, doch diese kalkulativen Praktiken selbst sind keineswegs neutrale Verdatungsformen des Sozialen. Algorithmen ste- hen in einem unauflöslichen Zusammenhang mit sozialen Formen der Zuschreibung von Wertigkeit, und in diesem Sinne produzieren und repräsentieren sie das, was für relevant oder wertvoll gehalten werden soll.
Algorithmen werden folglich dort für das Wahrnehmungsmuster digitaler Daten relevant, wo sie die in den Daten verbundenen Problemlagen noch verschär- fen oder gar dazu eingesetzt werden sollen, einmal identifizierte Probleme abzumildern oder gar zu beseitigen. Wenn in den Daten Verzerrungen oder Unge- nauigkeiten vorliegen, ihr Wirklichkeitsabbild fraglich ist oder aber, wenn eine andere Gewichtung der Daten gewünscht ist, dann sollen die Rechenvorschriften der Algorithmen zur Datenverarbeitung eben angepasst werden. Ihr Verhältnis zu den digitalen Datenbeständen ist somit an dieser Stelle verdeutlicht. Es wird jedoch im vorliegenden Forschungszusammenhang zwecks begrifflicher Klarheit und der vorrangigen Fokussierung auf ganz allgemeine Datensammlung und – verwertung nicht weiter ausgeführt und explizit unter dem Label Algorithmus angesprochen. Weiterhin sind Algorithmen jedoch auch unverzichtbarer Teil des Entstehungs- und Verwertungszusammenhangs digitaler Daten, wenn es um den Fall von Anwendungen der KI geht, bei denen die Folgen von Rechenvorschrif- ten eine elementare Rolle spielen. Auch hier soll nicht mit dem eher allgemeinen Begriff Algorithmus operiert werden, sondern auf die wesentlichen Charakte- ristika der KI abgestellt werden, die nachfolgend erläutert und zu Big Data in Beziehung gesetzt werden.
Künstliche Intelligenz und maschinelles Lernen
Im Rahmen der Diskussion um die Digitalisierung der Gesellschaft erfährt der- zeit auch der Begriff der KI wieder eine Renaissance. Ein Phänomen, das nach heutigem Stand in seinen zentralen Anwendungen wie Machine Learning (ML) vor allem auf die Verfügbarkeit der großen digitalen Datenbestände angewiesen und daher unmittelbar mit Big Data verbunden ist. Beginnend mit der Darthmouth Conference im Jahr 1956 wurde an der Entwicklung von Computer- systemen gearbeitet, die intelligente Eigenschaften besitzen. Obwohl es keine allgemeingültige Begriffsbestimmung, sondern viele unterschiedliche Definitionen von ‚natürlicher‘ Intelligenz gibt, wie sie bei Mensch und Tier zu beobachten ist, entstehen derzeit weltweit Forschungsprogramme, die besagte KI entwickeln und ihren gesellschaftlichen Einsatz vorantreiben. So stellte auch die Bundesregierung Deutschlands im Sommer 2018 Eckpunkte für eine zu entwickelnde nationale KI-Strategie vor, die im November 2018 verabschiedet und der Öffentlichkeit präsentiert wurde.
Ganz allgemein stellt KI darauf ab, dass Maschinen intelligente Fähigkei- ten demonstrieren, die man sonst nur im Rahmen natürlicher Intelligenz bei Menschen beobachtet und die sich u. a. in mathematischem, sprachlichem oder räumlichem Denken, Merkfähigkeit, Wahrnehmung, Auffassungsgabe und Verar- beitungsgeschwindigkeit äußern. Dabei ist der Begriff KI dahingehend zunächst einmal irreführend, da er falsche Vorstellungen davon vermittelt, welche konkreten Anwendungen sich unter dem allgemein gehaltenen Label derzeit versammeln. Häufig geht es bei KI um Computerprogramme des maschinellen Lernens, die mit Hilfe von Algorithmen Muster in den großen digitalen Datenbeständen erkennen sowie Objekte und Personen identifizieren und zuordnen.
Nicht nur, dass viele KI-Systeme und insbesondere ML-Anwendungen auf Big Data angewiesen sind, um zu lernen, die Mustererkennung und Vorhersagen zu verbessern. KI kann potentiell auch dafür eingesetzt werden, die anfallenden Datenbestände zu be- und verarbeiten. So führt O’Leary aus, dass KI mit Blick auf die Entstehungsgeschwindigkeit der digitalen Daten schnellere und umfassendere Entscheidungen treffen kann als der Mensch, und führt als Bei- spiel den Einsatz von High-Frequency-Tradingsystemen an der Börse an. Hier werden unzählige laufend eingehende Informationen in Sekundenbruchteilen von Computerprogrammen gesichtet und bewertet, um Kauf- oder Verkaufsentschei- dungen zu treffen. Laut Glantz und Kissell entfällt mittlerweile der Großteil der börslichen Handelsaktivität (85 % im Jahr 2012) auf die unter dem Stichwort Algorithmic Trading zusammengefassten Computersysteme, von denen etliche KI-basiert sind.
Insbesondere aufgrund der angeführten Unstrukturiertheit vieler großer Daten- bestände verbinden sich mit KI Hoffnungen auf einen vereinfachten Umgang mit den angesprochenen Herausforderungen bei der Verarbeitung und Auswertung von Big Data. Da maschinelles Lernen in der Lage ist, große Datenmengen verhältnismäßig schnell und zuverlässig zu verarbeiten und hierin Muster zu erkennen, erlauben diese Programme einen vermeintlich einfacheren Zugang zu großen unstrukturierten Datensätzen.
Die Mustererkennung ist hier vor allem im Zusammenhang mit dem nach- folgend zu besprechenden Wissen zu bewerten. Erst durch Big-Data-Analytics ergibt sich ein Erkenntnisgewinn aus den zunächst einmal unzugänglichen und somit wertlosen Daten. Denn ohne diese maschinelle Hilfe könnte kein Mensch die großen digitalen Datenbestände bearbeiten und ein Verständnis hieraus gewinnen, weshalb sich insbesondere Fragen nach dem vermeintlichen Erkenntnisgewinn und einem hieraus gezogenen Nutzen der Analyse von Big Data durch KI ergeben.
Aus den beispielhaften Ausführungen wird deutlich, dass öffentliche Erwar- tungen bestehen, in deren Rahmen sich Big Data und Musterkennung gegenseitig befruchten und gemeinsam gewinnbringend genutzt werden können. So ist es für Katz nicht überraschend, dass das erneute Aufblühen der an KI gerichteten Erwartungen eng mit dem Aufkommen von Big Data im Rahmen einer ökonomischen Verwertungslogik verbunden ist und von den Unternehmen aktiv befördert wird:
Corporations have helped manufacture an ‘AI revolution’ in which AI stands for a confused mix of terms—such as ‘big data,’ ‘machine learning,’ or ‘deep learning’— whose common denominator is the use of expensive computing power to analyze massive centralized data.
Eine Befragung von Kersting und Meyer unter KI-Forschern aus Wissenschaft und Industrie kommt zwar zu dem Ergebnis, dass KI und Big Data miteinander in Bezug stehen, dass sie jedoch zumindest von Expertenseite auf keinen Falls als deckungsgleich oder miteinander konvergierend erachtet werden. Ihre Verbindung wird jedoch auch hier dadurch deutlich, dass die KI und hier genauer die angesprochenen ML-Anwendungen als eine Zugangsmöglichkeit zu den Daten, vor dem Hintergrund der technischen Herausforderungen ihres Entstehungs-, insbesondere jedoch ihres Verwertungskontextes, gesehen werden. KI ist weithin auch als eine „Methode der Erkenntnisgewinnung“ zu betrachten, die auf digitale Daten zurückgreift, Muster in ihnen erkennt und so das aus ihnen destillierbare Wissen zugänglich macht. Folglich werden unlängst immer mehr Innovationen aus dem Feld der KI für die Verwendung in den unterschiedlichsten Gesellschaftsbereichen angedacht oder bereits eingeführt. Daher stellt auch der letztendliche Forschungszusammen- hang zu einem Glauben an Big Data nachfolgend vor allem auf den Einsatz von datenverarbeitenden KI-Anwendungen ab. Insbesondere mit Blick auf die zuvor angesprochenen Verheißungen von Erkenntnis- und Nutzen- gewinnen erfährt Big Data in Verbindung mit KI-Anwendungen derzeit also eine hohe gesellschaftliche Aufmerksamkeit. Wichtig ist hier also der Bezug zwischen digitalen Daten und Wissen sowie dessen Bedeutung im Zusammenhang mit der gesellschaftlichen Ordnung und Verwertung von Wissen, der nun nachfolgend genauer herausgearbeitet wird.
Marco Lünich: Digitale Daten und Big Data. In: Der Glaube an Big Data. Springer VS, Wiesbaden; 2022
https://doi.org/10.1007/978-3-658-36368-0_3
http://creativecommons.org/licenses/by/4.0/deed.de
Zur einfacheren Lesbarkeit wurden die Quellenverweise und Fussnoten entfernt.