
1
Big Data setzt leistungsfähige Speichermedien voraus, um kontinuierlich digitale Daten zu sammeln und mithilfe von Algorithmen und Maschinen Lernen auszuwerten. Big Data und dadurch möglichen Analysen (Big Data Analytics) sind eine Folge der digitalen Transformation unserer Gesellschaft, der exponentiell gestiegenen Kapazität von Speichertechnologien und der ebenfalls gestiegenen Leistungsfähigkeit von Prozessoren und Algorithmen.
- Big Data — aus einer medienwissenschaftlichen Sicht
Weitere Informationen zu Big Data aus einer informatischen Sicht:
- Big Data (Lexikoneintrag)
Demnach zeichnet sich Big Data aus durch: „Volume“, „Velocity“ und „Variety“.
Big Data – Erklärfilm – Das knapp drei Minuten lange Erklärvideo von explain-it zu Big Data aus dem Jahr 2014 erläutert den Begriff, die Entstehung von Daten sowie Anwendungsbeispiele.
Unterrichtseinheit „Was ist Big Data?“ — Diese Einheit nimmt 45 Minuten in Anspruch und richtet sich an Schülerinnen und Schüler im Alter von 12 bis 16 Jahren an Gymnasien, Real- und Hauptschulen. Es wird der Begriff „Big Data“ eingeführt und erklärt, wie und welche Mengen an Daten im Alltag produziert werden. Die Materialien stehen zum Download zur Verfügung. Die „Digitale Lernwerkstatt” ist ein Projekt der Accenture Dienstleistungen GmbH.
In seiner im November 2017 veröffentlichten Stellungnahme zu Big Data im Gesundheitswesen legt der Deutsche Ethikrat folgende Arbeitsdefinition zugrunde:
4
Im Folgenden stehen nicht die informatisch-technischen Bearbeitungen von Big Data im Vordergrund, sondern die gesellschaftlich-kulturellen Auswirkungen und sozialen Folgen, die sich durch die Auswertung von Big Data ergeben. Big Data bezeichnet nicht nur das bloße Vorhandensein gigantischer und heterogener Datenbestände, sondern schließt auch ihre Auswertung mit Hilfe von Künstlicher Intelligenz und Maschinelles Lernen ein.
Die visuelle Einführung ins Maschinelle Lernen von R2D3 zeigt, wie Computer statistische Lernverfahren anwenden, um automatisch Muster in Daten zu erkennen. Dies ermöglicht sehr genaue Vorhersagen zu treffen. Beispielhaft werden diese Verfahren anhand von Daten aus dem Immobilienmarkt dynamisch veranschaulicht.
Muster und Vorhersagen im Datenüberschuss
Big Data (Analytics) erweitert die Möglichkeiten zur Erzeugung und Auswertung von Daten über die Welt. Für Viktor Mayer-Schönberger ist Big Data „weniger eine neue Technologie denn eine neue oder jedenfalls signifikant verbesserte Methode der Erkenntnisgewinnung”. 5 Es geht bei Big Data „nicht um die absolute Zahl an Daten”, sondern um die Vorgehensweise, relativ zum Phänomen bzw. zur Frage, die beantwortet werden soll, „deutlich mehr Daten” zu sammeln und auszuwerten.6
Dieser Datenüberschuss bietet Möglichkeiten, bislang unerkannte Muster und statistische Korrelationen als Antworten auf Fragen zukünftigen Handelns zu erzeugen. Je nach Fragestellung wurden verschiedene Anwendungen entwickelt, die auch „prädiktive Analytik” bezeichnet werden:
- Welche Mitarbeiterin steht kurz davor selbst zu kündigen? – People Analytics
- Wo könnte die nächste Straftat passieren? – Predictive Policing
- Welches Produkt wird die Kundin als nächstes kaufen? – Predictive Marketing
- Welches Bauteil wird in den kommenden Tagen kaput gehen und muss jetzt ausgetauscht werden? – Predictive Maintainance
- Welches Kind ist durch Gewalt in der Familie akut gefährdet? – Risk Scoring
- Welche Studentin wird die Prüfung nicht bestehen? – Learning Analytics
Zur Beantwortung derartiger Fragestellungen werden Big Data Technologien eingesetzt, um vermeintlich „neutrale” Antworten auf Basis „objektiver Daten” zu liefern. Die Zuschreibungen von Neutralität, Objektivität und somit Rationalität mit Blick auf die sozialen Folgen wurden indes wiederholt in Frage gestellt.
Datenrationalität, Glaube und Diskriminierung
Die Arbeit mit Big Data findet unter neuen erkenntnistheoretischen Rahmenbedingungen mit gigantischen Datenmengen und Hochleistungsprozessoren statt: “In automatisierten Prozessen kann somit Wissen generiert werden, welches dem Menschen grundsätzlich nicht mehr zugänglich ist”.9 Dieses im Ergebnis unzugängliche, generierte Wissen stellt eine besondere Herausforderung für die Verständlichkeit und Nachvollziehbarkeit datenanalysierender Prozesse, und damit für entsprechende Bildungsmaßnahmen im Sinne einer Big Data Literacy dar. Um Big Data entsteht eine „Aura” der Objektivität oder gar eine „Mythologie” datengetriebener Einsichten. So begreifen die US-amerikanische Forscherinnen Danah Boyd und Kate Crawford Big Data als ein Zusammenspiel von Technik, Analyse und „Mythologie“:10
„Damit einher geht der weitverbreitete Glaube, dass große Datensätze uns Zugang zu einer höheren Form der Intelligenz und des Wissens verschaffen, die neue, bislang unmögliche Einsichten generieren, Einsichten, die eine Aura der Wahrheit, der Objektivität und der Genauigkeit umgibt.“ 11
Korrelation und/oder Kausalität? - Es gibt eine hohe Korrelation zwischen der Scheidungsrate und dem Pro-Kopf-Verbrauch von Margarine im US-Bundesstaat Maine zwischen 2000 und 2009. Aber gibt es eine Kausalität? Dieses und weitere amüsante Statistikbeispiele finden sich auf der Seite von Tyler Vigen.
„Big Data knackt Ihre Psyche”[Link zu Database] — In der Reihe „Unstatistik des Monats” werden statistische Aussagen in den Medien hinterfragt. In einer Ausgabe wird die Prognosegenauigkeit von Big Data Analysen behandelt und das Fazit gezogen: der „Algorithmus formalisiert Alltags-Klischees und liegt oft daneben”.13
Allwissenheit und / oder Diskrimierungen?
Ein „Versprechen der Allwissenheit“ 14 durch Big Data und die Grenzen der Anwendbarkeit von Big Data Analytics insbesondere in sozialen Bereichen muss zum Gegenstand einer kritischen Medienbildung werden. Denn diese datengetriebenen Analyse können, wenn sie auf soziale Bereiche angewendet werden, problematische Effekte, wie etwa Diskrimierungen zeigen.
Algorithmen und Diskriminierung — Lorena Jaume-Palasí beschreibt in diesem Interview Künstliche Intelligenz und algorithmische Entscheidungssysteme als kollektive Technologien, die dafür ausgelegt seien, Klassifikationen zu bilden und Kollektive zu analysieren, aber nicht einzelne Individuen. Insoweit können Algorithmen nicht anders, als zu diskriminieren, weil es immer Menschen geben werde, die in keine Klassifikation hineinpassen.
Weapons of Math Destruction
Die US-amerikanische Statistikerin Cathy O’Neil veröffentlichte 2016 ihr Buch mit dem Titel „Weapons of Math Destruction. How Big Data Increases Inequality and Threatens Democracy”. Darin zeigt sie, wie Big Data Anwendungen „Wahlen manipulieren, Berufschancen zerstören und unsere Gesundheit gefährden” können (so der Untertitel der deutschsprachigen Ausgabe).
Diskriminierungen und die Daten der Anderen
Mögliche Ursachen für Diskriminierungen können in der Entwicklung der Algorithmen und Modelle, aber auch in verzerrten (Trainings-)Daten liegen oder durch menschliche Bewertungsaktivitäten entstehen. Besonders hervorzuheben ist die algorithmengestützte, statistische Diskriminierung, die sich nicht auf die Kategorisierung individueller Eigenschaften bezieht, sondern auf Gruppeneigenschaften, die durch Datenanalysen erst erzeugt werden, „als ob jedes der Mitglieder dieser Gruppierung das Merkmal aufweisen würde“.15
In Zeiten von Big Data und prädiktiver Analytik kann sich ein Einzelner einer solchen statistischen Gruppenzuordnung kaum entziehen, denn es können die Daten der anderen und scheinbar belanglose Daten genutzt werden, um gewünschte Aussagen mit sozialen Folgen zu erstellen. Daher ist die allgemeine Sensibilisierung im Umgang mit Daten eine besondere und auch politische Bildungsaufgabe.
- Wie umgehen mit Diskriminierung durch ADM-Systeme? Das Projekt AutoCheck – Handlungsanleitung für den Umgang mit Automatisierten Entscheidungssystemen für Antidiskriminierungsstellen erarbeitet Handlungsanleitungen und Fortbildungen für den Umgang mit Diskriminierung durch Algorithmen.