Newsletter Anmeldung

Bleiben Sie mit dem Newsletter immer up to date.

Anfrage
arrow-to-top

Rechtliche Implikationen Profiling-basierter Preispersonalisierung – Teil 1

Profiling

I. Definition

1. Profiling im Sinne der Datenschutz-Grundverordnung

a. Datenschutzrechtliche Definition

Vor Inkrafttreten der Datenschutz-Grundverordnung bestand im europäischen Rechtsraum keine rechtlich verbindliche Definition des Begriffs Profiling. Er wurde weder in der Datenschutz-Richtlinie 94/46/EG noch in den verschiedenen Fassungen des Bundesdatenschutzgesetzes verwendet. Auch ansonsten besteht keine fest etablierte Definition. In der vorliegenden Arbeit wird als Ausgangspunkt der Untersuchungen auf die Legaldefinition in Art. 4 Nr. 4 DSGVO zurückgegriffen, um den Begriff im Kontext der Verordnung zu konkretisieren.

Profiling ist demnach „jede Art der automatisierten Verarbeitung personenbezogener Daten, die darin besteht, dass diese personenbezogenen Daten verwendet werden, um bestimmte persönliche Aspekte, die sich auf eine natürliche Person beziehen, zu bewerten, insbesondere um Aspekte bezüglich Arbeitsleistung, wirtschaftliche Lage, Gesundheit, persönliche Vorlieben, Interessen, Zuverlässigkeit, Verhalten, Aufenthaltsort oder Ortswechsel dieser natürlichen Person zu analysieren oder vorherzusagen“. Diese Legaldefinition entspricht dem typischen Begriffsverständnis von Profiling im privatwirtschaftlichen Bereich im Verhältnis zwischen Unternehmern und (einzelnen) Verbrauchern. Sie zeigt zudem große Ähnlichkeit mit der Formulierung, die das Ministerkomitee im Anhang einer Empfehlung zur Auslegung der Europäischen Datenschutzkonvention von 1981 (bekannt als „Konvention 108“) an die Mitgliedstaaten des Europarats verwendet hat. Profiling wird dort beschrieben als „ein Verfahren der automatisierten Verarbeitung von Daten, das darin besteht, einer natürlichen Person ein ‚Profil‘ zuzuordnen, um insbesondere Entscheidungen in Bezug auf ihre Person zu treffen oder um ihre persönlichen Vorlieben, Verhaltensweisen und Einstellungen zu analysieren oder vorherzusagen“.

Profiling ist demnach ein Verfahren, in dem personenbezogene Daten i. S. v. Art. 4 Nr. 1 DSGVO automatisiert verarbeitet werden, um persönliche Aspekte einer natürlichen Person zu bewerten. Nur eine automatisierte Verarbeitung personenbezogener Daten kann unter diese Legaldefinition subsumiert werden, obwohl der sachliche Anwendungsbereich der Datenschutz-Grundverordnung auch bei der nicht automatisierten Verarbeitung personenbezogener Daten eröffnet ist, sofern diese gem. Art. 2 I DSGVO „in einem Dateisystem gespeichert sind oder gespeichert werden sollen.“ Eine rein manuelle Verknüpfung der Daten zwecks Bewertung persönlicher Aspekte stellt also noch kein Profiling im Sinne der Verordnung dar.

b. Mögliche Ergebnisse

Die Spannbreite der so generierbaren Erkenntnisse und Beurteilungen ist äußerst weit, wie die nicht abschließende („insbesondere“) Auflistung von Regelbeispielen zeigt. Der Wortlaut von Art. 4 Nr. 4 DSGVO deutet darauf hin, dass eine derartige Bewertung persönlicher Aspekte entweder einen aktuellen Status beschreibt („analysieren“) oder eine in die Zukunft gerichtete Vorhersage trifft („vorherzusagen“). Die Legaldefinition der Datenschutz-Grundverordnung stellt von ihrem Wortlaut her – im Gegensatz zu der Definition des Ministerkomitees – bloß auf das eigentliche Erstellen der Bewertung ab, nicht aber auf die darauf basierenden, nachfolgenden Entscheidungen. Inhaltlich macht dies auf den ersten Blick keinen Unterschied, da Profiling i. S. d. Art. 4 Nr. 4 DSGVO keinen Selbstzweck darstellt, sondern vielmehr regelmäßig gerade mit dem Blick auf nachfolgende Entscheidungen durchgeführt wird. Zu beachten ist jedoch die explizite Regulierung automatisierter Einzelentscheidungen in Art. 22 DSGVO, welche eine (rechtliche und tatsächliche) Unterscheidung zwischen Profiling einerseits und der auf Profiling basierenden Entscheidungsfindung im Einzelfall (und ihrer Ausführung) andererseits nahelegt.

Bereits die große Bandbreite an Regelbeispielen des Art. 4 Nr. 4 DSGVO zeigt, dass der Begriff Profiling die Bewertung inhaltlich ganz verschiedener und unterschiedlich komplexer persönlicher Aspekte umfassen soll. Der Anwendungsbereich der Legaldefinition ist damit bewusst weit gewählt. Angesichts der genannten, teilweise sehr speziellen Aspekte („Aufenthaltsort“, „Ortswechsel“) wird deutlich, dass nicht nur die Erstellung von umfassenden, detaillierten Persönlichkeitsprofilen unter diesen Begriff subsumiert werden kann. Auch simpler gehaltene Bewertungen können das Ergebnis von Profiling sein. Es ist wichtig, bereits an dieser Stelle festzuhalten, dass der Wortlaut des Art. 4 Nr. 4 DSGVO deutlich macht, dass Profiling (auch bei den vermeintlich völlig objektiven persönlichen Aspekten „Aufenthaltsort [und] Ortswechsel“) nicht dazu verwendet wird, persönliche Aspekte schlicht objektiv festzustellen. Es ist charakteristisch für Profiling im Sinne der Datenschutz-Grundverordnung, dass eine Bewertung generiert wird. Dies geschieht entweder dergestalt, dass bekannte persönliche Aspekte analysiert werden („um Aspekte (…) zu analysieren“) oder dass sie vorhergesagt werden („um Aspekte (…) vorherzusagen“). Es geht damit sowohl um eine analytische Bewertung der Gegenwart als auch um das Treffen von Vorhersagen über persönliche Aspekte mit Blick auf die Zukunft. In beiden Konstellationen wird versucht, vom Bekannten auf das Unbekannte zu schließen.

Moderne Smartphones sind beispielsweise häufig mit einer Vielzahl von Sensoren ausgestattet und damit in der Lage, ganz verschiedene Arten von Daten zu erheben. In aller Regel sind in ihnen GPS-Tracker, Beschleunigungsmesser, Umgebungslichtmesser, Kompasse, Gyroskope und weitere Sensoren enthalten, die es erlauben, Informationen über den Nutzer und seine Umwelt aufzuzeichnen. Die Sammlung und Auswertung von mittels Smartphones gesammelten Daten haben eine bedeutende Rolle bei der Entwicklung der datengetriebenen Wirtschaft gespielt und zahlreiche Innovationen ermöglicht. Auch andere Produkte des Internet of Things („Internet der Dinge“) – also solcher Alltagsgegenstände, die mit Sensoren ausgestattet sind und das Sammeln großer Mengen personenbezogener Daten ermöglichen – erlauben generell eine umfassende Profilbildung Einzelner, vor allem durch das Zusammenführen von Daten aus verschiedenen Quellen (sog. Data Fusion). Das bloße Sammeln der Daten als solches stellt aber noch kein Profiling dar, da damit keine Bewertung einhergeht. Vielmehr handelt es sich um ein zunächst wertneutrales Erfassen von Informationen. Allerdings erlauben diese Sensordaten es auch – vor allem in ihrer Kombination bzw. durch das Zusammenführen mit Daten aus anderen Quellen –, eine Bewertung einer Person in Form einer Analyse bzw. einer Vorhersage zu erstellen. Es ist mit den heutigen Mitteln der automatisierten Datenverarbeitung z. B. durchaus möglich, durch Auswertung der Sensoren auf demografische Eigenschaften des Handynutzers (wie z. B. Geschlecht, Ehestand, Alter etc.) oder auf seine Gesundheit, sein allgemeines Wohlbefinden und weitere persönliche Aspekte zu schließen. Erwägungsgrund 30 der Datenschutz-Grundverordnung führt zutreffend beispielhaft aus, dass auch IP-Adressen, Cookies und Funkfrequenzkennzeichnungen in Verbindung mit weiteren Informationen zur Bildung von Profilen herangezogen werden können.

Ausgehend von den genannten Beispielen bezieht sich Profiling zum einen auf Eigenschaften, auf die der Betroffene keinen oder nur bedingten Einfluss hat, wie z. B. die „Gesundheit, persönliche Vorlieben [und] Interessen“. Zugleich wird das bewusst steuerbare „Verhalten“ des Betroffenen genannt, wobei „Aufenthaltsort [und] Ortswechsel“ als Beispiele für ein solches Verhalten verstanden werden können.

c. Einsatzgebiete

Profiling kommt beispielsweise zur Anwendung, wenn Anbieter von Online-Shops das Verhalten ihrer Nutzer erfassen und anhand der gesammelten Daten automatisiert individuelle Kundenprofile erstellen. Ausgehend von diesen Profilen gestalten sie die weitere Interaktion mit den Betroffenen aus, idealerweise genau abgestimmt auf die jeweils erkannten Vorlieben, Eigenschaften und Verhaltensmuster. Profiling kann damit als Teilaspekt des sog. Customer Relationship Managements eingesetzt werden und der Optimierung des Verhältnisses zwischen Unternehmer und Kunden dienen. Das übergeordnete Ziel ist dabei häufig der Verkauf von Gütern oder Dienstleistungen. Trotz der dem E-Commerce innewohnenden Anonymität können Kunden auf diese Weise individuell angesprochen und so an das Unternehmen gebunden werden. Auch dann, wenn einem Nutzer auf der Homepage eines Online-Händlers oder per E-Mail individualisierte Kaufempfehlungen präsentiert werden, die sich an der jeweiligen Kaufhistorie orientieren, liegt Profiling vor: Anhand automatisierter Verarbeitung der vorliegenden Informationen über getätigte Käufe wurde ein mögliches Interesse an bestimmten Produkten erkannt und für eine Werbeansprache genutzt (sog. Online Behavioural Advertisement). Ähnlich verhält es sich bei Streamingdiensten für Musik und Videos im Internet. Deren Kunden erhalten, ausgehend von ihrem bisherigen Nutzungsverhalten, als Teil der Dienstleistung individualisierte Empfehlungen, z. B. für den Abruf bestimmter Filme oder Musikstücke. Die Vorlieben ihrer Nutzer zutreffend vorherzusagen, ist für die Anbieter solcher Streamingdienste ein wichtiger Teil ihres Geschäftsmodells. Profiling kommt im privatwirtschaftlichen Bereich auch für Zwecke der Risikominimierung zum Einsatz und hilft beispielsweise beim Aufdecken von Betrugsversuchen und der Verifikation der Identität von Kunden. Es wird von zahlreichen Unternehmen aus verschiedenen Bereichen eingesetzt, vor allem von den Betreibern von Suchmaschinen und sozialen Netzwerken, Online-Händlern, Werbeunternehmen und Telefonanbietern.

d. Fallbeispiel: Google/CNIL 2019

Ein anschauliches Beispiel für Profiling und die zugrunde liegenden Methoden enthalten die Feststellungen, die die französische Datenschutzbehörde CNIL (Commission Nationale de lInformatique et des Libertés) im Rahmen eines Bußgeldverfahrens gegen Google getroffen hat. Die CNIL hat im Januar 2019 gegen die Google LLC (mit Sitz in Mountain View, Kalifornien, USA) ein Bußgeld in Höhe von 50 Mio. € wegen Verstößen gegen verschiedene Vorschriften der Datenschutz-Grundverordnung verhängt. Die CNIL warf Google vor, gegen die Transparenzpflichten der Art. 12 ff. DSGVO verstoßen und personenbezogene Daten mangels wirksamer Einwilligung i. S. d. Art. 6 I S. 1 lit. a DSGVO ohne Rechtsgrundlage verarbeitet zu haben. Streitgegenstand war die datenschutzrechtliche Bewertung von personalisierter Werbung denjenigen Kunden gegenüber, welche im Kontext der Inbetriebnahme eines Smartphones mit Android-Betriebssystem einen Google-Acount anlegen.

Mit Blick auf die Transparenzpflichten des Art. 12 I DSGVO führt die CNIL aus, dass Google Nutzerdaten aus gänzlich verschiedenen Quellen sammelt, zusammenführt und auswertet, um die so gewonnenen Erkenntnisse für spätere Entscheidungen zu nutzen. Dabei werden Daten erhoben, welche sich auf die Nutzung des Smartphones selbst, auf die Nutzung von Google-eigenen Diensten (etwa YouTube und GMail) und auf die Nutzung von Webseiten Dritter beziehen, welche wiederum über Plug-ins (wie etwa Google Analytics) mit Google verbunden sind und dorthin Daten übermitteln. Die Behörde unterscheidet drei Kategorien von Daten.

Die erste Kategorie bezieht sich auf Daten, die der Nutzer selber bereitgestellt hat. Gemeint sind damit beispielsweise der Name des Nutzers, sein Passwort, seine Telefonnummer, seine E-Mail-Adresse, die von ihm empfangenen Dateien (Fotos, Videos etc.) und die von ihm gewählte Zahlungsweise. Die zweite Kategorie enthält Daten, die bei Aktivitäten des Nutzers generiert und gesammelt werden und über diese Auskunft geben. Beispielhaft genannt sind die dem Nutzer im Laufe der Zeit zugewiesenen IP-Adressen, ihm zugewiesene eindeutige Kennziffern, seine Nutzung von WLAN-Anschlüssen, die mit Bluetooth-Geräten getätigten Verbindungen, sein Aufenthaltsort, technische Daten des Endgeräts (inklusive Daten, die von Sensoren erhoben werden, wie etwa der im Smartphone enthaltene Beschleunigungsmesser), die von ihm aufgerufenen Videos, von ihm getätigte Suchanfragen, von ihm getätigte Einkäufe und von ihm genutzte Applikationen. Die dritte Kategorie bezieht sich auf Daten, welche sich infolge von Berechnungen bzw. Schlussfolgerungen ergeben, welche auf Daten aus den ersten beiden Kategorien aufbauen. Was die Nutzung von Daten aus der dritten Kategorie angeht, differenziert die CNIL unter Bezugnahme auf die Verarbeitungszwecke, die in der von Google verwendeten Datenschutzerklärung aufgelistet sind. Sie geht zum einen davon aus, dass Google die Analysen durchführt, um personalisierte Werbung für Dritte anbieten zu können. Zugleich werden die Analyseergebnisse aber auch herangezogen, um Suchergebnisse, Inhalte und Empfehlungen für die Nutzer zu personalisieren. Sie macht damit deutlich, dass verschiedene Zwecke verfolgt werden: Eine indirekte Kommerzialisierung der Daten (durch Verkauf der Werbeplätze an Dritte) einerseits, eine Verbesserung der eigenen Dienste andererseits. Die Behörde führt aus, dass die von Google ausgewerteten Daten intime, präzise Rückschlüsse auf das Privatleben der Betroffenen erlauben, wie etwa auf ihren Geschmack, ihre Lebensweise, ihre Meinungen und ihre sozialen Kontakte. Wertend fasst sie dies wie folgt zusammen: „The result of the combination of this data as a whole greatly reinforces the extensive and intrusive nature of the processing in question.“

Die Daten der dritten Kategorie sind das typische Ergebnis von Profiling: Personenbezogene Daten werden analysiert, um aus ihnen eine Beurteilung der persönlichen Aspekte einer natürlichen Person, in diesem Fall des Android-Nutzers, zu generieren. Das so geschaffene, „neue“ Wissen wird genutzt, um den Betroffenen personalisiert anzusprechen, sei es mittels Werbung oder mittels personalisierter Dienstleistungserbringung. Der hier diskutierte Google-Fall macht deutlich, wie divers das Ausgangsmaterial des Profilings im Online-Bereich sein kann: Die herangezogenen Daten stammen aus verschiedenen Quellen und beziehen sich auf ganz unterschiedliche Lebensbereiche der Nutzer. Und auch die so generierten Ergebnisse sind denkbar breit: Personalisierte Werbung bezieht sich auf Produkte und Dienstleistungen aus den unterschiedlichsten Bereichen. Das (erkennbar erfolgreiche) Geschäftsmodell von Google ist es u. a., Nutzern die Werbung von passenden Werbetreibenden anzuzeigen. Dies funktioniert wiederum nur, weil Google in der Lage ist, personalisierte Dienste verschiedener Art anzubieten. Erst eine ausdifferenzierte Zuordnung, aufbauend auf den Erkenntnissen des Profilings, macht dies möglich.

2. Scoring als Unterfall des Profilings

Im Zusammenhang mit dem Begriff Profiling tritt häufig der des Scorings auf. Auch für diesen gibt es in Wissenschaft und Praxis keine einheitliche Definition. Typischerweise wird der Begriff Scoring – ausgehend von seinem Ursprung im Englischen – verwendet, wenn das Ergebnis eines Profiling-Verfahrens in stark vereinfachter und abstrahierter Form als bloßer Zahlenwert dargestellt wird. Auch die automatisierte Einordnung des Betroffenen in eine bestimmte Risikogruppe kann eine Form des Scorings darstellen. Zudem kommt dieser Begriff in der Regel eher dann zum Einsatz, wenn es um die Vorhersage des (bewusst steuerbaren) Verhaltens eines Menschen geht und nicht um seine (nicht oder nur bedingt beeinflussbaren) persönlichen Eigenschaften. Eine trennscharfe Abgrenzung der beiden Begriffe kann im Rahmen dieser Arbeit dahingestellt bleiben, da Scoring im privatwirtschaftlichen Bereich nach hiesiger Definition immer einen Unterfall des Profilings darstellt.

Je nach Sektor, Verwendungszweck, Verwender etc. kommen verschiedene Arten von Scoring-Modellen zum Einsatz. In den USA ist Scoring aufgrund der traditionell deutlich laxeren Datenschutzgesetzgebung etablierter und institutionalisierter als in Deutschland. Data Broker und weitere privatwirtschaftliche Unternehmen treiben dort mit personenbezogenen Daten und Verbraucherprofilen Handel und bieten darauf bezogene Dienstleistungen in den verschiedensten Bereichen an. Manche Data Broker verkaufen z. B. Score-Werte, die Auskunft darüber geben, wie wahrscheinlich es ist, dass bestimmte Kunden eines Unternehmens auf Werbeansprachen reagieren. Andere Scores geben Auskunft darüber, wie wahrscheinlich es ist, dass eine Briefzustellung an eine bestimmte Adresse fehlschlägt, andere darüber, wie stark der Einfluss einer bestimmten Person auf andere Menschen in den sozialen Medien ist, wie z. B. auf Facebook oder Twitter. Auch ist es nicht unüblich, dass Unternehmen Einstellungs- oder anderweitige Personalentscheidungen u. a. auf Beurteilungen stützen, welche von externen „employment background screening companies“ erstellt wurden, welche eine individualisierte Bewertung über gegenwärtige oder potenzielle Arbeitnehmer erstellen. Für diesen Zweck ziehen sie personenbezogene Daten über den jeweiligen Betroffenen heran, die z. B. Auskunft über frühere Arbeitsverhältnisse, die Kredithistorie des Betroffenen oder zahlreiche weitere Faktoren geben. Allerdings ist unklar, in welchem Ausmaß solche weitreichenden Datenverarbeitungen in den USA auch in Zukunft zulässig sein werden. Verschiedene US-Bundesstaaten haben mittlerweile Datenschutzgesetze erlassen (bzw. in Planung), deren Schutzniveau sich dem der Datenschutz-Grundverordnung annähert. Nicht zuletzt aufgrund der dadurch drohenden Rechtsfragmentierung wird in den USA mittlerweile auch eine Datenschutzregulierung auf Bundesebene diskutiert.

Einer der Hauptanwendungsfälle von Scoring ist das sog. Kredit-Scoring. Es handelt sich dabei um die Berechnung eines individuellen Wahrscheinlichkeitswerts, der Auskunft über die Bonität eines potenziellen Kreditnehmers geben soll. Stellt ein Interessent eine Kreditanfrage bei einer Bank, entscheidet diese darüber in aller Regel vor allem anhand eines Score-Wertes, der Auskunft über das im konkreten Fall erwartete Zahlungsverhalten gibt. Dieser wird entweder von der Bank selbst anhand unternehmensinterner Daten berechnet, oder er wird von einer Auskunftei (wie z. B. der Schufa in Deutschland oder Equifax in den USA) bezogen, welche über umfassende Datensätze verfügt. Score-Werte sind häufig in Echtzeit verfügbar und können beispielsweise auch während einer über das Internet getätigten Kreditanfrage bei den Auskunfteien abgefragt werden.

Die Nutzung von Scoring-Verfahren ist in der Kreditwirtschaft fest etabliert. Ihr Einsatz kann für seine Verwender zu einer deutlichen Zeit- und Kostenersparnis führen. Eine aussagekräftige und zutreffende Berechnung des Score-Werts unterstellt, können Kreditantragsteller durch die automatisierte Vorauswahl ggf. vor Überschuldung geschützt werden, da ein Kredit nur bei ausreichender Bonität gewährt wird. Dementsprechend ist bei Verbraucherdarlehensverträgen gem. § 505a I S. 1 BGB die Prüfung der Kreditwürdigkeit des Antragstellers zwingend vorgeschrieben. Gem. § 505a I S. 2 BGB darf der Kredit nur gewährt werden, wenn diese ergeben hat, „dass bei einem Allgemein-Verbraucherdarlehensvertrag keine erheblichen Zweifel daran bestehen und dass es bei einem Immobiliar-Verbraucherdarlehensvertrag wahrscheinlich ist, dass der Darlehensnehmer seinen Verpflichtungen (…) vertragsgemäß nachkommen wird.“ In § 505b I, II S. 1, III S. 1 BGB wird explizit auf die Einbeziehung von Auskunfteien abgestellt. Beim Kredit-Scoring geht es typischerweise aber nicht mehr nur primär darum, ob dem Antragsteller ein Kredit gewährt wird. Scoring-Verfahren kommen vielmehr zum Einsatz, um die Konditionen des jeweiligen Kredits (Zinshöhe, Laufzeit, Anforderung von Sicherheiten etc.) dergestalt festzulegen, dass die Bank einen möglichst hohen Gewinn generiert. In diesem Kontext treffen Score-Werte also auch komplexere Aussagen, die über reine Zahlenwerte hinausgehen. In dieser speziellen Form gewinnt der Einsatz von Profiling für die Betroffenen eine ganz andere Qualität als beispielsweise im Bereich der maßgeschneiderten Werbung, da die Entscheidung über die Vergabe eines Kredites häufig äußerst weitreichende Auswirkungen hat, so z. B., wenn es um eine Existenzgründung oder um die Finanzierung einer Wohnimmobilie geht.

Profiling bzw. Scoring findet in ähnlicher Form (und mit ähnlich weitreichenden Folgen) bei der Berechnung von Versicherungsrisiken und bei der Bewertung der Arbeitsleistung von potenziellen bzw. gegenwärtigen Arbeitnehmern statt. Teilweise entscheiden Unternehmen auch über den Ausspruch einer Kündigung u. a. mithilfe solcher datengestützten Analysen. Auch Vermieter können bestimmte Scoring-Verfahren nutzen, anhand derer die Seriosität von Mietinteressenten bestimmt wird. In diese Bewertung fließt nicht etwa nur die Zahlungsfähig- bzw. -willigkeit des Mieters ein. Auch die Wahrscheinlichkeit, dass er Schäden am Mietobjekt verursacht oder sich einer Kündigung widersetzt, wird dabei berücksichtigt. Scoring kommt auch zum Einsatz, wenn einem (potenziellen) Käufer am Ende eines Online-Kaufvorganges nach Eingabe seines Namens und seiner Adressdaten in Abhängigkeit vom Ergebnis einer in Echtzeit durchgeführten Bonitätsprüfung verschiedene Bezahlmöglichkeiten angeboten werden (z. B. nur Vorkasse bei niedriger, Lieferung auf Rechnung bei hoher Bonität).

Trotz ihres hohen Abstraktionsgrads und der damit einhergehenden Vereinfachung wird Score-Werten häufig eine große Bedeutung zugesprochen, wenn es darum geht, bestimmte, teilweise hochkomplexe Entscheidungen zu treffen. Dies mag daran liegen, dass die Verwendung von Score-Werten die Erstellung von Ranglisten erleichtert und damit das Fällen von Entscheidungen (vermeintlich) objektiviert. Auch die hohe Verbreitung von Distanzgeschäften mag hierbei eine Rolle spielen: Der institutionalisierte Einsatz von einfachen und schnell verfügbaren individualisierten Bewertungen kann dazu dienen, das hohe Maß an Anonymität im Internet aus Sicht beispielsweise von Online-Händlern zumindest teilweise zu kompensieren.

II. Technische und methodische Hintergründe

Profiling erlaubt es, persönliche (menschliche) Aspekte i. S. v. Art. 4 Nr. 4 DSGVO zu einem gewissen Ausmaß zu analysieren und vorherzusagen. Der weit verbreitete Einsatz dieser Verfahren in der Privatwirtschaft zeigt, dass die durch Profiling generierten Ergebnisse zumindest so aussagekräftig sind, dass es sich im Ergebnis lohnt, auf sie zurückzugreifen. Im Folgenden wird Profiling in seinen technischen Kontext eingeordnet und analysiert, welche Ideen und Konzepte dahinterstehen.

Profiling wird zu ganz verschiedenen Zwecken und in ganz verschiedenen Bereichen eingesetzt. Die Verfahren, die dabei zum Einsatz kommen, weisen recht große methodische Unterschiede auf. Trotz dieser Unterschiede kann bereits an dieser Stelle festgehalten werden, dass vergleichbare interne Abläufe und weitere strukturelle Ähnlichkeiten und Gemeinsamkeiten erkennbar sind. Die Legaldefinition von Profiling in Art. 4 Nr. 4 DSGVO wurde insoweit technologieneutral formuliert: Die Art und Weise, mit der „persönliche Aspekte“ im Rahmen von Profiling bewertet werden, wird nicht näher definiert; vor allem wird nicht auf bestimmte Methoden abgestellt. Die Norm verwendet stattdessen den neutralen Begriff der „automatisierten Verarbeitung personenbezogener Daten“ und verweist damit auf in Art. 4 Nr. 1 und 2 DSGVO legaldefinierte, allgemeine Termini. Die Datenschutz-Grundverordnung beschreibt Profiling somit von seinem Zweck her, also mit dem Blick auf die Erkenntnisse, die die Verwender der Verfahren zu finden suchen.

1. Knowledge Discovery in Databases

Profiling basiert auf der Vorstellung, dass sich die Eigenschaften und das Verhalten eines Menschen dadurch berechnen und vorhersagen lassen, dass gewisse über ihn bekannte persönliche Aspekte mit den Eigenschaften und dem (früheren) Verhalten anderer Menschen in Bezug gesetzt und mit diesen verglichen werden. Es wird dabei unterstellt, dass Menschen, die sich ähnlich sind, sich in der Regel auch ähnlich verhalten und ggf. auch mit Blick auf andere Eigenschaften einander ähnlich sind. Dies lässt bereits ahnen, dass zur Durchführung von Profiling-Verfahren zunächst eine gewisse, große Menge an Vergleichsdaten vorhanden sein muss, welche Auskunft über Eigenschaften und Verhalten von realen Menschen und weitere Zusammenhänge aus der Vergangenheit geben. Zu denken ist hier beispielsweise an Daten über das Kaufverhalten von Kunden eines Supermarktes, über die Vertragstreue von Kreditnehmern und über das Konsumverhalten der Nutzer von Streamingdiensten.

Das Generieren von (zumindest potenziell) nutzbringendem Wissen und das Auffinden von neuen Informationen und Erkenntnissen in unverarbeiteten Daten mit dem Ziel, anhand des Gefundenen Entscheidungen zu fällen, wird generell als Knowledge Discovery in Databases (KDD) beschrieben. Bei diesem Prozess werden verschiedene Arbeitsschritte durchlaufen. Fayyad et. al. unterteilen KDD beispielsweise in fünf Abschnitte: Auswahl der zu verarbeitenden Daten aus einem gegebenen Datenbestand, Vorverarbeitung der Daten, Umwandlung der Daten, Data Mining und (menschliche) Interpretation der gefundenen Ergebnisse. KDD wird eingesetzt, um das so gefundene Wissen nutzbringend einzusetzen. In der Regel geht es dabei um das Fällen von Entscheidungen oder um Risikomanagement. Profiling nach dem Verständnis der Datenschutz-Grundverordnung stellt also auch einen Fall des KDD dar: Im Rahmen von Profiling werden nämlich ebenso vorhandene Daten herangezogen und mit dem Ziel verarbeitet, nützliche Erkenntnisse zu generieren, die bei der Interaktion mit dem Betroffenen verwendet werden sollen.

Grundvoraussetzung für den Einsatz von Profiling-Verfahren ist zunächst die Möglichkeit des Zugriffs auf große Datenbestände in Datenbanken oder sog. Data Warehouses. Es ist wichtig, dass ein möglichst großer Satz an auswertbaren Daten vorliegt, welche zutreffend vor allem über Eigenschaften und Verhalten von natürlichen Personen, aber auch über weitere damit zusammenhängende relevante Informationen Auskunft geben. Die Identität derjenigen, deren Daten ausgewertet werden, ist an dieser Stelle des Verfahrens grundsätzlich irrelevant. Ausgehend von dem 5-stufigen Modell von Fayyad et. al. findet danach eine Vorverarbeitung und Nutzbarmachung der Daten statt. Es handelt sich hierbei um technische Zwischenschritte, die notwendig sind, um die nutzbringende Auswertung der in den Daten enthaltenen Informationen überhaupt erst zu ermöglichen.

2. Data Mining

Der eigentliche Erkenntnisgewinn erfolgt erst im Rahmen des sog. Data Minings. Dies ist ein besonders wichtiger, für die Gewinnung nutzbarer Ergebnisse essenzieller Verarbeitungsschritt. Data Mining bezeichnet das automatisierte Durchforsten riesiger Datenbestände mit dem Ziel, darin bis dato unbekannte, dem menschlichen Betrachter nicht ohne Weiteres erkennbare Muster, Modelle und Trends zu erkennen und darzustellen. Fulda fasst dieses Verfahren prägnant zusammen: „Data mining is the intelligent search for new knowledge in existing masses of data.“

Die besonders große Menge an Daten, die beim Data Mining zum Einsatz kommen, erlaubt es häufig, Zusammenhänge und Korrelationen offenzulegen, die sonst nicht bekannt geworden wären. Vor der Datenverarbeitung ist teilweise noch gar nicht klar, was für eine Art von Erkenntnis gewonnen werden wird und wofür sie nützlich sein könnte. Data Mining kann somit eingesetzt werden, um in Datenbeständen gänzlich unbekannte, neue Zusammenhänge zu finden. Darüber hinaus wird es auch eingesetzt, um Vermutungen zu verifizieren, so z. B., wenn bereits ein Verdacht besteht, dass gewisse Zusammenhänge bestehen.

Data Mining wird mittels verschiedener technischer Verfahren und mit verschiedenen Zwecksetzungen durchgeführt. Pattern Recognition, also das Aufdecken verschiedener Arten von Mustern in Datensätzen, ist mit die wichtigste beim Data Mining zum Einsatz kommende Methode und prägt diesen Begriff. Data Mining und Pattern Recognition können aber nicht synonym verwendet werden, da die Methoden des Data Minings über das bloße Erkennen von Mustern hinausgehen. Pattern Recognition ist damit begrifflich enger als Data Mining.

In der Literatur werden zwei verschiedene grundsätzliche Ansätze unterschieden: „Descriptive“ und „Predictive“ Data Mining. Die beim Descriptive Data Mining zum Einsatz kommenden Methoden dienen dazu, dem Verwender ein vertieftes Verständnis über die Struktur großer Datensätze zu vermitteln, indem ihm zuvor unbekannte Zusammenhänge und Regeln offengelegt werden, welche dem menschlichen Betrachter ansonsten verborgen geblieben wären. Die so erstellte, automatisierte Beschreibung bzw. Strukturierung der Daten ist der eigentliche Zweck des Descriptive Data Mining. Es soll dem Verwender durch Verständnis der Strukturen die Möglichkeit an die Hand gegeben werden, anhand der gewonnen Erkenntnisse z. B. zu planen oder Ressourcen möglichst effizient einzusetzen. Der Verwender dieser Verfahren setzt dem Computer zwar gewisse Vorgaben bei der Sortierung der Daten. Beim Descriptive Data Mining gibt es aber kein Ziel, welches über die Beschreibung des Datensets und der darin enthaltenen Zusammenhänge und Regeln hinausgeht. Beim Predictive Data Mining hingegen wird bereits vorhandenes Wissen herangezogen, um Vorhersagen über unbekannte Fälle zu treffen. Dem Computer kann beispielsweise „beigebracht“ werden, dass das Vorliegen bestimmter persönlicher Eigenschaften mit einer gewissen Wahrscheinlichkeit darauf schließen lässt, dass noch eine weitere persönliche Eigenschaft vorliegt. Ziel ist hier also ein Datenabgleich, der Vorhersagen erlaubt.

Die Legaldefinition von Profiling in der Datenschutz-Grundverordnung erfasst ohne Weiteres beide Kategorien des Data MiningsDescriptive Data Mining kann als „Analyse persönlicher Aspekte“ und Predictive Data Mining als „Vorhersage persönlicher Aspekte“ i. S. d. Art 4 Nr. 4 DSGVO subsumiert werden. Eine trennscharfe Unterscheidung wäre mit Blick auf die Praxis auch kaum realisierbar: Sehr häufig werden Descriptive und Predictive Data Mining nämlich in Kombination angewendet. Dies gilt vor allem, wenn Descriptive Data Mining Erkenntnisse hervorbringt, welche im Rahmen des Predictive Data Minings fruchtbar gemacht werden. Amazon beispielsweise bietet, neben zahlreichen anderen Unternehmen, als Teil seiner Server-Dienstleistungen Cloud-Computing-Dienste für Dritte an und analysiert in diesem Rahmen die Kundendaten seiner Kunden: „The service uses powerful algorithms to create [machine learning] models by finding patterns in your existing data. Then, Amazon Machine Learning uses these models to process new data and generate predictions for your application. Amazon Machine Learning is highly scalable and can generate billions of predictions daily, and serve those predictions in real-time and at high throughput.“ Ausgehend von in den Daten gefundenen Mustern können z. B. vermutete Betrugsfälle abgewendet und Trends aufgedeckt werden. Das Verfahren dient auch dazu, herauszufinden, welche Präferenzen die jeweiligen Kunden im Einzelfall haben. Die Güte dieser Analysen steigt, je mehr Daten analysiert werden. Dies kommt Amazon bzw. dem jeweiligen Anbieter der Cloud-Computing-Dienste zugute und macht sie für seine Kunden zugleich immer attraktiver.

Der Begriff Data Mining sollte immer im Kontext des KDD betrachtet werden. Er bezieht sich bloß auf das automatisierte Durchsuchen der Datensätze als solches. Die anderen Arbeitsschritte, wie z. B. Auswahl und Vorsortierung bzw. Vorverarbeitung der zu durchsuchenden Daten, Interpretation der Ergebnisse, Entscheidung über das weitere Vorgehen etc., fallen nicht unter den Begriff des Data Minings. Damit wird auch deutlich, dass Data Mining nur im Zusammenwirken mit den vor- und nachgelagerten Schritten des KDD nutzbringende Erkenntnisse produzieren kann.

Beim Einsatz von Data Mining kommen verschiedene methodische Herangehensweisen zum Einsatz. Auch wenn die jeweiligen Verfahren auf unterschiedliche Art und Weise ablaufen, geht es im Kern immer darum, aus der Auswertung des Vergangenen auf unbekannte Zustände der Gegenwart oder der Zukunft zu schließen. Im Folgenden werden beispielhaft zwei Methoden des Data Minings dargestellt, die häufig eingesetzt werden, um Profiling durchzuführen.

a. Clustering

Eine im Rahmen von Data Mining geläufige Methode ist das sog. Clustering. Hierbei werden die vorhandenen (und für die weitere Verarbeitung vorbereiteten) Datensets mit statistischen Methoden daraufhin untersucht, ob sich aus ihnen abgrenzbare Gruppen bilden lassen, beispielsweise von Menschen mit jeweils gleichen bzw. ähnlichen persönlichen Eigenschaften. Notwendig hierfür sind also Datensets, in denen Profile (beispielsweise von Kunden) mit einem gewissen Grad an Komplexität enthalten sind. Ein Beispiel wäre der Kundendatenbestand eines Versicherungskonzerns, in dem neben den Namen und den Adressen der Kunden auch Informationen über bereits abgeschlossene Versicherungen, eingesetzte Zahlungsmethoden und Zahlungsverhalten gespeichert sind. Der Verwender kann im Vorfeld dieser Gruppenbildung gewisse Vorgaben hinsichtlich des statistischen Vorgehens machen. Er bestimmt z. B., welche Variablen bei der Gruppenbildung herangezogen werden und wie viele Gruppen gebildet werden sollen – durch Letzteres wird also festgelegt, wie feingliedrig die Untergliederung des Datensets ist. Die Software schlägt nach dem Durchsuchen der Datensets vor, welche Gruppen gebildet werden können, wie hoch die jeweilige statistische Affinität der angewandten Variablen ist und wie groß etwaige Überschneidungen zwischen den Gruppen sind. Die Vorgaben im Vorfeld des Durchsuchens der Daten und die eigentliche Entscheidung darüber, auf was für Gruppen die Daten aufgeteilt werden sollen, trifft also grundsätzlich ein menschlicher Entscheider. Die Umsetzung dieser Vorgaben erfolgt automatisiert. Clustering dient also dazu, Daten in bis dahin unbekannte, neu gebildete Gruppen einzusortieren. Es unterscheidet sich damit von der sog. Classification, welche dazu dient, gegebene Daten automatisiert in bereits vom Anwender vorgegebene Gruppen einzusortieren. Clustering ist eine Methode, die zunächst rein beschreibende Erkenntnisse produziert: Es werden Gruppen gebildet, welche „zusammengehörige“ Daten enthalten. Dies spricht dafür, dass es – wenn es im Rahmen des Profilings zur Anwendung kommt – für die „Analyse persönlicher Aspekte“ i. S. d. Art. 4 Nr. 4 DSGVO eingesetzt werden kann, so z. B. die Unterscheidung verschiedener „Käufertypen“.

Die im Rahmen des Clusterings gebildeten Gruppen werden allerdings regelmäßig auch dazu herangezogen, um neben diesen beschreibenden auch vorhersagende Erkenntnisse zu generieren. Einen besonderen Reiz für die Unternehmen, die Profiling einsetzen, stellt in diesem Rahmen die Möglichkeit dar, Vorhersagen über die (ihnen eigentlich unbekannten) persönlichen Aspekte von Menschen zu treffen und diese Erkenntnisse zu kommerziellen Zwecken zu nutzen. Descriptive und Predictive Data Mining werden so kombiniert. Die Methoden des Clusterings erlauben es schließlich, Gruppen zu definieren, deren „typische Gruppenmitglieder“ bestimmte Interessen, Bedürfnisse und Vorlieben teilen. Sobald den Unternehmen genügend Informationen in Form von Daten über eine Einzelperson vorliegen, kann diese automatisiert derjenigen Gruppe zugewiesen werden, in die sie mit Blick auf ihre persönlichen Eigenschaften am besten hineinpasst. Dies lässt (mit einer je nach Einzelfall unterschiedlichen hohen Genauigkeit) wertvolle Rückschlüsse auf diejenigen persönlichen Aspekte zu, die dem Unternehmen noch nicht bekannt sind. Es wird davon ausgegangen, dass die Person sich so oder zumindest ähnlich wie die anderen Gruppenmitglieder verhalten wird bzw. vergleichbare Eigenschaften aufweist. Mit Blick auf das oben skizzierte Beispiel eines Versicherungskonzerns ist es diesem beispielsweise möglich, Informationen, die ihm über eine potenzielle Kundin vorliegen, heranzuziehen, um sie automatisiert einer der im Rahmen von Clustering gebildeten Gruppen zuzuordnen. Ausgehend von der festgestellten Gruppenzugehörigkeit wird im nächsten Schritt bestimmt, welche Art von Versicherung die Betroffene am ehesten abzuschließen geneigt ist, indem die diesbezüglichen Präferenzen der Gruppenmitglieder herangezogen werden. Die auf diese Weise generierte Vorhersage, dass ein potenzielles Interesse der Betroffenen an einem bestimmten Produkt besteht, kann genutzt werden, um ihr Werbung zukommen zu lassen, die möglichst genau auf ihre Interessen abgestimmt ist. Auf diese Weise lassen sich die Effektivität der Werbung und der Nutzen der dafür eingesetzten Ressourcen signifikant steigern. Diese Facette des Clusterings als Methode des Predictive Data Minings kommt häufig und mit großem Erfolg im Bereich der Online-Werbung vor.

Clustering kann also auch dazu genutzt werden, um „persönliche Aspekte“ i. S. d. Art. 4 Nr. 4 DSGVO vorherzusagen. Mit Blick auf das hier beschriebene Verfahren zeigt sich, dass häufig nicht trennscharf zwischen der Analyse und der Vorhersage i. S. d. Art 4 Nr. 4 DSGVO unterschieden werden kann und dass diesen beiden in der Legaldefinition genannten Varianten des Profilings gewisse Überschneidungen innewohnen.

In praktischer Hinsicht äußerst bedeutsam ist Clustering auch, wenn es um die automatisierte Erstellung von Bonitätsauskünften im Rahmen des Kredit-Scorings geht. Dabei werden statistisch-mathematische Analyseverfahren eingesetzt, um anhand des früheren Verhaltens Dritter auf bestimmte Bonitätsmerkmale des Betroffenen zu schließen. Dies kann z. B. dergestalt ausgestaltet sein, dass einzelne Bonitätsmerkmale festgelegt und bewertet werden und die gefundenen Einzelbewertungen in ihrer Summe den Score-Wert (und damit die jeweilige Risikoklasse) der jeweils in Frage stehenden Person ergeben. Es wird also davon ausgegangen, dass sich das frühere Verhalten sowie die persönlichen Eigenschaften der Mitglieder der Vergleichsgruppen auf den Betroffenen übertragen lassen und so Aussagen über seine Bonität ermöglichen.

b. Association Rules

Profiling wird zudem häufig mit Mitteln der Association Discovery ausgeführt (sog. Association Rule Mining). Diese Methode untersucht Datenbestände dahingehend, ob bzw. welche Ereignisse zur selben Zeit auftreten, so z. B. ob bestimmte Produkte typischerweise zusammen gekauft werden. Die eingesetzte Software kann dem Verwender darstellen, mit welcher Häufigkeit die gefundenen Regeln auftreten und mit welcher Wahrscheinlichkeit sie im Einzelfall zutreffende Auskunft geben. Es obliegt dem Verwender der Software, welches Maß an Fehlertoleranz er akzeptiert und wie zuverlässig eine gefundene Regel sein muss, damit an sie praktische Folgen geknüpft werden: Werden hier zu hohe Anforderungen an die Zuverlässigkeit der Regeln gesetzt, führt dies dazu, dass bloß solche Regeln gefunden werden, die ohnehin offensichtlich sind. Wird die Hemmschwelle, ab der von einer Regel ausgegangen wird, hingegen zu niedrig angesetzt, kann dies dazu führen, dass zahlreiche abwegige „Regeln“ aufgrund bloßer Zufallsergebnisse und aussageloser Korrelationen aufgestellt werden.

Findet ein Einzelhändler beispielsweise heraus, dass Produkt A und Produkt B unerwarteterweise besonders häufig gemeinsam gekauft werden, kann er die Verkäufe beider Produkte dadurch steigern, dass er sie in seinem Ladengeschäft nebeneinander platziert. Das Wissen um derartige Zusammenhänge kann also durchaus einen Wettbewerbsvorteil darstellen. Association Discovery kommt sehr häufig im Bereich des E-Commerce zur Anwendung und ermöglicht es z. B., Kunden noch während des Kaufvorgangs oder direkt nach seinem Abschluss weitere Produkte anzubieten, welche sie – ausgehend von früheren Käufen anderer Kunden – vermutlich auch interessieren werden.

Eine damit verwandte, technisch aufwändigere Methode des Data Minings ist die sog. Sequential Pattern Discovery. Hier geht es nicht um die Untersuchung und Beschreibung einzelner, zeitlich abgeschlossener Vorgänge (wie z. B. eines Kaufvorgangs), sondern darum, das Verhalten von Personen über einen längeren Zeitraum auszuwerten und zu verstehen. Dies ermöglicht es zum einen, Unregelmäßigkeiten im Verhalten einer bestimmten Person zu erkennen. Beispielsweise können so Anzeichen von Kreditkartenbetrug frühzeitig erkannt werden: Wenn z. B. bei der Nutzung einer Kreditkarte bestimmte Unregelmäßigkeiten in Abweichung vom früheren Verhalten des Kreditkarteninhabers erkannt werden, kann dies darauf hinweisen, dass die Karte von einem Unbefugten verwendet wird. Sequential Pattern Discovery wird aber auch dazu eingesetzt, um von den längerfristigen Verhaltensmustern vieler Menschen auf das zu erwartende Verhalten Einzelner rückzuschließen. Zarsky zitiert das Beispiel einer Bank, die mit den Methoden des Data Minings erkannt hatte, dass Kunden in der Vergangenheit vor der Kündigung ihrer Konten typischerweise gewisse Verhaltensmuster an den Tag gelegt hatten, ohne die Kündigung als solche anzukündigen oder anderweitig ihre Unzufriedenheit mit der Bank explizit zu kommunizieren. Ein erstes Anzeichen einer drohenden Kündigung liegt demnach z. B. dann vor, wenn ein Kunde einige Monate lang keine Einzahlungen mehr leistet. Sobald diese Anzeichen und typischen Verhaltensmuster im Einzelfall vermehrt auftreten, kann die Bank z. B. dergestalt intervenieren, dass sie auf den Kunden zugeht und versucht, ihn mit besonders attraktiven Angeboten von einer Kündigung abzuhalten.

Wie schon beim Clustering zeigt sich auch bei den Association Rules, dass eine strikte Unterscheidung zwischen Analyse bekannter und Vorhersage unbekannter persönlicher Aspekte i. S. d. Art 4 Nr. 4 DSGVO wenig zielführend ist. Association Rules sind zunächst rein beschreibend: Sie decken Regeln bzw. Wahrscheinlichkeiten auf und erlauben es so, Datensets zu beschreiben und dem Menschen verständlich zu machen. An den gefundenen Erkenntnissen kann der Mensch sein Handeln ausrichten. Wie das oben aufgeführte Beispiel des Versicherungsunternehmens gezeigt hat, lassen sich die auf solche Weise gefundenen Erkenntnisse teilweise aber ohne Weiteres auch nutzbar machen, um potenziell nützliche Vorhersagen über Einzelpersonen für die Zukunft zu treffen. Die Ergebnisse des Descriptive Data Minings werden in diesen Fällen also für Zwecke des Predictive Data Minings herangezogen.

3. Anwendung auf konkrete Personen

Um Profiling bezogen auf eine konkrete Person durchführen zu können, ist es notwendig, dass über diese eine Mindestzahl an persönlichen Informationen in Form von Daten vorliegt. Nur dann ist die Erstellung einer Bewertung mittels Analyse bekannter bzw. Vorhersage unbekannter persönlicher Aspekte i. S. d. Art. 4 Nr. 4 DSGVO möglich. Bereits an dieser Stelle wird deutlich, dass bei den im Rahmen von Profiling zum Einsatz kommenden Daten ganz grob zwischen zwei Kategorien unterschieden werden muss.

Zum einen ist es für Profiling-Verfahren in aller Regel notwendig, Zugriff auf einen großen Bestand an abstrakten Erfahrungssätzen in Form von Daten zu haben. Dieser besteht häufig aus (anonymisierten) Profilen, Mustern und Zusammenhängen aus der Vergangenheit und erlaubt es, mit den Methoden des Knowledge Discovery in Databases (abstrakte) Erkenntnisse zu gewinnen, welche vor allem in Form von Mustern und Korrelationen dargestellt werden. Zudem muss aber auch zumindest ein Mindestmaß an Daten über die konkrete Person vorliegen, welche dem Profiling-Verfahren unterworfen werden soll: Erst wenn genügend Daten, wie z. B. demografische Informationen oder persönliche Eigenschaften, vorliegen, sodass es möglich ist, die Person sinnvoll derjenigen Gruppe zuzuordnen, der sie von ihren persönlichen Aspekten her am ehesten entspricht, ist es möglich, die bereits bekannten abstrakten Erfahrungssätze fruchtbar zu machen und Bewertungen über persönliche Aspekte der Person zu erstellen.

4. Einfluss der Verwender und Entwickler

Profiling basiert also häufig auf der Auswertung von Erfahrungssätzen und der Übertragung der dort gefundenen Erkenntnisse auf konkrete Einzelpersonen. Die konkrete Ausgestaltung der eingesetzten Verfahren bzw. Software spielt demnach eine ganz maßgebliche Rolle. Sie stellt ein Einfallstor für Wertungen und Ermessen der Softwareentwickler bzw. der Verwender der Profiling-Verfahren dar. Beispielsweise spielt es eine Rolle, welche Quellen für die verwendeten Daten gewählt werden und nach welchen Kriterien bzw. Suchbegriffen sie durchsucht werden. Die Frage, ob und ggf. wie Korrelationen, die in Datenbeständen gefunden wurden, interpretiert werden, und die Gewichtung einzelner Faktoren im Rahmen der Erstellung der Bewertungen spielt bei den durch Profiling generierten Ergebnissen eine Schlüsselrolle. Datengetriebene Analysen sind also Verfahren, denen trotz des großen Ausmaßes an Automatisierung auch ein Element der Interpretation innewohnt und die dementsprechend ungenau, fehleranfällig und vorurteilsbehaftet sein können.

Unabhängig von diesen subjektiv-wertenden Elementen gilt es auch zu bedenken, dass die Effizienz der zum Einsatz kommenden technischen Verfahren zu einem maßgeblichen Teil davon abhängt, ob der Verwender die ihm an die Hand gegebenen Möglichkeiten sinnvoll nutzt. Beim Einsatz von Data Mining in Form des Clusterings kommt es beispielsweise maßgeblich darauf an, dass die vom Computer gefundenen und dem Verwender kommunizierten Gruppen von diesem richtig interpretiert werden. Wenn dieser beispielsweise nicht erkennt, dass eine Gruppe einem bestimmten Käufertyp entspricht, können daran keine weitergehenden Entscheidungen geknüpft werden und das mit den Methoden des Clusterings „aufgedeckte“ Wissen liegt brach. Die menschliche Interpretation stellt also eine besondere Herausforderung dar und birgt die potenziell durchaus große Gefahr, dass bestehende Möglichkeiten aufgrund von Unkenntnis nicht genutzt werden.

Ein menschlicher Einfluss besteht also – trotz des hohen Ausmaßes an Automatisierung – vom Beginn bis zum Ende des Profilings. Dies gilt nicht zuletzt, da die Software und die jeweils konkrete Ausgestaltung des Profiling-Verfahrens im Einzelfall zumindest ursprünglich auf menschliche Entscheidungen zurückgehen. Der menschliche Einfluss kann allerdings dadurch verringert werden, dass selbstlernende Algorithmen zum Einsatz kommen.

III. Berechnung und Zuweisung von Wahrscheinlichkeitswerten

1. Berechnung von Informationen und Zuweisung an den Einzelnen

Den Menschen, die zum Objekt von Profiling werden, wird also häufig das Verhalten anderer Menschen zugerechnet. Profiling bedeutet demnach im Kern nichts anderes als die Erstellung von Wahrscheinlichkeitswerten durch Extrapolation: Abstrakte Erfahrungssätze werden herangezogen, um im konkreten Einzelfall mit mathematisch-statistischen Methoden zu berechnen, was für eine Eigenschaft eine Person vermutlich aufweist bzw. welches Verhalten sie vermutlich an den Tag legen wird. Es handelt sich also um qualifizierte Vermutungen, welche inhaltlich nicht unbedingt zutreffend sein müssen.

Es liegt folglich kein Profiling vor, wenn Datenbanken bloß mit Blick auf bestimmte Parameter durchsucht und die so gefundenen Ergebnisse (zusammenfassend) dargestellt werden (z. B. im Rahmen des sog. Online Analytical Processing). Die auf diese Weise abgerufenen, zusammenfassenden Ergebnisse stellen keine Wahrscheinlichkeitswerte dar, sondern bloß – die Richtigkeit der in den Datenbanken enthaltenen Informationen unterstellt – ein ordnendes Abbild der Wirklichkeit. Sie sind damit keine Bewertung und vor allem keine Analyse oder Vorhersage i. S. d. Art. 4 Nr. 4 DSGVO. Denkbar wäre beispielsweise, dass eine Bank ihre Kunden für interne Zwecke in verschiedene Kategorien bzw. Profile in Abhängigkeit davon einordnet, was der jeweilige Kunde monatlich verdient und welches Vermögen er hat. Dieser internen Kategorisierung mag zwar aus Sicht der Bank durchaus ein wertendes Element innewohnen, zumal an die jeweilige Einstufung der Kunden Konsequenzen geknüpft werden. Dennoch stellt die Sortierung als solche kein Profiling dar, da die Kategorisierung der Kunden keine Wahrscheinlichkeitsberechnung beinhaltet und keinerlei Interpretation des Gegebenen voraussetzt. Vor allem werden durch die Bildung von Kundengruppen keine qualitativ-inhaltlich neuen Daten geschaffen. Die Kunden werden zwar jeweils bestimmten Gruppen zugeordnet. Dies hat aber bloß eine ordnende Funktion ohne einen darüber hinausgehenden Aussagegehalt. Eine Bewertung i. S. d. Art. 4 Nr. 4 DSGVO liegt nicht vor.

Kommen hingegen Profiling-Maßnahmen zum Einsatz, werden als Ergebnis einer Wahrscheinlichkeitsberechnung neue, dem Verwender zuvor nicht verfügbare Daten geschaffen und dem jeweils betroffenen Menschen konkret zugeordnet. Der Verwender erlangt auf diese Weise künstlich generierte Informationen über eine Person, die in dieser Form zuvor nicht explizit in den ausgewerteten Daten enthalten und dem Verwender dementsprechend nicht bekannt waren. Diese neuen Daten sind personenbezogen i. S. d. Art. 4 Nr. 1 DSGVO. Sie wurden aber nicht von den Betroffenen mitgeteilt oder anderweitig erhoben, sondern neu geschaffen. Von bekannten Eigenschaften einer Person wird also auf unbekannte geschlossen. Diese Zurechnung des Verhaltens einer Gruppe an eine Einzelperson mittels mathematisch-statistischer Verfahren ist ein für Profiling spezifisches, in diesem Ausmaß neues Phänomen, auch wenn die dem Profiling zugrunde liegenden Verfahren als solche schon vor Jahrzenten beschrieben wurden.

Diejenigen, die Profiling einsetzen, machen ihre darauf folgende Interaktion mit dem Betroffenen (bzw. das Unterlassen eines Handelns) zumindest teilweise von den gefundenen Erkenntnissen abhängig. Diese spielen im privatwirtschaftlichen Bereich eine je nach Fall unterschiedlich bedeutsame Rolle bei der Interaktion zwischen Verwender und Betroffenen.

2. Strukturell bedingte Fehlerquote

Den durch Profiling gefundenen Ergebnissen wohnt also strukturell eine gewisse Fehlerquote inne. Daraus folgt, dass Profiling konzeptionell dazu führt, dass im Einzelfall getroffene Bewertungen in Form von Analysen bzw. Vorhersagen persönlicher Aspekte i. S. v. Art. 4 Nr. 4 DSGVO nicht zutreffen und damit inhaltlich dem Betroffenen nicht gerecht werden. Dies ist dem Konzept Profiling immanent, was bedeutet, dass falsche Ergebnisse im Einzelfall nicht per se auf einen Makel des eingesetzten Verfahrens schließen lassen. Im Fall von Kredit-Scoring bedeutet dies beispielsweise, dass einer vielleicht sehr kleinen, aber gewissen Zahl von Kreditantragstellern ein Kredit gewährt wird, obwohl die über sie getroffene Vorhersage falsch war und sie ihn tatsächlich nicht vertragsgemäß bedienen werden (sog. false positive). Zugleich wird anderen Antragstellern ein Kredit verweigert, obwohl sie eigentlich eine ausreichende Bonität aufweisen (sog. false negative). Die Entscheidung darüber, welche Fehlerquote akzeptiert wird, liegt bei den Entwicklern bzw. Verwendern des jeweiligen Profiling-Verfahrens. Diese haben grundsätzlich ein Interesse daran, dass die generierten Ergebnisse möglichst zutreffend sind, da der Zweck von Profiling (vor allem das Fällen und Ausführen von Entscheidungen und Risikominimierung) nur dann sinnvoll erreicht werden kann: Je besser die generierten Ergebnisse sind, desto nutzbringender können sie in der Interaktion mit Verbrauchern eingesetzt werden.

Bei rein wirtschaftlicher Betrachtungsweise stellt sich für den Verwender somit ggf. die Frage, bis zu welcher Fehlerquote (und der damit einhergehenden Anzahl an falschen Beurteilungen) es sich in der Summe noch lohnt, Profiling einzusetzen. Finanziellen Gewinnen auf der einen Seite stehen beispielsweise unzufriedene Kunden im Einzelfall gegenüber, welche sich durch getroffene Bewertungen ungerecht behandelt fühlen bzw. einzelne darauf basierende Handlungen nicht nachvollziehen können. Hurley und Adebayo berichten beispielsweise von einem US-amerikanischen Fall aus dem Jahr 2008, in dem einem Kunden des Kreditkartenanbieters American Express der Kreditrahmen ohne ersichtlichen Grund von 10800 $ auf 3800 $ gekürzt wurde. Begründet wurde dies ihm gegenüber bloß damit, dass er kürzlich seine Kreditkarte bei den gleichen (auch auf Nachfrage nicht näher spezifizierten) Unternehmen eingesetzt habe wie andere Kunden, welche durch eine schlechte Zahlungsmoral aufgefallen seien.

3. Kritische Bewertung

Der Umstand, dass Profiling-Verfahren in bloßen Wahrscheinlichkeitsberechnungen bestehen, ist durchaus problematisch. Dies bedeutet nämlich, dass auch dann, wenn ein bestimmtes Verfahren in nahezu allen Fällen zutreffende Bewertungen erzeugt, immer Bewertungen im Einzelfall unzutreffend sind – selbst wenn das herangezogene Datenmaterial in qualitativer und quantitativer Hinsicht nicht zu beanstanden war. Derartige, zumindest ab und an auftretende falsche Ergebnisse sind systemimmanent und dem Wesen des Profilings als Verfahren, welches Bewertungen produziert, geschuldet. Über diese konzeptionell bedingte Fehlerhaftigkeit, die Profiling per se innewohnt, hinaus können fehlerhafte Ergebnisse auch dadurch herbeigeführt werden, dass das verwendete Datenmaterial fehlerhaft oder unvollständig ist. Auch einwandfrei programmierte Algorithmen produzieren fehlerhafte Ergebnisse, wenn das herangezogene Datenmaterial fehlerhaft ist.

Je nach Kontext kann dies unterschiedlich weitreichende Folgen für den Betroffenen zeitigen. Wird Profiling eingesetzt, um im Rahmen eines Streamingdienstes für Filme kundenspezifische Empfehlungen einzublenden, besteht der denkbar größte Schaden darin, dass der Kunde aufgrund unzutreffender Empfehlungen unzufrieden mit der erworbenen Dienstleistung ist. Im Falle des Kredit-Scorings hingegen führt eine unzutreffende Bonitätsbewertung im Einzelfall z. B. dazu, dass Grundlagengeschäfte, wie die Gründung eines Unternehmens oder der Kauf einer Immobilie, unnötigerweise scheitern. Kritisch zu bewerten ist zudem, dass Profiling konzeptionell regelmäßig auf der Idee aufbaut, dass das Verhalten Dritter dem Einzelnen zugerechnet werden kann, sobald nur genügend Übereinstimmungen gefunden wurden. Dies bedeutet nämlich, dass der Betroffene – überspitzt formuliert – nicht mehr unmittelbar anhand seiner eigenen Handlungen beurteilt wird, sondern zumindest auch anhand der Handlungen Dritter. Dies steht im Widerspruch zu grundlegenden Rechtsprinzipien und moralischen Wertungen, wonach Verantwortung (und Haftung) grundsätzlich nur aufgrund eigenen Verhaltens begründet werden.

Kerr und Earle sehen angesichts der bestehenden Möglichkeiten, Menschen automatisierten Bewertungen und schließlich Entscheidungen zu unterwerfen, Gefahren für grundlegende und zumeist allgemein anerkannte Rechtsprinzipien. Sie beginnen ihre Überlegungen mit Analogien zur Unschuldsvermutung und zu weiteren, grundsätzlich rechtsgebietsübergreifend gültigen Verfahrensgrundsätzen, wie z. B. dem Recht, gehört zu werden, der Pflicht zur Begründung von Entscheidungen und dem Recht auf effektiven Rechtsschutz. Sie führen zutreffend aus, dass diese Grundsätze auch im privat(rechtlich)en Bereich zumindest teilweise anerkannt sind, z. B. im Verhältnis zwischen Unternehmen und ihren Kunden sowie Arbeitnehmern. Ausgehend davon argumentieren sie, dass moralische Gründe und solche der Fairness Wertungen vorgeben, die Grenzen ziehen, wenn es darum geht, Vermutungen über Einzelne anzustellen und auf Basis dieser Vermutungen zu handeln.

Diese Überlegungen lassen sich teilweise auf Profiling nach der Definition der Datenschutz-Grundverordnung übertragen: Die automatisierte Erstellung einer Bewertung persönlicher Aspekte i. S. v. Art. 4 Nr. 4 DSGVO stellt eine Handlung Dritter dar, die der davon Betroffene in der Praxis häufig nur eingeschränkt oder gar nicht inhaltlich überprüfen kann. Die Dritten, anhand deren Eigenschaften und Verhalten er bewertet wird, kennt er nicht (dies wäre angesichts des Umfangs der typischerweise ausgewerteten Datenmassen auch nicht möglich). Dementsprechend kann er auch auf ihr Verhalten selber keinen Einfluss nehmen. Sowohl die konkret eingesetzte Methode (also die Frage, nach welchen Kriterien die Bewertung im Einzelfall erstellt wird) als auch die Auswahl des herangezogenen Datenmaterials entziehen sich seinem Einflussbereich. Vielmehr ist er darauf angewiesen, dass die im Einzelfall getroffene Analyse bzw. Vorhersage im Ergebnis zutrifft.

Im Fall einer im Einzelfall unzutreffenden „Bewertung persönlicher Aspekte“ steht zu befürchten, dass diese sich negativ für ihn auswirkt, indem sie beispielsweise kausal für eine später ihm gegenüber getroffene Entscheidung wird. Dies ist gerade vor dem Hintergrund der tendenziell zunehmenden Automatisierung bedenklich, denn es nimmt dem von Profiling Betroffenen unter Umständen ein Stück Autonomie und Handlungsfähigkeit: Je nachdem, in welchem Kontext, mit welchen Verfahren und mit welcher tolerierten Fehlerquote Profiling zum Einsatz kommt, droht eine zunehmend generalisierte Betrachtungsweise durch Algorithmen, indem diese Durchschnittsverhalten zur Norm erklären, sodass (zu starke) Abweichungen davon negative Folgen zeitigen.

Wiedemann, K. (2023). Kapitel 2: Profiling. In: Rechtliche Implikationen Profiling-basierter Preispersonalisierung. Munich Studies on Innovation and Competition, vol 20.

Springer, Berlin, Heidelberg

https://doi.org/10.1007/978-3-662-67452-9_2

http://creativecommons.org/licenses/by/4.0/deed.de

Zur einfacheren Lesbarkeit wurden die Quell- und Literaturverweise entfernt.


© Swiss Infosec AG 2024