10/2022
1 Einführung und Hintergrund
Die Anonymisierung von personenbezogenen Daten führt, abgesehen von den technischen Herausforderungen, auch zu einer Reihe von komplexen rechtlichen Fragen im Rahmen des Datenschutzes. Dazu gehören u. a. die im Rahmen eines Konsultationsverfahrens des Bundesbeauftragten für den Datenschutz und die Informationsfreiheit (BfDI) betrachteten Fragen nach der Notwendigkeit einer Rechtsgrundlage sowie ggf. nach einer angemessenen solchen Rechtsgrundlage.
In diesem Beitrag soll dagegen die Frage betrachtet werden, inwiefern Datenschutz noch eine Rolle spielen sollte, nachdem Daten anonymisiert wurden. Die Betrachtung orientiert sich dabei an der DSGVO, aber die wesentlichen Aussagen lassen sich problemlos auch auf andere Regelwerke zum Datenschutz übertragen. Gemäß EG 26 DSGVO verstehen wir dabei unter anonymen Daten solche Daten, die nicht personenbezogen sind, sich also nicht auf eine identifizierte oder identifizierbare Person beziehen. Anonymisierte Daten sind Daten, die personenbezogen waren, bei denen dieser Personenbezug aber entfernt wurde, d. h. es handelt sich um einen speziellen Fall anonymer Daten.
Im Datenschutzrecht, insbesondere auch in der DSGVO, gibt es eine Reihe von Aussagen zum Umgang mit derartigen anonymisierten Daten, die jede für sich schlüssig sind, die in der Kombination aber Probleme verursachen. Einerseits wird bei der Beurteilung, ob bestimmte Daten anonym sind, keine absolute Anonymität gefordert, die also unter allen Umständen und Rahmenbedingungen gegeben wäre, sondern eine relative Anonymität, ausgehend von einer Bewertung der Wahrscheinlichkeit einer Re-Identifizierung auf Basis von Kosten, Zeitaufwand und verfügbarer Technologie (EG 26 Sätze 3, 4 DSGVO). Andererseits handelt es sich bei Daten, die als (relativ) anonym bewertet wurden, definitionsgemäß nicht mehr um personenbezogene Daten, und sie unterliegen damit auch nicht mehr den Vorgaben des Datenschutzes (EG 26 Satz 5 DSGVO).
In der Praxis hängt die Wahrscheinlichkeit einer Re-Identifikation aber stark davon ab, wer Zugang zu den Daten hat und welche Methoden und Hilfsmittel hierfür eingesetzt werden, und die anzuwendenden Kriterien Kosten, Zeitaufwand und Technologie ändern sich mit der Zeit. Es gibt viele Beispiele, dass anonymisierte Daten wieder re-identifiziert werden konnten; bekannte Beispiele sind der beschriebene Fall einer Krankenversicherung in Massachusetts, sowie der beschriebene Fall von Netflix-Daten. Mit den wachsenden Möglichkeiten von Disziplinen wie Data Science, Big Data und künstlicher Intelligenz wächst auch die Wahrscheinlichkeit, dass eine solche Re-Identifizierung möglich wird.
Das führt zur folgenden Hypothese:
Hypothese 1
Anonymität ist eine Eigenschaft nicht alleine der Daten, sondern der Kombination von Daten und Datenbesitzer.
Die gleichen Daten, die bei einem Besitzer anonym sind, sind bei einem anderen Besitzer möglicherweise personenbezogen. Wenn man keine Einschränkungen in Bezug auf den Besitzer der Daten macht, ist sogar zweifelhaft, inwieweit es anonymisierte Daten überhaupt geben kann.
Angedeutet ist diese Hypothese bereits in EG 26 Satz 3 DSGVO („Um festzustellen, ob eine natürliche Person identifizierbar ist, sollten alle Mittel berücksichtigt werden, die von dem Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden, …“), aber danach wird die Abhängigkeit der Anonymität vom Datenbesitzer nicht weiter berücksichtigt.
Da anonymisierte Daten aber nicht dem Datenschutz unterliegen, gibt es nach einer Bewertung der Daten als anonym auch keine rechtlichen Einschränkungen mehr, die verhindern könnten, dass die Daten einem anderen Besitzer übermittelt werden, bei dem sie nicht anonym sind. Voraussetzung für diese Bewertung ist eine angemessene Risikoanalyse auf Basis von EG 26, die die Anonymität der Daten bestätigt, aber auch bei gründlicher Durchführung kann sich eine solche Analyse im Nachhinein als falsch erweisen.
Damit können anonymisierte Daten auch veröffentlicht werden und dadurch bei einem Unternehmen landen, das sie mit anderen Daten verketten kann und dadurch eine Re-Identifikation ermöglicht. Eventuell gilt das auch erst zu einem späteren Zeitpunkt mit den dann neuesten Methoden der Datenanalyse. Man kann daher davon ausgehen, dass eine Re-Identifizierung in vielen Fällen möglich sein wird, selbst wenn die ursprüngliche Bewertung der Daten als anonym unter den damaligen Rahmenbedingungen angemessen und damit rechtskonform war. Naturgemäß ist diese Wahrscheinlichkeit gerade bei den großen Datensammlern besonders hoch, bei denen sowieso schon sehr viele personenbezogene Daten vorliegen und bei denen der potentielle Schaden für die Betroffenen dadurch relativ hoch ist.
Gleichzeitig ist es aber für viele Zwecke wichtig, dass geeignete Daten für Auswertungen zur Verfügung stehen, wobei diese Daten häufig ursprünglich personenbezogen sind und teilweise sehr hohen Schutzbedarf haben, beispielsweise in der medizinischen Forschung. Eine wesentliche Beschränkung dieser Auswertungen würde die Forschung wie auch viele auf Open Data basierende Anwendungen unangemessen einschränken. Um aber die betroffenen Personen zu schützen, ist es wünschenswert und aus Sicht des Datenschutzrechtes auch gefordert, dass diese Daten vor der Nutzung anonymisiert werden, wann immer in der Auswertung auf den Personenbezug verzichtet werden kann.
Die beschriebenen Herausforderungen wurden bereits von Ohm 2010 diskutiert, sind aber auch heute in Regelwerken wie der DSGVO nicht berücksichtigt. Ziel dieses Beitrags ist es daher, den aktuellen Stand dieser Herausforderungen und möglicher Lösungsansätze zusammenzutragen, um eine neue Diskussion zum angemessenen Umgang mit anonymisierten Daten unterstützen.
Zum Aufbau dieses Beitrags: Abschn. 2 analysiert die genannten Herausforderungen ausführlicher. Die Konsequenzen und offenen Fragen, die sich daraus ergeben, werden in Abschn. 3 betrachtet. Mögliche Ansätze zur Lösung dieser Herausforderungen werden in Abschn. 4 vorgestellt, Abschn. 5 stellt die Definition von im erweiterten Sinn personenbezogenen Daten vor, und Abschn. 6 fasst schließlich die Ergebnisse zusammen.
2 Anonymisierung als Maßnahme zum Datenschutz
2.1 Gefahr der Re-Identifizierung
Aus den genannten Argumenten ergibt sich, dass ein vollständiger Verzicht auf Datenschutzanforderungen bei anonymisierten Daten zu kurz greift, da in diesem Fall kein Schutz gegen die Folgen einer Re-Identifizierung gegeben ist. Deutlich abweichend von der heute üblichen rechtlichen Bewertung folgt stattdessen:
Hypothese 2
Auch für anonymisierte Daten kann aus Datenschutzsicht ein Schutz erforderlich sein.
Auch wenn das selten so explizit formuliert wird, ist ein restriktiver Umgang mit anonymisierten Daten auch heute schon (gelegentlich) gelebte Praxis. So werden beispielsweise anonymisierte Gesundheitsdaten nur für Forschungsorganisationen unter Einschränkungen (über die evtl. vorhandenen kommerziellen Einschränkungen hinaus) zur Verfügung gestellt, aber nicht veröffentlicht, obwohl das für garantiert anonyme Daten unproblematisch wäre. Ähnliches ist beispielsweise für Daten zur Bildungsforschung zumindest als Empfehlung formuliert.
Um diese Forderung nach Schutz auch für anonymisierte Daten umzusetzen, sollte Anonymisierung als eine Maßnahme (von mehreren möglichen) zum Datenschutz verstanden werden. Diese Maßnahme trägt in vielen Fällen wesentlich zum Schutz der Daten und damit der Betroffenen bei, gewährleistet aber keinen vollständigen Schutz der Betroffenen. Allgemein hat Anonymisierung aus Datenschutzsicht zwei verschiedene Rollen, die beide parallel berücksichtigt werden müssen: Einerseits handelt es sich um eine Form der Verarbeitung personenbezogener Daten und muss entsprechende Anforderungen gemäß DSGVO berücksichtigen. Andererseits handelt es sich um eine Maßnahme zum Datenschutz, die gerade selbst dazu beitragen kann, Anforderungen der DSGVO zu erfüllen.
Eine andere Sichtweise auf die Notwendigkeit eines Schutzes anonymisierter Daten ist, dass die im Datenschutzrecht verankerte binäre Unterteilung in anonyme bzw. anonymisierte Daten einerseits und personenbezogene Daten andererseits zu einfach ist oder, wie beispielsweise schon 2012 von der FTC formuliert: „Overall, the comments reflect a general acknowledgment that the traditional distinction between PII and non-PII has blurred …“. Daten sind in vielen praktischen Fällen eben weder eindeutig personenbezogen noch eindeutig anonym, sondern liegen in einem Graubereich dazwischen, denn sie können mit einem mehr oder weniger großen Aufwand auf eine bestimmte Person bezogen werden. Die oben beschriebenen Aussagen aus EG 26 DSGVO zur relativen Anonymität zeigen, dass der Gesetzgeber sich dessen in gewissem Rahmen bewusst ist, eine strenge Trennung zwischen personenbezogenen und anonymen Daten im Gesetz aber trotzdem als in jedem Einzelfall gegeben postuliert.
Beim Risiko der Re-Identifizierung ist auch zu berücksichtigen, dass selbst eine fehlerhafte Re-Identifikation zu Schaden für die (tatsächlich oder scheinbar) Betroffenen führen kann, solange sie glaubwürdig erscheint.
2.2 Weitere Gefährdungen der Anonymität
Neben der angesprochenen Hauptgefährdung der Anonymität, der Re-Identifizierung, gibt es noch weitere Gefährdungen, insbesondere die Aufdeckung einer Gruppenzugehörigkeit sowie die Aufdeckung eines Attributs. Dabei werden die Daten nicht explizit einer Person zugeordnet und sind somit weiterhin im Sinne der DSGVO anonym. Dennoch können sich daraus erhebliche Gefährdungen für die Freiheiten und Rechte betroffener Personen ergeben. So kann schon das Wissen, dass eine bestimmte Person auf der Mitgliederliste der Anonymen Alkoholiker enthalten ist, problematisch sein, auch ohne die Person auf der Liste genau identifizieren zu können.
Eine eng verwandte Gefährdung, auch wenn sie sich genau genommen nicht direkt auf die Anonymität bezieht, wurde bereits beschrieben: Schon die Verarbeitung von gruppenbezogenen und damit anonymisierten, nicht personenbezogenen Daten kann aus Sicht des Persönlichkeitsschutzes problematisch sein. Als Beispiel hierfür kann ein Bankkunde dienen, der in einer Gegend wohnt, in der viele Bewohner ihre Kredite nicht bedienen können, und daher keinen Bankkredit bekommt, obwohl er selbst eigentlich kreditwürdig wäre.
2.3 Gefährdungen durch Anonymität
Während die Anonymisierung oft als Lösung vieler Probleme des Datenschutzes gesehen wird, gibt es andere Probleme, die durch die Anonymisierung gerade erst entstehen. Darunter fällt insbesondere die Erfüllung der Betroffenenrechte, die nach einer Anonymisierung weder rechtlich einforderbar noch technisch umsetzbar ist. Die Betroffenenrechte nach Art. 12–23 DSGVO entfallen bei einer Anonymisierung, da die Zuordnung zwischen Daten und Betroffenen nicht mehr möglich ist. Der Verantwortliche ist gemäß Art. 11 Abs. 2 DSGVO lediglich verpflichtet, die Betroffenen darüber zu informieren, dass eine Zuordnung nicht möglich ist.
3 Konsequenzen und offene Fragen
Wenn man auch anonyme Daten aus Datenschutzsicht als schutzbedürftig bewertet, ergeben sich daraus einige zu berücksichtigende Konsequenzen und offene Fragen, die im Folgenden betrachtet werden sollen.
3.1 Informationspflichten und Auskunftsrechte
Für personenbezogene Daten gelten die Informationspflichten und Auskunftsrechte nach Art. 12–15 DSGVO ebenso wie die sonstigen Rechte der Betroffenen nach Art. 16–21. Für anonymisierte Daten können diese Rechte aber nicht mehr erfüllt werden, da die Daten nicht korrekt zugeordnet werden können.
Die DSGVO berücksichtigt diesen Aspekt zwar bereits in Art. 11 mit der Festlegung, dass in diesem Fall die Identifizierungsdaten nicht alleine zur Erfüllung dieser Rechte aufbewahrt werden müssen. Dies ändert aber nichts an der grundsätzlichen Problematik, und einige Autoren, beispielsweise Zibuschka et al., sehen die resultierenden Einschränkungen der Betroffenenrechte als wesentlichen Kritikpunkt an Anonymisierung als Datenschutzmaßnahme.
3.2 Anonymisierung als Ersatz für die Löschung von personenbezogenen Daten
Es ist bereits umstritten, ob und inwieweit die Anonymisierung von Daten dem Recht auf Löschung (Art. 17 DSGVO) sowie der aus dem Grundsatz der Datenminimierung abgeleiteten Löschpflicht Genüge tut. Eine Festlegung, dass anonymisierte Daten dem Datenschutz unterliegen, würde eindeutig klären, dass das nicht der Fall ist.
3.3 Anonyme und anonymisierte Daten
Bisher betrachtete dieser Beitrag den Schutzbedarf anonymisierter Daten, also von Daten, die einen Personenbezug hatten, wobei dieser aber durch geeignete Maßnahmen entfernt wurde. Daneben gibt es aber auch Daten, die von vornherein keinen Personenbezug haben, eine Anonymisierung also nicht erforderlich war.
Hier stellt sich nun die Herausforderung zu unterscheiden, wann solche anonymen Daten einen Schutzbedarf haben und wann nicht. Einerseits gibt es Daten, bei denen Datenschutz eindeutig nicht relevant scheint, weil es nicht um Personen oder Personengruppen geht, beispielsweise „ein Pfund Butter kostet …“. Andererseits gibt es Daten, die zwar anonym und nicht anonymisiert sind, bei denen aber die gleichen potentiellen Probleme wie bei anonymisierten Daten vorliegen, beispielsweise weil sie von vornherein ohne identifizierende Attribute erfasst wurden. Natürlich wäre es unangemessen, diese Daten anders zu behandeln als Daten, bei denen die Identifizierer nachträglich entfernt wurden.
Einige Autoren, so z. B. Boehme-Neßler, gehen sogar noch einen Schritt weiter und argumentieren, das alle Daten letzten Endes einen Personenbezug haben. Am Beispiel eben: Wenn ich weiß, wie viel ein Pfund Butter kostet, kann ich ableiten, wie viel eine Person, die diese Butter gekauft hat, für derartige Produkte auszugeben bereit ist.
3.4 Auswirkung von Datenschutzverletzungen
Zusätzlich zu den bisher betrachteten Herausforderungen kann eine Datenschutzverletzung, beispielsweise eine unbeabsichtigte Veröffentlichung von Daten, dazu führen, dass andere, bereits vorhandene anonyme Daten durch Verknüpfung re-identifiziert werden können. Indirekt führt eine Veröffentlichung anonymer Daten also dazu, dass der potentiell entstehende Schaden bei einer Datenschutzverletzung deutlich größer wird.
4 Lösungsansätze
Verschiedene Autoren haben die genannten Probleme bereits diskutiert, mit unterschiedlichen Schlussfolgerungen. Die folgende Beschreibung gibt einen Überblick über einige Ansätze, um die beschriebenen Probleme zu lösen, wobei diese Ansätze sich zum Teil überschneiden, oder zumindest kombinieren lassen.
4.1 Risiko-orientierte Ansätze
Viele vorgeschlagene Lösungsansätze verzichten nicht ganz auf Anonymisierung, betrachten sie aber als nur einen Teil der Lösung und stellen daher eine Analyse der mit den Daten verbundenen Risiken für die Betroffenen in den Mittelpunkt. Anonymisierung ist in diesem Sinne eine Maßnahme, die den Schutz der Daten und damit der Betroffenen unterstützt, aber nicht den weiteren Datenschutz ersetzt oder überflüssig macht.
Im Folgenden werden einige Varianten dieser Sichtweise betrachtet.
4.1.1 Risikobetrachtung
In ihrem Bericht beschreibt die US-amerikanische Federal Trade Commission einen Ansatz zur Risikominderung bei anonymisierten Daten, der aus folgenden drei Schritten besteht:
- Der Verantwortliche (im Bericht als Unternehmen („company“) bezeichnet) unternimmt angemessene („reasonable“) Anstrengungen, um sicherzustellen, dass die Daten anonymisiert sind.
- Der Verantwortliche verpflichtet sich öffentlich, die Daten nur in anonymisierter Form zu verwenden und sie nicht zu re-identifizieren.
- Wenn der Verantwortliche die Daten anderen Verantwortlichen zur Verfügung stellt, seien es Dienstleister oder andere Drittparteien, dann muss vertraglich festgelegt werden, dass auch diese anderen Verantwortlichen nicht versuchen, die Daten zu re-identifizieren. Der ursprüngliche Verantwortliche hat die Verpflichtung, diese vertragliche Festlegung in angemessenem Umfang zu überwachen.
Implizit ergibt sich daraus, dass die anonymisierten Daten nicht breit veröffentlicht werden dürfen, sondern noch schutzbedürftig sind und daher nur kontrolliert an ausgewählte Dritte auf Basis eines Vertrags weitergegeben dürfen.
Rubinstein und Hartzog gehenvon diesem Ansatz aus, kritisieren allerdings, dass er sich nur auf das Risiko der Re-Identifizierung bezieht und nicht die anderen relevanten Gefährdungen betrachtet. Sie empfehlen eine Risikobetrachtung vergleichbar mit dem Vorgehen in der Informationssicherheit, die u. a. von den potentiellen Angreifern und deren Zielen ausgeht.
4.1.2 Forderung nach einer Datenschutz-Folgenabschätzung für Anonymisierung
Einen ähnlichen Lösungsansatz beschreiben Pohle und Hölzel in ihrer Stellungnahme zum Konsultationsverfahren des BfDI. Auch hier betonen die Autoren, dass Anonymisierung zum Verlust der Betroffenenrechte führt, und folgern daraus, dass Anonymisierung als Form der Verarbeitung betrachtet werden muss, für die eine Risikobetrachtung in Form einer Datenschutz-Folgenabschätzung (DSFA) erforderlich ist. Diese DSFA sollte die verschiedenen oben beschriebenen Gefährdungen der Anonymität und der Verarbeitung anonymer Daten adressieren und die dabei entstehenden bzw. verbleibenden Risiken analysieren und bewerten.
In deutlich geringerem Umfang gilt diese Forderung bereits heute durch die allgemeine Forderung in Art. 35 DSGVO nach Durchführung einer DSFA bei einer Verarbeitung mit hohem Risiko. Es ist aber zu bezweifeln, dass in der Praxis wirklich in relevantem Umfang DSFA für Anonymisierungen durchgeführt werden, bzw. ob die tatsächlich durchgeführten DSFA ausreichend auf die nach einer Anonymisierung bestehenden Risiken eingehen.
4.1.3 Erweiterte Rechte der Aufsichtsbehörden
In [15] wird der Umgang mit anonymen Daten aus Sicht der Datenschutz-Aufsichtsbehörden betrachtet und angeregt, die Befugnisse der Aufsichtsbehörden so zu erweitern, dass diese bei einem hohem Risiko einer Re-Identifizierung die betroffenen Datenbestände prüfen und deren weitere Verarbeitung beschränken können.
4.2 Regulierung der großen „Entropie-Reduzierer“ nach Ohm
Unter „Entropie-Reduzierern“ im Bereich von Daten versteht Ohm solche Organisationen, die sehr große Datenmengen mit vielen Verlinkungen ansammeln und durch diese Verlinkungen die Entropie der Daten reduzieren, also beispielsweise Finanzdienstleister, kommerzielle Daten-Makler (data brokers) oder Internet-Suchmaschinenbetreiber. Durch die angesammelten Datenmengen und deren Verlinkung sind solche Organisationen häufig in der Lage, auch anonymisierte Daten zu re-identifizieren, vergleiche Hypothese 1 oben.
Ohm orientiert sich an dieser Stelle an der US-amerikanischen Sichtweise, die bei der Regulierung zum Datenschutz nicht in erster Linie von den Daten selbst ausgeht, sondern sich stark an den Branchen der Verantwortlichen orientiert und daher auf branchenspezifische Regelungen fokussiert. Da in den Branchen der großen Entropie-Reduzierer das Risiko für die Betroffenen relativ groß ist, fordert Ohm für sie eine entsprechende Regulierung durch den Gesetzgeber, ausgehend von einer Bewertung der Wahrscheinlichkeit einer Re-Identifizierung. Für diese Bewertung definiert Ohm fünf Faktoren, die bei der Regulierung berücksichtigt werden sollten:
- Verwendete Anonymisierungstechniken: Hier geht es insbesondere um eine (möglichst quantitative) Bewertung der Wahrscheinlichkeit, mit der Daten re-identifiziert werden können, wie sie beispielsweise mit dem Parameter k bei der k-Anonymität, oder dem Parameter εε im Fall der εε-differentiellen Privatheit verfügbar sind.
- Private vs. öffentliche Verfügbarkeit der Daten: Solange auch anonymisierte Daten nur einem eingeschränkten Kreis von Benutzern zur Verfügung gestellt werden, ist das Risiko eine Re-Identifizierung wesentlich geringer.
- Datenmenge: Mit der Datenmenge wächst auch das Risiko einer Re-Identifizierung oder eines anderen Datenmissbrauchs, und eine Regulierung sollte daher laut Ohm die Datenmenge begrenzen.
- Motivation: In der Regulierung sollte auch die Motivation der Datenbesitzer an einer Re-Identifizierung berücksichtigt werden.
- Vertrauen: Eng verbunden mit der Motivation ist das Vertrauen in die Datenbesitzer, was natürlich noch schwieriger allgemeingültig zu bewerten ist als die Motivation.
Allerdings beschreibt Ohm konkrete Maßnahmen, die bei einer hohen Wahrscheinlichkeit einer Re-Identifizierung bzw. bei sensitiven Daten zu treffen sind, nur an zwei Beispielanwendungen. Bei Gesundheitsdaten mit einem hohen Gefährdungspotential, gleichzeitig aber auch hohem potentiellen Nutzen für die Forschung, schlägt er die Einrichtung eines Entscheidungsgremiums vor, das über die Weitergabe derartiger Daten, auch in anonymisierter Form, entscheidet, bei hohem Risiko bis hin zu einem Verfahren mit Klassifizierung von Daten und Datenempfängern analog dem Umgang mit Verschlusssachen. Bei IP-Adressen argumentiert Ohm, dass nicht die Frage, ob es sich um personenbezogene oder anonyme Daten handelt, im Vordergrund stehen sollte, sondern der Schaden, der potentiell aus der Nutzung dieser Daten entstehen kann.
4.3 Verwaltung der Originaldaten durch eine vertrauenswürdige Partei
Ebenfalls von Ohm stammt die Beschreibung des üblichen Vorgehens als Release-and-Forget-Anonymisierung. Als Lösungsmöglichkeit für bestimmte Anwendungsfälle beschreibt Ohm ein Verfahren, das sich an (zentraler) differentieller Privatheit orientiert und darauf aufbaut, dass es eine vertrauenswürdige Partei gibt, die die Originaldaten verwaltet. Anonymität wird bei diesem Vorgehen in der Form erreicht, dass öffentlich verfügbare Auswertungen fast keine Informationen über einzelne Personen enthalten. Die personenbezogenen Daten selbst existieren aber weiterhin und müssen als solche geschützt werden.
4.4 Definition einer Beobachtungspflicht
Ein gelegentlich diskutierter Lösungsansatz ist die Definition einer Beobachtungspflicht, d. h. der Verantwortliche wird verpflichtet, die Entwicklung in Bezug auf neue Verfahren oder andere Daten, mit deren Hilfe eine Re-Identifikation möglich wäre, zu beobachten und bei Bedarf die bereitgestellten anonymen Daten zurückzuziehen.
Auch wenn dieser Ansatz sicher eine sinnvolle Ergänzung anderer Lösungen beschreibt, wird er nicht als eigenständige Lösung ausreichen, da eine Veröffentlichung von Daten, seien sie anonymisiert oder personenbezogen, nicht mehr rückgängig gemacht werden kann. Dieser Lösungsansatz deckt also nur den Fall ab, dass immer wieder neue, aktualisierte Fassungen der anonymisierten Daten veröffentlicht werden, was dann bei Bedarf gestoppt werden kann. Darüber hinaus sind Einzelfälle denkbar, in denen die Daten nur für begrenzte Zeit Schutz erfordern, so dass die Veröffentlichung zwar nicht rückgängig gemacht werden kann, später aber keinen Schaden mehr verursacht.
4.5 Formulierung konkreter Anforderungen an den Grad der Anonymität
Es gibt einige Ansätze, um den Grad der Anonymität von Daten bzw. den Grad der Anonymisierung durch entsprechende Anonymitätsmodelle zu bewerten. Die wohl bekanntesten dieser Modelle sind die k-Anonymität mit dem Parameter k, die l-Diversität mit dem Parameter l, und die εε-Differentielle Privatheit mit dem Parameter εε.
Statt nun allgemeingültig einen Schutz der anonymisierten Daten zu fordern, können diese Bewertungsverfahren genutzt werden, um ein Mindestmaß an erreichter Anonymität zu fordern, abhängig vom mit einem Bruch der Anonymität verbundenen Risiko. Erforderlich wären dafür Regeln der Form „Um anonymisierte Daten zu veröffentlichen, die höchstens ein mittleres Risiko darstellen und deren Urbild keine personenbezogenen Daten besonderer Kategorien enthält, muss mindestens eine l-Diversität mit einem Wert l=…l=… nachgewiesen werden“.
Diese Lösung würde damit weiterhin eine Bereitstellung von anonymisierten Daten beispielsweise für Forschungszwecke erlauben, gleichzeitig aber auch ein gewisses Mindestmaß an Anonymität sicherstellen.
Eine ähnliche, wenn auch weniger konkrete, Forderung enthalten die Safe Harbor-Vorgaben der US-amerikanischen HIPAA-Regelungen für Gesundheitsdaten (nicht zu verwechseln mit der gleichnamigen ehemaligen EU-US-Vereinbarung zum Datenexport). Diese Vorgaben erlauben zwei Varianten für die Anonymisierung von Gesundheitsdaten: Die erste Variante besteht aus der Forderung nach einer Expertenbewertung der Anonymisierung, typischerweise basierend auf Anonymitätsmodellen, ohne dabei aber konkrete Modelle oder Parameter vorzugeheben. Alternativ werden als zweite Variante konkrete Attribute definiert, die bei der Anonymisierung von Gesundheitsdaten entfernt bzw. zumindest generalisiert werden müssen. Diese zweite Variante ist damit sehr viel konkreter und leichter verständlich, insbesondere für Laien auf dem Gebiet der Anonymisierung. Wesentlich hilfreicher erscheint es aber, entsprechend der ersten Variante nicht ein bestimmtes Verfahren, sondern einen bestimmten Erfolg der Anonymisierung zu fordern.
4.6 Sanktionierung der Re-Identifikation
Ein grundsätzlich anderer Ansatz ist das explizite gesetzliche Verbot der Re-Identifizierung von personenbezogenen Daten, wie dies in Großbritannien bereits der Fall ist (Sect. 171 UK Data Protection Act 2018), wenn auch mit vielen Ausnahmen. Auch Japan hat ein solches Verbot der Re-Identifikation, siehe Abschn. 4.8. In Australien dagegen war ein ähnliches Verbot mit der Privacy Amendment (Re-identification Offence) Bill 2016 (Cth) geplant, wurde aber letzten Endes nicht verabschiedet.
Implizit ist die Re-Identifizierung zwar meist auch durch die DSGVO verboten, weil es keine Rechtsgrundlage für diese Verarbeitung personenbezogener Daten gibt. Ein explizites strafbewehrtes Verbot der Re-Identifizierung würde diesen Aspekt verstärken und damit eine Lösung des Problems unterstützen, wenn auch das Problem nicht vollständig lösen. Insbesondere kann ein gesetzliches Verbot nicht verhindern, dass Besitzer der Daten außerhalb des Geltungsbereiches des jeweiligen Gesetzes die Daten re-identifizieren, und auch innerhalb des Geltungsbereiches ist es beispielsweise schwierig zu erkennen, wenn ein Besitzer eine Entscheidung auf Grund einer verbotenen Re-Identifizierung getroffen hat. Ohm schrieb daher schon 2010 „A reidentification ban is sure to fail, however, because it is impossible to enforce. How do you detect an act of reidentification?“.
Darüber hinaus ist es eine Herausforderung, in einem solchen Gesetz zwischen legitimen Gründen für eine Re-Identifikation und den zu verbietenden nicht legitimen Gründen zu unterscheiden, wie schon an den vielen Ausnahmeregelungen in den genannten Gesetzen erkennbar ist.
Insgesamt kann ein solches gesetzliches Verbot der Re-Identifikation als Ergänzung weiterer Maßnahmen helfen, wird aber die beschriebenen Probleme nicht alleine lösen können.
4.7 Bewertung der Anonymisierung als wenig oder nicht geeignete Datenschutzmaßnahme
Im Gegensatz zu den bisher beschriebenen Lösungsansätzen argumentieren Zibuschka et al., dass eine sichere Anonymisierung in der Praxis kaum erreichbar sei, eine misslungene Anonymisierung aber immer noch dazu führt, dass die definierten Rechte der Betroffenen (auf Auskunft, Löschung etc.) nicht mehr erfüllt werden können. Im Ergebnis führe das dazu, dass Anonymisierung unter den Rahmenbedingungen von Data Science etc. als Maßnahme zum Datenschutz nicht mehr geeignet ist, sondern im Gegenteil mehr schadet als nützt.
Die in der DSGVO wiederholt als Datenschutzmaßnahme genannte Anonymisierung sollte aus dieser Sicht nicht mehr genutzt werden, sondern stattdessen der Fokus auf die sonstigen technischen und organisatorischen Maßnahmen sowie die Rechenschaftspflicht des Verantwortlichen gelegt werden sollte.
Anders als bislang bewertet ist aus dieser Sicht eine Pseudonymisierung der Anonymisierung vorzuziehen: Die Schutzwirkung nach außen ist annähernd gleich hoch, aber bei der Pseudonymisierung ist eindeutig, dass die resultierenden Daten immer noch personenbezogen sind und daher dem Datenschutz und den damit verbundenen Einschränkungen unterliegen. Dazu kommt, dass – anders als bei einer Anonymisierung – die Betroffenenrechte nach einer Pseudonymisierung weiterhin erfüllbar sind.
4.8 Beispiel: Japan
Im japanischen Datenschutzrecht gibt es, anders als in fast allen anderen Ländern, auch einige Vorgaben zum Umgang mit anonymisierten Daten, hier als „Anonymously Processed Information“ bezeichnet. Gefordert ist hier u. a., dass die Anonymisierung gemäß den in weiterführenden Regelungen genannten Mindestanforderungen der Aufsichtsbehörde durchgeführt wird und Maßnahmen zur Sicherheit der anonymisierten Daten ergriffen werden. Bei einer Anonymisierung bzw. bei einer Weitergabe anonymisierter Daten müssen darüber hinaus die Kategorien der Daten und einige weitere Informationen veröffentlicht werden (Art. 36, 37, 39 APPI). Schließlich, wie bereits in Abschn. 4.6 angesprochen, gibt es ein explizites Verbot der Re-Identifikation anonymisierter Daten (Art. 38 APPI).
Zwar weicht die Abgrenzung zwischen Anonymisierung und Pseudonymisierung in Japan etwas von der Abgrenzung gemäß der DSGVO ab, was dazu führt, dass manche in Japan als anonymisiert betrachteten Daten in der EU nur als pseudonymisiert betrachtet werden. Da die beschriebenen Regelungen damit aber insbesondere für anonymisierte Daten gelten, ist diese Abweichung für die hier betrachtete Fragestellung nicht relevant.
5 Ergänzender Lösungsansatz: Ausdehnung des Datenschutzes auf „im erweiterten Sinne personenbezogene Daten“
Als Ergänzung der bisher betrachteten Lösungsansätze wird ein wie folgt erweiterter Begriff des Personenbezugs vorgeschlagen:
Definition 1
Daten sind im erweiterten Sinn personenbezogen, wenn sie sich auf eine oder mehrere (natürliche) Personen beziehen, unabhängig davon, ob die konkreten Personen identifizierbar sind oder nicht.
Diese Definition schließt anonymisierte oder auch aggregierte Daten über Personen ein und adressiert damit auch die mit diesen Fällen verbundenen Risiken für die Betroffenen, die vom aktuellen Datenschutzrecht nicht berücksichtigt werden. Ähnlich erhält man durch diese Definition auch einen Hebel, um die oben eingeführten Gefährdungen der Aufdeckung einer Gruppenzugehörigkeit oder von Attributen bei anonymisierten Daten zu adressieren, da auch diese Gefährdungen sich auf im erweiterten Sinn personenbezogenen Daten beziehen.
Auf die Definition von anonymen Daten als Gegensatz zu personenbezogenen Daten lässt sich dies allerdings nicht übertragen, denn unter anonym versteht man ja im allgemeinen Sprachgebrauch gerade, dass Daten sich auf eine bestimmte, aber nicht identifizierbare Person beziehen, (z. B. ist „anonym“ im Duden definiert als „ungenannt, ohne Namensnennung“), also gemäß unserer Definition im erweiterten Sinn personenbezogen sind.
Aufbauend auf der Definition des erweiterten Personenbezugs können nun Anforderungen an den Schutz von im erweiterten Sinn personenbezogenen Daten definiert werden. Dieser Ansatz geht noch einen Schritt weiter als die beispielsweise in Japan geforderte Anwendung des Datenschutzes auf anonymisierte Daten, da darunter auch Daten fallen, die von vornherein anonym waren oder die sich auf Gruppen von Personen beziehen.
Die Datenschutzanforderungen können nicht vollständig die gleichen Forderungen wie für personenbezogene Daten sein, da beispielsweise die Betroffenenrechte für im erweiterten Sinn personenbezogene Daten nur sehr eingeschränkt erfüllbar sind. Insofern ist zuerst zu prüfen, welche Anforderungen anwendbar sind, und darüber hinaus, inwieweit eine Anwendung der potentiell anwendbaren Forderungen auch wünschenswert ist.
Die in Art. 5 DSGVO gelisteten Grundsätze für die Verarbeitung personenbezogener Daten (Rechtmäßigkeit, Zweckbindung, Datenminimierung etc.) sind auch für im erweiterten Sinn personenbezogene Daten anwendbar. Das gilt entsprechend auch für die in Art. 6 DSGVO aufgeführten möglichen Rechtsgrundlagen, mit einer leichten Einschränkung bei der Nutzung einer Einwilligung als Rechtsgrundlage, denn – wie auch jetzt schon nach einer Anonymisierung von personenbezogenen Daten – die Rücknahme einer Einwilligung führt nicht dazu, dass die betroffenen Daten von der Verarbeitung ausgeschlossen werden können. Bei den Rechten der Betroffenen gemäß Art. 12–23 DSGVO können nur die Informationspflichten (Art. 13, 14 DSGVO) umgesetzt werden, im Zweifel durch Veröffentlichung der entsprechenden Informationen, ähnlich wie das in Japan bei der Anonymisierung bereits gefordert ist (siehe Abschn. 4.8). Die anderen Betroffenenrechte dagegen sind nicht mehr anwendbar, da sie sich auf Einzelpersonen beziehen, die bei im erweiterten Sinn personenbezogene Daten möglicherweise nicht mehr zugeordnet werden können.
Mit diesem Ansatz würde Anonymisierung rechtlich als ein Ansatz zum Schutz der Daten gesehen, ähnlich wie bereits jetzt die Pseudonymisierung, würde aber nicht mehr dazu führen, dass die Daten nicht mehr dem Datenschutz unterliegen.
Um die weitere Nutzung anonymisierter Daten für legitime Zwecke zu erleichtern, könnten dann entsprechende Erleichterungen definiert werden für die Verarbeitung von Daten, die nur im erweiterten Sinn personenbezogen sind, beispielsweise durch eine Festlegung, dass eine Veröffentlichung dieser Daten nur erlaubt ist, wenn ein bestimmter Grad der Anonymität erreicht ist und eine DSFA gemäß Art. 35 Abs. 4 DSGVO durchgeführt wurde.
6 Zusammenfassung und Ausblick
Der vorliegende Beitrag zeigt, dass auch anonymisierte Daten in vielen Fällen noch dem Datenschutz unterliegen sollten. Diese Erkenntnis ist in vielen Veröffentlichungen aus den letzten etwa zehn Jahren zu finden, spiegelt sich aber nicht in aktuellen gesetzlichen Regelungen wie der DSGVO wider. Es wurden einige unterschiedliche Lösungsansätze für diese Herausforderung vorgeschlagen, und punktuell werden diese auch bereits umgesetzt, aber nicht als allgemeingültige gesetzliche Regelung.
Im Kern lassen sich die Lösungsansätze in drei Gruppen unterteilen: Die erste Gruppe besteht im Wesentlichen aus einer gesetzlichen Festlegung, dass auch anonymisierte Daten schutzbedürftig im Sinne des Datenschutzes sind. Daraus ergibt sich die Forderung nach einer Regelung, dass ausgehend von einer Bewertung der verbleibenden Risiken (inkl. der Risiken, die über die reine Re-Identifikation der Daten hinausgehen) eine Umsetzung geeigneter Schutzmaßnahmen auch für anonymisierte Daten erforderlich ist. Eine zweite Gruppe geht das Problem auf juristischem Weg durch ein Verbot der Re-Identifikation an, was die anderen Ansätze unterstützen kann, alleine aber wohl nicht ausreicht.
Die dritte Gruppe geht einen völlig anderen Weg und lehnt Anonymisierung als Maßnahme zum Datenschutz grundsätzlich ab. Stattdessen wird eine verschärfte Rechenschaftspflicht gefordert, um den mit einer Anonymisierung verbundenen Verlust der Betroffenenrechte zu verhindern.
Allerdings beschreibt keiner dieser Lösungsansätze eine vollständige Lösung der betrachteten Probleme, sondern es handelt sich jeweils nur um Teillösungen. Der vorliegende Beitrag soll daher als Grundlage für eine Diskussion dienen, wie man – wahrscheinlich mit einer Kombination verschiedener Teillösungen – die beschriebene Herausforderung am besten adressieren kann, um eine praktisch wie juristisch angemessene Lösung zu finden, beispielsweise auf Basis des hier eingeführten Begriffs der im erweiterten Sinne personenbezogenen Daten.
Ralf Kneuper in: Friedewald, M., Kreutzer, M., Hansen, M. (eds) Selbstbestimmung, Privatheit und Datenschutz . DuD-Fachbeiträge. Springer Vieweg, Wiesbaden, 2022;
https://doi.org/10.1007/978-3-658-33306-5_9
http://creativecommons.org/licenses/by/4.0/deed.de
Zur einfacheren Lesbarkeit wurden die Quell- und Literaturverweise entfernt.