Personenbezogene, pseudonyme und anonyme Daten

Personenbezogene Daten

Personenbezogene Daten sind "alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person (betroffene Person) beziehen" (Art. 4 Nr. 1 DSGVO). Dabei ist unerheblich, ob die betroffene Person direkt (bspw. über Name, Foto, Adresse) oder indirekt (bspw. über eine Kombination mehrere Merkmale oder eine pseudonyme Kennung) identifiziert werden kann.

Pseudonyme Daten

Im Vergleich zu anonymen Daten bleibt bei pseudonymisierten Daten aufgrund gesondert aufbewahrter Zusatzinformationen die Zuordnungsmöglichkeit von Daten und Person erhalten; es ist also ein Personenbezug herstellbar. Dementsprechend handelt es sich bei pseudonymisierten Daten um personenbezogene Daten nach der DSGVO. Dies gilt jedoch nur, wenn der jeweilige Datenverarbeiter (Verantwortliche, Auftragsverarbeiter) Zugriff auf die zur Identifizierung der betroffenen Personen erforderlichen Informationen hat; verfügt er über keine Mittel zur Re-Identifizierung und kann entsprechend keinen Personenbezug herstellen, oder ist das Risiko einer Identifizierung faktisch unbedeutend, bspw. weil sie gesetzlich verboten ist oder einen unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskraft erfordern würde, handelt es sich aus seiner Perspektive um anonyme Daten (vgl. EuGH, Urteil vom 04.09.2025 - Rechtssache C-413/23 P).

Für weitere Erläuterungen und Handlungsbeispiele sei auf die Leitlinien zur Pseudonymsierung des Europäischen Datenschutzausschusses (EDSA) verwiesen.

Anonyme Daten - Anonymität und Anonymisierung

Wann liegt Anonymität vor?

Anonyme Daten sind das Gegenteil von personenbezogenen Daten: Anonyme Daten enthalten zwar Angaben (zu) einer bestimmten Person, aber mit ihnen kann kein Bezug zu einer identifizierten oder identifizierbaren natürlichen Person hergestellt werden. Anonyme Daten können entweder von Anfang an anonym erhoben worden sein oder es kann sich bei ihnen um ursprünglich personenbezogene Daten handeln, aus denen diejenigen Informationen entfernt worden sind, welche eine Identifikation konkreter Personen ermöglichen würden. In letzterem Fall spricht man von anonymisierten Daten, also Daten, bei denen der Personenbezug aufgehoben worden ist.

Anonyme Daten fallen - anders als personenbezogene Daten - nicht in den Anwendungsbereich des Datenschutzrechts, sodass für ihre Verarbeitung keine Rechtsgrundlage erforderlich ist und bei ihrer Verarbeitung nicht die sonstigen Vorschriften, die bei der Verarbeitung personenbezogener Daten zu beachten sind - wie Informationspflichten, Auskunftspflichten, Löschpflichten etc. - eingehalten werden müssen (wobei sie in Ermangelung des Personenbezugs teilweise auch überhaupt nicht umgesetzt werden könnten). Allerdings bedarf die Durchführung einer Anonymisierung einer Rechtsgrundlage!

Anonymität erscheint damit als etwas durchaus Erstrebenswertes! Allerdings gibt es unterschiedliche Ansätze bzw. Vorstellungen, wann eine Anonymität von Daten erreicht ist:

Absolute Anonymisierung: Der Verlust des Personenbezugs ist umfassend; auch bei größtmöglichem Aufwand und unter Einsatz aller denkbaren Techniken sowie Nutzung von Zusatzwissen ist eine Re-Identifizierung der Daten allgemein ausgeschlossen.
Relative bzw. faktische Anonymisierung: Nur mit unverhältnismäßig hohem Aufwand, bspw. hinsichtlich Kosten und Zeit, ist - unter Einsatz von Mitteln nach dem aktuellen Stand der Technik - eine Re-Identifizierung, d. h. die Zuordnung der Daten zu einer bestimmten oder bestimmbaren Person, möglich.
formale Anonymisierung: Hierbei werden direkte Identifikatoren wie Namen oder Adressen entfernt. Dieses Vorgehen bleibt jedoch im Regelfall unter den Anforderungen der faktischen oder gar absoluten Anonymisierung zurück, sodass hier grundsätzlich von keiner wirksamen Anonymisierung ausgegangen werden kann.

Da nach allgemeiner Auffassung das Re-Identifikationsrisiko stets immer nur unter einen gewissen Schwellenwert gedrückt und eine absolute Anonymisierung mithin realistischerweise nicht erreicht werden kann, genügt, um die Anforderungen der DSGVO zu erfüllen, eine relative bzw. faktische Anonymisierung (vgl. ErwGr. 26 DSGVO und EuGH, Urteil vom 04.09.2025 - Rechtssache C-413/23 P).

Verfahren zur Anonymisierung

Bei den Anonymisierungstechniken bzw. -methoden wird im Wesentlichen zwischen Randomisierung und Generalisierung unterschieden:

Randomisierung bedeutet eine zufällige Veränderung der Daten, um die Verbindungen zwischen den einzelnen Merkmalen und damit die Möglichkeit der Herstellung eines Bezugs zwischen den Daten und konkreten Personen aufzuheben. Beispiele für Randomisierungstechniken:
- Das Data Swapping, also die Vertauschung von Merkmalsausprägungen zwischen den Datensätzen unterschiedlicher Personen, um einerseits die Merkmalsverteilung zu erhalten und andererseits die Personenbeziehbarkeit durch Kombination der Merkmale zu verunmöglichen. Allerdings können dabei die statistischen Eigenschaften der Daten verändert werden, sodass Merkmale, deren Zusammenhang erhalten bleiben soll, zwischen den gleichen Datensätzen getauscht werden müssen.
- Bei rein numerischen Daten ist eine stochastische Überlagerung mittels Störgrößen, welche die Merkmalsausprägungen modifizieren, möglich. Dabei wird die statistische Verteilung der ursprünglichen Werte nicht verändert; es kommt jedoch zu einem Informationsverlust, der zur Anonymität führen soll.
Unter Generalisierung versteht man eine “Vergröberung” der Merkmalsausprägungen, wobei durch diese Präzisionsreduktion eine Personenidentifikation verhindert werden soll. Um die statistischen Eigenschaften der Daten zu erhalten, findet das “Vergröbern” regelhaft statt. Beispiele für Generalisierungsverfahren:
- Im Rahmen der Mikroaggregierung werden Merkmalsausprägungen zu Gruppen mit jeweils einheitlichem Merkmalswert zusammengefasst. Bei numerischen Daten kann dies bspw. durch die Zusammenführung detaillierterer Angaben in Intervallen erfolgen. Um die Herstellung eines Personenbezugs zu verhindern, sind sämtliche Merkmale, die - ggf. auch in ihrer Kombination - zur Identifikation geeignet sein könnten (mittelbare Identifikatoren), in die Gruppenbildung einzubeziehen.
- Bei der k-Anonymität wird zusätzlich darauf geachtet, dass in jeder dieser Gruppen mindestens k Datensätze von Einzelpersonen enthalten sind. Hier ist zu bedenken, dass k einerseits ausreichend groß sein muss, um Anonymität zu gewährleisten, andererseits aber mit zunehmendem k der Informationsgehalt der Daten abnimmt.
- l-Diversität stellt eine Weiterentwicklung der k-Anonymität dar, die als zusätzliche Anforderung formuliert, dass in jeder Gruppe sämtliche Merkmale (Variablen) des Datensatzes in mindestens l verschiedenen Werten (Ausprägungen) vorkommen. Damit soll verhindert werden, dass eine (gesuchte) Merkmalsausprägung einer Person auch ohne Kenntnis ihres konkreten Datensatzes zugeordnet werden kann, weil der Merkmalswert für alle Personen in der Gruppe identisch ist ("Homogenitätsattacke"). Die Umsetzung der l-Diversität ist jedoch nur möglich, wenn in den fraglichen Daten ausreichend viele Datensätze in den Merkmalen die gleichen Werte einnehmen.

Nicht zuletzt kann eine Anonymisierung auch durch die Entfernung von identifizierenden Merkmalen, sei es mittels Löschung oder Maskierung, erreicht werden. Dabei können sowohl einzelne pseudonymisierende Merkmale über alle Personen hinweg (wie beispielsweise Matrikelnummer, Personalnummer oder Versuchspersonencode) oder Werte bei einzelnen Personen (insbesondere Ausreißer, Extremwerte oder seltene und damit identifikationskritische Merkmalskombinationen) entfernt werden. Das Maskieren unterscheidet sich vom Löschen dahingehend, dass die entfernten Daten durch Platzhalter ersetzt werden. Eine Maskierung kann auch in Bildern und Videos, bspw. durch Verpixelung und damit Unkenntlichmachung von Personen, stattfinden. Auch bei der Datenentfernung muss darauf geachtet werden, dass auf Basis der in den Datensätzen enthaltenen Merkmale kein Rückschluss auf einzelne Personen möglich ist, wofür die Maßstäbe der k-Anonymität und l-Diversität herangezogen werden können.

Weiterreichende Informationen zur Anonymisierung, inkl. Beispielen und Anleitungen, können bspw. folgenden Dokumenten entnommen werden:

Die Stiftung Datenschutz stellt einen Praxisleitfaden zum Anonymisieren personenbezogener Daten zur Verfügung.
Vom Kompetenzteam Datenschutz des IT-Planungsrats wurde eine Handreichung Anonymisierung veröffentlicht.
Der Europäische Datenschutzbeauftragte (EDSB) hat gemeinsam mit der spanischen Datenschutz-Aufsichtsbehörde Agencia Española de Protección de Datos (AEPD) 10 Missverständnisse zur Anonymisierung zusammengetragen (in englischer Sprache).

Es ist festzuhalten, dass eine Anonymisierung immer einen sehr einzelfallbezogenen Prozess darstellt, der einer individuellen Prüfung und vorgehensweise bedarf. So ist auch stets für den Einzelfall festzustellen, welche Anonymisierungstechniken in Abhängigkeit von den Ausgangsdaten und den Nutzungsszenarien der anonymisierten Daten anwendbar sind, wobei auch eine Kombination mehrerer Techniken angezeigt sein kann.

Zu beachten ist außerdem, dass eine Anonymisierung nicht immer möglich ist! Dies ist dann der Fall, wenn das Re-Identifikationsrisiko nicht unter den erforderlichen Schwellenwert der relativen bzw. faktischen Anonymisierung gesenkt werden kann, beispielsweise weil die Daten eine sehr kleine bzw. spezifische Grundgesamtheit betreffen.

Einmal anonym, immer anonym?

Insbesondere aufgrund des technischen Fortschritts kann nicht davon ausgegangen werden, dass einmal anonymisierte Daten für alle Zeiten anonym bleiben. Faktoren wie Informationszugang und Rechengeschwindigkeit können dazu führen, dass die Wahrscheinlichkeit der Re-Identifizierung zunimmt. Dementsprechend müssen die Anonymisierungsverfahren regelmäßig auf ihre Validität überprüft werden und dem Stand der Technik entsprechen, da sich auch die Mittel, die zur Herstellung eines Personenbezugs eingesetzt werden können, kontinuierlich entwickeln (vgl. auch ErwGr. 26 DSGVO).