Analyse und Umsetzung von Methoden zur
Transcription
Analyse und Umsetzung von Methoden zur
M A G I S T E R A R B E I T Analyse und Umsetzung von Methoden zur Anonymisierung und Pseudonymisierung personenbezogener, medizinischer Daten ausgeführt am Institut für Medizinische Informations- und Auswertsysteme der Medizinischen Universität Wien unter Anleitung von Ao. Univ. Prof. Dipl. Ing. Dr. Georg Duftschmid durch Bakk.techn. Alexander Jautz Wimbergergasse 29/7 A-1070 Wien Ort, Datum Unterschrift Zusammenfassung Die fortschreitende Vernetzung des Gesundheitswesens hat in den letzten Jahren zahlreiche Anwendungsfälle für den elektronischen Austausch medizinischer Daten mit sich gebracht. Sensible Daten und als solche sind unter anderem personenbezogene, medizinische Daten im österreichischen Datenschutzgesetz deniert dürfen jedoch nur verarbeitet, übermittelt bzw. überlassen werden, wenn entsprechende Gesetze eingehalten werden, welche fordern, dass Patientendaten in diesem Kontext so abzuwandeln sind, dass die betroenen Personen nicht mehr eindeutig identizierbar sind. Diese Arbeit widmet sich daher der Anonymisierung bzw. Pseudonymisierung personenbezogener Daten. Anhand von Beispielen wird gezeigt, dass herkömmliche Anonymiserung bzw. Pseudonymisierung, bei der nur die eindeutig personenidentifzierenden Merkmale (z.B.: Sozialversicherungsnummer, Name, Adresse,. . . ) gelöscht oder verschlüsselt werden, die Daten nicht ausreichend schützen kann. Um dieses Problem zu lösen, wird auf dem Konzept der k -Anonymität aufgesetzt. Die zusätzliche Sicherheit, die die k- Anonymität bietet, wird durch eine Abwandlung bzw. Verallgemeinerung der Daten erreicht, sodass pro Datensatz zumindest k − 1 weitere Datensätze vorhanden sind, die hinsichtlich ihrer potentiell personenidentizierenden Merkmale (z.B.: PLZ, Geburtsdatum, Beruf,. . . ) nicht voneinander unterscheidbar sind, womit eine eindeutige Identizierung einer Person weitgehend ausgeschlossen ist. Zusätzlich wird auf verschiedene k -Anonymisierung, Brauchbarkeit k -anonymisierter Daten, Laufzeitverhalten und Metriken zur Bewertung k -anonymisierter Daten eingegangen. Weiters wird die Umsetzung eines Werkzeuges zum Generieren und Exportieren k -anonymer Algorithmen zur Daten als Erweiterung des Studiensystems ArchiMed vorgestellt. Die Kriterien, die zur Auswahl des zugrunde liegenden k -Anonymisierungsalgorithmus geführt haben, werden ebenso erläutert wie die Funktionsweise der verwendeten Methode. Die Beschreibung eines Exportvorgangs mittels des entwickelten Werkzeuges anhand eines konkreten Beispiels bildet den Abschluss der Arbeit. i Inhaltsverzeichnis 1 Einleitung 1.1 1.2 1.3 1 Denitionen und Erklärungen . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Primäre Identikationsmerkmale 1.1.2 Sekundäre Identikationsmerkmale . . . . . . . . . . . . . . . . . 4 . . . . . . . . . . . . . . . . 4 1.1.3 k -Anonymität . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.1.4 Anonymisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1.5 Pseudonymisierung . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1.6 Indirekt personenbezogene Daten . . . . . . . . . . . . . . . . . 8 Gesetzliche Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2.1 Verwendung von Daten . . . . . . . . . . . . . . . . . . . . . . . 9 1.2.2 Übermittlung von Daten . . . . . . . . . . . . . . . . . . . . . . 11 Nationale Richtlinien bzw. Leitlinien . . . . . . . . . . . . . . . . . . . 12 1.3.1 MAGDA-LENA . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.3.2 HIPAA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2 Anonymisierung und Pseudonymisierung medizinischer Daten 2.1 Modelle der Pseudonymisierung 2.2 Angris- und Bedrohungsszenarien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Risiko der Reidentizierung durch Verknüpfung von Daten 2.4 k -Anonymität . . . . . . . . . . . . 2.4.1 k -minimale Generalisierung 15 15 17 . . . . . . . 19 . . . . . . . . . . . . . . . . . . . . 22 . . . . . . . . . . . . . . . . . . . . 25 2.4.2 Minimale Veränderung und Metriken . . . . . . . . . . . . . . . 26 2.4.3 Laufzeitverhalten . . . . . . . . . . . . . . . . . . . . . . . . . . 27 k -anonymer Daten . . . 2.4.5 Angrie gegen k -anonyme Daten . . . 2.4.6 Eine Alternative zur k -Anonymität? . Verschiedene Methoden zur k -Anonymisierung 2.4.4 2.5 3 Brauchbarkeit . . . . . . . . . . . . . . 28 . . . . . . . . . . . . . . 30 . . . . . . . . . . . . . . 36 . . . . . . . . . . . . . . 2.5.1 Minimal Generalization (MinGen) Algorithmus 2.5.2 Datay System 36 . . . . . . . . . 37 . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.5.3 Incognito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.5.4 µ-ARGUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.5.5 Multidimensional 2.5.6 k -Optimize l-Diversity 2.5.7 k -Anonymity . . . . . . . . . . . . . . . . . . 47 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 ii Inhaltsverzeichnis 3 Methoden 63 3.1 Das Studiensystem ArchiMed 3.2 Methode der k -Anonymisierung . . . . . . . . . . . . . . . . . . . . . . 63 . . . . . . . . . . . . . . . . . . . . . . 64 4 Resultate 66 4.1 Funktionsumfang des 4.2 Realisierung des k -anonymen k -anonymen Datenexportwerkzeuges . . . . . . . 66 Datenexports im System ArchiMed . . . 67 5 Diskussion 76 6 Ausblick 78 Abbildungsverzeichnis 81 Tabellenverzeichnis 83 Literaturverzeichnis 84 iii 1 Einleitung Mit dem technologischen Fortschritt der letzten Jahre bzw. Jahrzehnte wie Computertechnologie, Möglichkeit der Vernetzung von Computersystemen, leistbare Massenspeicher,. . . ist auch ein beispielloser Anstieg an gesammelten Daten mit personenbezogenen Inhalten zu verzeichnen [1] [2]. Die Abbildung 1.1 verdeutlicht die Zunahme der gespeicherten Daten am Beispiel einer Geburt im Staat Illinois USA. Hier steigerten sich die Attribute, die pro Geburt aufgezeichnet wurden, von 7 (1906) auf 226 (1999). Abbildung 1.1: Gespeicherte Attribute pro Geburt im US Staat Illinois Solche Daten sind natürlich von groÿem wissenschaftlichen und auch wirtschaftlichen Wert und werden gesammelt, um später entsprechend verarbeitet zu werden und Informationen daraus zu gewinnen. Dazu ist es oftmals nötig, die Daten zu veröentlichen oder weiterzugeben. Dabei müssen diverse Gesetze und Verordnungen eingehalten werden (siehe Kapitel 1.2), damit die schutzwürdigen Geheimhaltungsinteressen der betroenen Personen nicht verletzt werden. Denn es ist sicherlich nicht im Interesse der Bevölkerung, wenn die Öentlichkeit Kenntnis über sensible Details jedes Einzelnen erhält. Vor allem die medizinische Qualitätssicherung und Forschung kann durch Vernetzung von diversen Gesundheitsanbietern und einem somit erleichterten Informationsaustausch verbessert und vereinfacht werden. In Amerika gibt es dazu ein Pilotprojekt 1 Kapitel 1. Einleitung 1 mit dem Titel HCN (Healthcare Collaborative Network) [3], bei dem ein standar- disierter Informationsaustausch zwischen Krankenhäusern, niedergelassenen Ärzten, Forschungszentren, Pharmarmen, staatlichen Einrichtungen (FDA Food and Drug Administration, CDC Centers for Disease Control and Prevention, CMS Centers for Medicare and Medicaid Services) und Versicherungsanstalten angestrebt wird. Aufgrund der oenen Standards können alle interessierten Organisationen, die im Bereich Gesundheitswesen tätig sind, an diesem Netzwerk teilnehmen. Folgende Ziele sollen durch das HCN erreicht werden: Rascheres Reagieren bei einem Ausbruch einer Epidemie (SARS, Mutation eines Vogelgrippevirus,. . . ) Erleichterung administrativer Aufgaben Möglichkeit, schnell und einfach Daten zu sammeln bzw. anderen zukommen zu lassen Raschere Verfügbarkeit von klinischen Daten für die Qualitätssicherung und somit schnellere Reaktion auf eventuelle Missstände Natürlich müssen auch hier Gesetze und Richtlinien 2 bei der Verwendung von sensi- 3 blen Daten befolgt werden. Vor allem die HIPAA-Richtlinie [4] ist im amerikanischen Raum von Bedeutung (siehe auch Kapitel 1.3.2) und muss hier erwähnt werden. Auch in Österreich gibt es Versuche, die neuen Informations- und Kommunikationstechnologien zu nutzen, um das Gesundheitswesen zu modernisieren, weiterzuentwickeln und so eine Qualitäts- und Ezienzsteigerung zu erreichen: Die e-Health- 4 Initiative [5] ist ein Projekt zur langfristigen Organisationsentwicklung im Gesund- heitswesen in Hinblick auf eine integrierte, patientenzentrierte Versorgung. Aufbauend auf derzeit bereits vorhandenen Komponenten wie eCard und Krankenhausinformationssystemen entwickelt e-Health ein langfristiges Konzept für die digitale Dokumentation, Kommunikation, Speicherung und Verarbeitung von gesundheitsbezogenen und administrativen Daten. Dadurch sollen folgende Ziele erreicht werden: Unterstützung einer patientenzentrierten Leistungserbringung und -dokumentation Unterstützung aller Akteure im Gesundheitswesen durch bessere Information und Kommunikation 1 http://ccbh.ehealthinitiative.org/proles/HCN.mspx 2 Richtlinien sind Regelungen des Handelns oder Unterlassens, die von einer rechtlich legitimierten Institution konsentiert, schriftlich xiert und veröentlicht wurden, für den Rechtsraum dieser Institution verbindlich sind und deren Nichtbeachtung denierte Sanktionen nach sich ziehen. 3 http://www.hhs.gov/ocr/hipaa/ 4 http://ehi.adv.at/ 2 Kapitel 1. Einleitung Modernisierung des Gesundheitswesens Unterstützung der Organisationsentwicklung und besseres Management von Gesundheitseinrichtungen Da natürlich auch Datenschutz und Datensicherheit ein zentraler Punkt von eHealth ist, erfolgt der nötige Austausch von Gesundheitsdaten ausschlieÿlich gemäÿ den gesetzlich denierten Rahmenbedingungen, und es wird weiters empfohlen, anonymisierte bzw. pseudonymisierte (siehe Kapitel 1.1) Daten wo immer es möglich ist zu verwenden. Ein weiterer österreichischer Versuch, die Vorteile miteinander vernetzter Gesundheitseinrichtungen auszunutzen, ist das Praxisnetzwerk 5 [6], das auf Basis einer In- itiative der Ärztekammer entwickelt wurde. Es versucht durch intensive Kommunikation die über bloÿe Befundübermittlung hinausgeht eine eziente Zusammenarbeit zwischen medizinischen Partnern einer Region zu ermöglichen. Dabei werden unter anderem Funktionen wie (multimediale) Befundansicht, Befundsuche, Patientenverzeichnis mit Suchfunktionen und gesicherter Mailverkehr geboten. Aufgrund von Vorkehrungen wie Einmalpasswörter, SSL-Verschlüsselung, Einwilligung des Patienten für jeden einzelnen Befund durch Ausdruck eines Mustertextes und Unterschrift, sind die in Österreich geltenden Gesetze und Normen erfüllt, was auch in einem Gutachten auf der Homepage nachzulesen ist. Bevor jedoch in der vorliegenden Arbeit näher auf Gesetze und Verordnungen eingegangen werden kann, sind einige Denitionen und Erklärungen notwendig, um die entsprechende Grundlage für die weiteren Kapitel zu schaen. Im Hauptteil (siehe Kapitel 2) wird auf diverse Probleme herkömmlicher Pseudonymisierungs- und Anonymisierungsmethoden eingegangen, um schlieÿlich mit der zu präsentieren. Genauere Informationen zur dener Methoden zur k -Anonymisierung k -Anonymität eine Lösung k -Anonymität sowie die Analyse verschie- bilden die Überleitung zur Implementation einer Methode als Webapplikation eines Multicenter-Studiensystems (siehe Kapitel 3 und 4). 1.1 Denitionen und Erklärungen Aufgrund verschiedener Auslegungsmöglichkeiten von Begrien wie Anonymisierung, Pseudonymisierung, indirekt personenbezogene Daten und k -Anonymität ist es not- wendig klarzustellen, wie diese Begrie hier verwendet werden, um Missverständnisse zu vermeiden. Auÿerdem sind auch noch einige andere grundlegende Erklärungen und Denitionen für das Verständnis der weiteren Arbeit nötig. 5 https://www.praxisnetzwerk.at/ 3 Kapitel 1. Einleitung Wenn nicht anders erwähnt, ist mit dem Begri Daten personenbezogene Information (Information, die einer Person eindeutig zugeordnet werden kann) gemeint, die üblicherweise in Zeilen (Tupel ) und Spalten (Attribute ) gegliedert ist. Es wird hier angenommen, dass jedes Tupel zu genau einer Person gehört, und dass jede Person nur einmal pro Tabelle vorkommt. Jedes Attribut (z.B.: Wohnort, Alter, Name,. . . ) bezeichnet einen eigenen semantischen Bereich und kann gewisse Werte annehmen. Die Reihen einer Tabelle sind nicht notwendigerweise einmalig, die Attribute hingegen kommen nur einmal innerhalb einer Tabelle vor. Sei T = {t1 , t2 , . . . , tn } eine Tabelle mit den Attributen A1 , A2 , . . . , Am . T ne Untermenge einer gröÿeren Population Ω. A {A1 , A2 , . . . , Am } Tupels t. bezeichnet den Wert von Attribut der Tabelle T, und t[Ai ] ist ei- bezeichnet den Satz aller Attribute Ai des 6 Tabelle 1.1 zeigt eine Tabelle mit personenbezogenen, medizinischen Daten , die aus 5 Tupel und 7 Attributen (A = {Name, SVNR, PLZ, Geburtsdatum, Geschlecht, Körpergröÿe, Körpergewicht }) besteht. Name SVNR PLZ Geburtsd. M/W Gröÿe Gewicht Luise Becker 1234100564 1070 10.05.1964 W 160 55 Anna Bauer 5412021260 1110 05.12.1960 W 171 70 Ludwig Kern 4321120970 1110 12.09.1970 M 180 90 Peter Wol 5613080864 1010 08.08.1964 M 170 65 Rosa Stix 4567151280 1011 15.12.1979 W 160 60 Tabelle 1.1: Personenbezogene, medizinische Daten in Tabellenform 1.1.1 Primäre Identikationsmerkmale Primäre Identikationsmerkmale sind Attribute oder Attributkombinationen, die eine eindeutige Identizierung einer Person erlauben. Tabelle 1.2 listet einige typische primäre Identikationsmerkmale auf. Um den direkten Personenbezug zu entfernen, ist es auf jeden Fall notwendig, diese Attribute zu löschen oder entsprechend zu verschlüsseln. In Tabelle 1.1 wären das die Attribute Name und Sozialversicherungsnummer. 1.1.2 Sekundäre Identikationsmerkmale Sekundäre Identikationsmerkmale sind Attribute, die durch die Kombination mit anderen Attributen und der Verbindung mit externen Informationen (Telefonbuch, 6 Alle in dieser Arbeit vorkommenden personenbezogenen Daten sind frei erfunden. 4 Kapitel 1. Einleitung Datenart Komponenten Zuname, Name Vorname, Datennutzerkreis Zu- satz, Geburtsname, Titel Straÿe, Zusatz, Postleit- Adresse zahl, Ort, Land Telefonnummer Öentlichkeit Öentlichkeit Öentlichkeit Sozialversicherungs- Verwaltung nummer Polizzennummer Versicherungen Dokumentnummer (z. B. Verwaltung Führerschein, Reisepass, Personalausweis) Grundbuchblattnummer Landesverteidigung Registernummer Verwaltung KFZ-Nummer Verwaltung Matrikelnummer Verwaltung Veranlagungsnummer Verwaltung Kontonummer Geldinstitute Personalnummer Dienstgeber Patientenidentikation (z.B. Aufnahmenummer, Fallnummer, PID-Num- Leistungserbringer mer, Untersuchungsnummer) Mitgliedsnummer Vereine Tabelle 1.2: Typische primäre Identikationsmerkmale [7] Wählerverzeichnis,. . . ) unter Umständen eine eindeutige Identizierung des Personenbezugs erlauben (siehe Kaptiel 2.3). Die Kenntnis eines dieser Attribute reicht hingegen nicht aus, um die Identität der Person herauszunden. Beispiel: Sekundäre Identikationsmerkmale Beruf und Wohnort : Ein seltener Beruf in Kombination mit einer kleinen Gemeinde kann bereits ausreichen, um Rückschlüsse auf die Personen zu erlauben. Denition: Gegeben sei eine Population U , eine Tabelle T (A1 , . . . , An ), fc : U → T fg : T → U 0 , wobei U ⊆ U 0 . Die sekundären Identikationsmerkmale von T , und QT , sind eine Menge von Attributen {Ai , . . . , Aj } ⊆ {A1 , . . . , An }, wobei fg (fc (pi ) [QT ]) = pi . ((pi ) [QT ] bezeichnet den Wert der Attribute [QT ] pi siehe auch Kapitel 1.1.) geschrieben ∃pi ∈ U sodass des Tupels 5 Kapitel 1. Einleitung Es ist nicht immer ganz eindeutig, wann ein Attribut ein sekundäres Identikationsmerkmal darstellt. Trotzdem gibt es gewisse Regeln, die die Einteilung erleichtern. So sind zum Beispiel demographische Daten, die sich nicht oder nur selten ändern und im sozialen Umgang als bekannt anzunehmen sind, typische Kandidaten für sekundäre Identikationsmerkmale (Geburtsort, Wohnort, Beruf, Geburtsdatum, Religionsbekenntnis, Familienstand). In Tabelle 1.1 wären das die Attribute PLZ, Geburtsdatum und Geschlecht. Medizinische Daten gehören in der Regel nicht in diese Gruppe von Attributen, da Attribute wie Körpergewicht, Insulinspiegel, Blutdruck,. . . natürlichen Schwankungen unterworfen sind und dadurch eine Herstellung des Personenbezugs praktisch nicht möglich ist. Besonders atypische Werte könnten aber trotzdem zu der Identizierung einer Person führen. Man denke zum Beispiel an einen besonders übergewichtigen Patienten. Hier wird es bereits bei der zusätzlichen Angabe des Wohnortes oft möglich sein, die Daten der betroenen Person eindeutig zuzuweisen. 1.1.3 k-Anonymität Man spricht dann von einer k−1 k -anonymen Tabelle, wenn es für jedes Tupel mindestens andere Tupel gibt, die sich in den Ausprägungen ihrer sekundären Identikati- onsmerkmalen nicht unterscheiden (siehe auch Kapitel 2.4). Dabei steht das k übli- cherweise für eine natürlich Zahl zwischen 2 und 10. Tabelle 1.3 zeigt eine mögliche Abwandlung der Tabelle 1.1 mit k = 2, damit sie der Anforderung der k -Anonymität entspricht. Dadurch lassen sich die Tupel 1, 2 und 4 bzw. 3 und 5 anhand der Werte der sekundären Identikationsmerkmale nicht voneinander unterscheiden. Eine Tabelle T genügt der Bedingung der k -Anonymität, wenn es für jedes Tupel t ∈ T mindestens k − 1 Tupel ti1 , ti2 , . . . , tik−1 ∈ T gibt für die gilt: t[C] = ti1 [C] = ti2 [C] = . . . = tik−1 [C] für alle C ∈ Menge der sekundären Identikationsmerkmale. PLZ Geburtsd. M/W Gröÿe Gewicht Wien 19601969 * 160 55 Wien 19601969 * 171 70 Wien 19701979 * 180 90 Wien 19601969 * 170 65 Wien 19701979 * 160 60 Tabelle 1.3: k -anonyme Form der Tabelle 1.1 mit 6 k=2 Kapitel 1. Einleitung 1.1.4 Anonymisierung Oft wird der Begri Anonymisierung bereits verwendet, wenn nur die primären Identikationsmerkmale gelöscht oder verschlüsselt werden (z.B. [8]). Da bei dieser Methode aber meist ohne groÿen Aufwand zumindest ein Teil der Personen eindeutig identiziert werden kann (siehe Kapitel 2.3), wird im Rahmen dieser Arbeit nur von einer Anonymisierung gesprochen, wenn es so gut wie ausgeschlossen ist, dass ein direkter Personenbezug hergestellt werden kann wenn also die eindeutigen Identikationsmerkmale gelöscht werden und die Daten zusätzlich in k -anonymer Form (siehe Kapitel 1.1.3) vorliegen (siehe auch Abbildung 1.2). 1.1.5 Pseudonymisierung Beim Pseudonymisieren werden die primären Identikationsmerkmale durch eine eindeutige Regel derart verändert, dass die Bestimmung der Person mittels dieser Attribute nicht mehr möglich ist. (So könnten zum Beispiel in Tabelle 1.1 die primären Identikationsmerkmale Name und Sozialversicherungsnummer durch eine fortlaufende Nummer ersetzt und die entsprechende Zuordnungstabelle (für Depseudonymisierungsmaÿnahmen) extra abgespeichert werden.) Da durch eine Zuordnungstabelle oder der inversen Rechenvorschrift wieder auf die Originaldaten geschlossen werden kann, wird die Pseudonymisierung zum Beispiel dann eingesetzt, wenn es auch im Interesse des Betroenen sein könnte, dass man später auf dessen Identität rückschlieÿen kann. So könnte sich z.B. bei einer Studie herausstellen, dass eine bestimmte Person an einer Krankheit leidet. Dank der Möglichkeit einer Depseudonymisierung wäre es dann möglich, den Betroenen über seine Situation zu informieren. Auÿerdem wird die Pseudonymisierung auch dann verwendet, wenn Daten einer Person an verschiedenen Stellen gespeichert sind und zusammengefügt werden sollen, ohne dass die Identität des Betroenen bekannt wird. Natürlich muss zu diesem Zweck an jeder Stelle die gleiche Pseudonymisierungsstrategie verwendet werden. Mögliche praktische Anwendungsbeispiele [9]: An verschiedenen Krankenhäusern werden Diabetespatienten mit unterschiedlichen Methoden und Medikamenten behandelt. Die dabei entstehenden medizinischen Daten werden unter Verwendung der Sozialversicherungsnummer des Patienten zur eindeutigen Identizierung an den verschiedenen Stellen ge- speichert. Zu einem späteren Zeitpunkt beschlieÿen Medizinstudenten die unterschiedlichen Behandlungsmethoden in Bezug auf den Erfolg miteinander zu vergleichen. Dazu müssen die Daten von den unterschiedlichen Stellen angefordert werden. Die entsprechenden Krankenhäuser dürfen die Daten, die in personenbezogener Form vorliegen, aber erst nach erfolgter Pseudonymisierung veröentlichen und weitergeben. 7 Kapitel 1. Einleitung Eine pharmazeutische Firma stellt ihren Kunden (verschiedene Krankenhäuser in unterschiedlichen Ländern) PCs mit entsprechenden Programmen zur Verfügung, die die Behandlung von Patienten mit einer speziellen Form von Epilepsie erleichtert. Die anfallenden Daten werden lokal gesammelt und einmal pro Monat zu einer zentralen Datenbank gesendet, wo sie von Spezialisten analysiert werden. Dabei werden lebensbedrohliche Komplikationen unter speziellen Bedingungen festgestellt. Um die Krankenhäuser und auch die Patienten, die betroen sein könnten, zu informieren, wird den behandelnden Ärzten die Möglichkeit gegeben, die Daten ihrer Patienten zu depseudonymisieren. Nach der Entwicklung einer neuen Operationstechnik senden Ärzte, die die neue Methode einsetzen, dabei anfallende medizinische Daten an eine gemeinsame Stelle, um die Behandlungsweise analysieren zu können. Um die Identität der Patienten zu schützen, erfolgt zuerst eine Pseudonymisierung der Daten. Dadurch ist es möglich, den gesamten Krankheitsverlauf eines Patienten (ohne Preisgabe seiner Identität) zu erhalten, auch wenn er an verschiedenen Stellen in Behandlung war und somit in verschiedenen Datenbanken vertreten ist. Da sich bei der Bewertung der gesammelten Daten herausstellt, dass ein Patient gewisse Risikofaktoren aufweist, wird der behandelnde Arzt informiert, der die Daten seines Patienten depseudonymisiert und entsprechende Maÿnahmen einleitet. Eine Verbrauchergruppe will den langfristigen nanziellen Aspekt, der durch die Benutzung von Sicherheitsgurten entsteht, evaluieren. Dazu werden pseudonymisierte Daten von Autounfällen, Zulassungsdaten, Akten von Krankenhäusern und Rehabilitationszentren zusammengeführt und ausgewertet. Um die Daten zusätzlich vor Missbrauch zu schützen, kann natürlich neben der Verschlüsselung der primären Identikationsmerkmale noch eine Umwandlung der Tabelle in eine k -anonyme Form (siehe Kapitel 1.1.3) stattnden (siehe auch Abbildung 1.2). (Der Begri Pseudonymisierung wird in diversen Artikeln sowohl für die reine Pseudonymisierung als auch für die eben erwähnte erweiterte Form der Pseudonymisierung verwendet.) 1.1.6 Indirekt personenbezogene Daten Der Begri indirekt personenbezogene Daten wird oft synonym für pseudonymisierte Daten verwendet und ndet häug in Gesetzestexten Gebrauch (z.B.: [10]). Da davon auszugehen ist, dass diese Gesetze einen besseren Schutz fordern als die normale Pseudonymisierung bieten kann, wird im Rahmen dieser Arbeit dieser Begri für Daten verwendet, die sowohl pseudonymisiert als auch 8 k -anonym sind. Kapitel 1. Einleitung Abbildung 1.2: UML-Aktivitätsdiagramm, das den Ablauf einer Anonymisierung bzw. Pseudonymisierung zusammenfassend darstellt 1.2 Gesetzliche Grundlagen In Österreich sind vor allem das Datenschutzgesetz 2000 (DSG 2000) [10] und die Richtlinie 95/46/EG des Europäischen Parlaments und des Rates vom 24. Oktober 1995 zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten und zum freien Datenverkehr [11] für den Datenschutz relevant. Auÿerdem ist auch das Gesundheitstelematikgesetz, welches Teil des Gesundheitsreformgesetzes 2005 [12] ist, für die Übertragung medizinischer Daten von Bedeutung. Da darin in erster Linie aber die Datensicherheit und nicht der Datenschutz angesprochen wird, wird hier auf dieses Gesetz nicht weiter eingegangen. 1.2.1 Verwendung von Daten 4 Z 8 DSG 2000 deniert das Verwenden von Daten als jede Art der Handhabung von Daten einer Datenanwendung, also sowohl das Verarbeiten ( 4 Z 9) als auch das Übermitteln ( 4 Z 12) von Daten. 4 Z 9 DSG 2000 deniert das Verarbeiten von Daten als das Ermitteln, Erfassen, Speichern, Aufbewahren, Ordnen, Vergleichen, Verändern, Verknüpfen, Vervielfältigen, Abfragen, Ausgeben, Benützen, Überlassen ( 4 Z 11), Sperren, Löschen, Vernichten oder jede andere Art der Handhabung von Daten einer Datenanwendung durch den Auftraggeber oder Dienstleister mit Ausnahme des Übermittelns ( 4 Z 12) von Daten. 4 Z 11 DSG 2000 deniert das Überlassen von Daten als die Weitergabe von Daten vom Auftraggeber an einen Dienstleister. 4 Z 12 DSG 2000 deniert das Übermitteln von Daten als die Weitergabe von Daten einer Datenanwendung an andere Empfänger als den Betroenen, den Auftraggeber oder einen Dienstleister, insbesondere auch das Veröentlichen solcher Daten; 9 Kapitel 1. Einleitung darüber hinaus auch die Verwendung von Daten für ein anderes Aufgabengebiet des Auftraggebers. Im 6 Abs. 1 DSG 2000 wird die grundsätzliche Verwendung von Daten geregelt: Daten dürfen nur 1. nach Treu und Glauben und auf rechtmäÿige Weise verwendet werden; 2. für festgelegte, eindeutige und rechtmäÿige Zwecke ermittelt und nicht in einer mit diesen Zwecken unvereinbaren Weise weiterverwendet werden; die Weiterverwendung für wissenschaftliche oder statistische Zwecke ist nach Maÿgabe der 46 und 47 zulässig; 3. soweit sie für den Zweck der Datenanwendung wesentlich sind, verwendet werden und über diesen Zweck nicht hinausgehen; 4. so verwendet werden, dass sie im Hinblick auf den Verwendungszweck im Ergebnis sachlich richtig und, wenn nötig, auf den neuesten Stand gebracht sind; 5. solange in personenbezogener Form aufbewahrt werden, als dies für die Erreichung der Zwecke, für die sie ermittelt wurden, erforderlich ist; eine längere Aufbewahrungsdauer kann sich aus besonderen gesetzlichen, insbesondere archivrechtlichen Vorschriften ergeben. Gemäÿ 46 Abs. 1 DSG 2000 darf der Auftraggeber einer Untersuchung für wissenschaftliche Forschung und Statistik, die keine personenbezogenen Ergebnisse zum Ziel hat, alle Daten verwenden, die 1. öentlich zugänglich sind oder 2. der Auftraggeber für andere Untersuchungen oder auch andere Zwecke zulässigerweise ermittelt hat oder 3. für den Auftraggeber nur indirekt personenbezogen sind. Laut 4 Z 1 DSG 2000 sind Daten dann nur indirekt personenbezogen, wenn für einen Auftraggeber, Dienstleister oder Empfänger einer Übermittlung der Personenbezug der Daten derart ist, dass dieser Auftraggeber, Dienstleister oder Übermittlungsempfänger die Identität des Betroenen mit rechtlich zulässigen Mitteln nicht bestimmen kann. Die Richtlinie 95/46/EG des Europäischen Parlaments (Erwägungsgrund 26) deniert indirekt personenbezogene Daten folgendermaÿen: Indirekt personenbezogene Daten liegen dann vor, wenn durch diverse Mittel oder Verfahren, die vernünftigerweise entweder von dem Verantwortlichen für die Verarbeitung oder von einem Dritten eingesetzt werden könnten, die Daten nicht einer bestimmten Person zugeordnet werden können. 10 Kapitel 1. Einleitung Hier stellt sich die Frage, was das Wort vernünftigerweise bedeutet und wie es ausgelegt werden kann. In unserer heutigen Informationsgesellschaft mit schnell wechselnden Technologien und Weiterentwicklungen kann natürlich das, was gestern noch unvernünftig und völlig ungewöhnlich war, morgen bereits zum Stand der Technik zählen. Aus derzeitiger Sicht kann wahrscheinlich davon ausgegangen werden, dass die alleinige Pseudonymisierung der Daten nicht ausreicht, um diese ausreichend zu schützen. Daher wird im Rahmen dieser Arbeit wie bereits in Kapitel 1.1.6 erwähnt wurde nur dann der Begri indirekt personenbezogene Daten verwendet, wenn die Daten zusätzlich k -anonymisiert wurden. Daten, die nicht öentlich zugänglich sind und nicht unter 46 Abs. 1 DSG 2000 fallen, dürfen laut 46 Abs. 2 DSG 2000 für Zwecke der wissenschaftlichen Forschung und Statistik nur 1. gemäÿ besonderen gesetzlichen Vorschriften oder 2. mit Zustimmung des Betroenen oder 3. mit Genehmigung der Datenschutzkommission gemäÿ Abs. 3 verwendet werden. Eine Genehmigung der Datenschutzkommission für die Verwendung von Daten für Zwecke der wissenschaftlichen Forschung oder Statistik ist nach 46 Abs. 3 DSG 2000 zu erteilen, wenn 1. die Einholung der Zustimmung der Betroenen mangels ihrer Erreichbarkeit unmöglich ist oder sonst einen unverhältnismäÿigen Aufwand bedeutet und 2. ein öentliches Interesse an der beantragten Verwendung besteht und 3. die fachliche Eignung des Antragstellers glaubhaft gemacht wird. 1.2.2 Übermittlung von Daten Nach 7 Abs. 2 DSG 2000 dürfen Daten nur übermittelt werden, wenn 1. sie aus einer zulässigen Datenanwendung stammen und 2. der Empfänger dem Übermittelnden seine ausreichende gesetzliche Zuständigkeit oder rechtliche Befugnis soweit diese nicht auÿer Zweifel steht in Hinblick auf den Übermittlungszweck glaubhaft gemacht hat und 3. durch Zweck und Inhalt der Übermittlung die schutzwürdigen Geheimhaltungsinteressen des Betroenen nicht verletzt werden. 11 Kapitel 1. Einleitung Schutzwürdige Geheimhaltungsinteressen werden bei der Verwendung sensibler Daten (besonders schutzwürdige Daten) unter anderem dann nicht verletzt, wenn die Daten in nur indirekt personenbezogener Form verwendet werden ( 9 Z 2 DSG 2000) oder wenn der Betroene seine Zustimmung zur Verwendung der Daten ausdrücklich erteilt hat, wobei ein Widerruf jederzeit möglich ist und die Unzulässigkeit der weiteren Verwendung der Daten bewirkt ( 9 Z 6 DSG 2000). 4 Z 2 DSG 2000 deniert sensible Daten als Daten natürlicher Personen über ihre rassische und ethnische Herkunft, politische Meinung, Gewerkschaftszugehörigkeit, religiöse oder philosophische Überzeugung, Gesundheit oder ihr Sexualleben. Auÿerdem muss laut 46 Abs. 3 DSG 2000 ein wichtiges öentliches Interesse an der Untersuchung vorliegen, wenn sensible Daten (zu denen medizinische Daten gehören) übermittelt werden. Weiters muss gewährleistet sein, dass die Daten beim Empfänger nur von Personen verwendet werden, die hinsichtlich des Gegenstandes der Untersuchung einer gesetzlichen Verschwiegenheitspicht unterliegen oder deren diesbezügliche Verlässlichkeit sonst glaubhaft ist. 1.3 Nationale Richtlinien bzw. Leitlinien 1.3.1 MAGDA-LENA MAGDA-LENA (Medizinisch-Administrativer Gesundheitsdatenaustausch Logisches und Elektronisches Netzwerk Austria) [13] [14] umfasst technische und organisatorische Rahmenbedingungen mit dem Ziel, ein österreichweites logisches Gesundheitsdatennetz zu entwickeln. Dabei wurde unter anderem groÿe Aufmerksamkeit auf Da- 7 tenschutz und Datensicherheit gelegt. MAGDA-LENA hat Leitlinien-Charakter und ist daher in Österreich im Gegensatz zu den in Kapitel 1.2 besprochenen Gesetzen rechtlich nicht verbindlich. Das Gesundheitstelematikgesetz, welches Teil des Gesundheitsreformgesetzes 2005 [12] ist und seit 1. Jänner 2005 in Österreich in Kraft getreten ist, basiert aber teilweise auf diesen MAGDA-LENA-Empfehlungen. Im heutigen Gesundheitswesen ist der (elektronische) Austausch von Patientendaten notwendig, um Patienten ezient, schnell und nach dem neuesten Stand der Medizin betreuen und behandeln zu können. So ist in Österreich wie auch in anderen Ländern die Menge an elektronisch übermittelten medizinischen Daten in den letzten Jahren stark angestiegen. Aufgrund der sehr heterogenen Kommunikationstechnologie und inkompatiblen Schnittstellen wird der Austausch zwischen den verschiedenen Gesundheitsdienstleistern erschwert. Deshalb wurde 1995 die STRING-Kommission 7 Leitlinien werden nicht von Gesetzgebungskörperschaften erlassen und stellen daher auch keine gesetzlichen Regelungen dar. 12 Kapitel 1. Einleitung (Standards und Richtlinien für den Informatikeinsatz im österreichischen Gesundheits- 8 wesen) [15] als beratendes Gremium für das Bundesministerium für soziale Sicherheit und Generationen gegründet, mit dem Ziel, in Österreich ein Gesundheitsnetzwerk aufzubauen. Dazu wurde von der STRING-Kommission die MAGDA-LENA-Leitlinie erarbeitet, welche derzeit in der Version 2.0 vorliegt, die auf einer früheren Version vom April 1998 basiert. Die MAGDA-LENA-Leitlinie behandelt sowohl die technischen als auch die organisatorischen Rahmenbedingungen, um eine kompatible, digitale und sichere Kommunikation zwischen Leistungsanbietern und Kostenträgern im österreichischen Gesundheitsund Sozialwesen unter Wahrung des Datenschutzes sicherzustellen. Dabei wird nicht auf eine komplett neue Infrastruktur gesetzt, sondern versucht, bestehende Netzwerke den Anforderungen entsprechend abzuändern und kompatibel zu machen. Folgende Bereiche werden in der MAGDA-LENA-Leitlinie (Version 2.0) behandelt, um die gesetzten Ziele zu erreichen: Denition, Grundsätze, allgemeine Ziele, Stellung des Patienten Allgemeine Inhalte, Modelle, Standards Identikationsvariable Datenschutz und Datensicherheit Netzbetreiber, Netzübergänge Da für diese Arbeit nur das Kapitel Datenschutz und Datensicherheit relevant ist, wird hier nur auf diesen Punkt eingegangen. Er enthält unter anderem Empfehlungen bezüglich Verschlüsselungsprotokolle, Verschlüsselungsalgorithmen, elektronische Signatur, Passwortsysteme usw. und fordert, dass sensible Daten wenn möglich in einer indirekt personenbezogenen Form (siehe Kapitel 1.1.6) für die Übermittlung vorliegen müssen. Es wird dabei auf die k -Anonymität (siehe Kapitel 1.1.3 und 2.4) eingegangen, die es ermöglicht, indirekt personenbezogene Daten zu erzeugen. 1.3.2 HIPAA In den USA ist im Jahr 1998 das nur für den medizinischen Bereich gültige Geset- 9 zeswerk Health Insurance Portability & Accountability Act (HIPAA) [4] in Kraft getreten. Die Richtlinie ist mit der MAGDA-LENA-Leitlinie vergleichbar, wenngleich letztere wie bereits erwähnt in Österreich keine verbindliche Vorschrift darstellt. Auch bei HIPAA ist es ein Hauptziel, die Eektivität und Ezienz des ganzen Gesundheitsapparates in den USA zu erhöhen und somit Kosten zu sparen. Ein weiteres 8 http://www.bmgf.gv.at/cms/site/detail.htm?thema=CH0015&doc=CMS1150277592081 9 http://www.hhs.gov/ocr/hipaa/ 13 Kapitel 1. Einleitung Ziel ist die Sicherstellung von Übertragbarkeit und Durchgängigkeit der Krankenversicherung der Arbeitnehmer, wenn diese den Job wechseln oder verlieren. Auÿerdem versucht HIPAA Betrug und Missbrauch im Gesundheitswesen zu verhindern und auch dem Patienten selbst mehr Rechte bezüglich seiner Krankenakte zu geben. So muss es dem Patienten stets möglich sein, seine medizinischen Daten einzusehen und falsche Angaben zu ändern. Patienten müssen darüber informiert werden, was mit ihren Daten gemacht wird und warum sie erhoben werden. Auÿerdem dürfen sensible Daten nicht ungefragt für Marketingzwecke verwendet werden. Folgende Punkte werden von diesem Gesetzeswerk umfasst: Elektronische Standards für die Übertragung von medizinischen Daten (Transaction Rule) Eindeutige Identizierung für Patienten, Ärzte, Versicherungen,... (Identier Rule) Datensicherheit (Security Rule) Datenschutz (Privacy Rule) Auch HIPAA ermutigt die betroenen Institutionen, wenn möglich nur indirekt personenbezogene Daten zu verwenden bzw. mit möglichst wenigen Daten auszukommen. Im Gegensatz zu MAGDA-LENA kommt hier aber nicht die k -Anonymität zum Ein- satz, um indirekt personenbezogene Daten zu erhalten, sondern es werden zwei andere Wege aufgezeigt, um sensible Daten angemessen zu schützen: Zum einen ist es ausreichend, wenn eine Person mit geeignetem statistischen Wissen feststellt, dass nur ein sehr geringes Risiko besteht, dass die vorhandenen Daten allein oder mit Hilfe anderer Daten benutzt werden können, um eine 10 Person eindeutig zu identizieren (164.514(b)(1)) [16]. Die andere Möglichkeit ist das Löschen von 18 explizit aufgelisteten Attributen wie Name, Telefonnummer, Faxnummer, Sozialversicherungsnummer, e-Mail Adresse,. . . . Auÿerdem darf für die Institution, die die Daten veröentlicht, kein Zweifel darin bestehen, dass diese Daten nicht ausreichen, um eine Person ein8 deutig zu identizieren (164.514(b)(2)) . 10 http://privacyruleandresearch.nih.gov/ 14 2 Anonymisierung und Pseudonymisierung medizinischer Daten 2.1 Modelle der Pseudonymisierung Wie bereits erwähnt und auch in Kapiteln 2.3 noch zu lesen sein wird, schützen pseudonymisierte Daten nicht wirklich vor Missbrauch, da es in Ermangelung einer zusätzlichen k -Anonymisierung noch immer möglich ist, Personen eindeutig zu identizieren. Darüber hinaus kann es passieren, dass das Verfahren der Pseudonymisierung selbst schlecht gewählt wurde und dadurch die Daten zusätzlich gefährdet sind. Daher wird hier kurz auf zwei Modelle der Pseudonymisierung mit ihren Vor- und Nachteilen eingegangen (für weiterführende Informationen siehe [8]). Generell kann man zwischen einem einstugen und einem zweistugen Pseudonymisierungsprozess unterscheiden. Diese Einteilung hängt von der Anzahl der Pseudonymisierungsschritte an verschiedenen Stellen ab (mehrmalige Pseudonymisierung an ein und derselben Stelle bringt keine höhere Sicherheit und wird deshalb auch nur als eine Stufe gewertet). Die zusätzliche Pseudonymisierung auÿerhalb der Datenquellen wird von Vertrauensstellen übernommen. Dies sind unabhängige Institutionen, die die Aufgabe haben, den Datenuss zu pseudonymisieren, zu anonymisieren bzw. zu aggregieren. Sie haben aber nicht das Recht, auf die Nutzdaten zuzugreifen. Das im Folgenden vorgestellte Verfahren (Abbildung 2.1) ist ein einstuger Pseudonymisierungsprozess, wobei jede einzelne Datenquelle für jede Person ein eindeutiges Pseudonym erzeugt und dieses dann gemeinsam mit den unverschlüsselten Nutzdaten an die Sammelstelle übermittelt. Alle Datenquellen verwenden dabei den gleichen Schlüssel und das gleiche Verfahren. Dadurch ist die Datenzusammenführung in der Datensammelstelle möglich, ohne dass die Sammelstelle Kenntnis der personenbezogenen Daten hat. Dieses Modell bringt folgende Vor- bzw. Nachteile mit sich: + Geringer organisatorischer Aufwand, da der Aufbau einer Vertrauensstelle nicht nötig ist. 15 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Abbildung 2.1: Modell 1 Pseudonymisierung durch Datenquellen [8] + Die Personendaten sind auÿerhalb der Datenquelle nicht bekannt. + Datensammelstelle erhält keine personenbezogenen Daten. - Die Datenquellen könnten die zusammengeführten Daten auswerten und auf den personenbezogenen Inhalt schlieÿen. - Da jede Datenquelle extra pseudonymisiert und somit jede Stelle über den identischen Schlüssel verfügen muss, ist die Gefahr gröÿer, dass der Schlüssel der Öentlichkeit bekannt wird und somit das Verfahren korrumpiert wird. - Der Datensammelstelle ist die Datenquelle der Daten bekannt, und unter Umständen sind so Rückschlüsse auf die Personendaten möglich. - Hoher administrativer Aufwand, da an jeder Stelle pseudonymisiert wird. Dieses einstuge Modell ist aufgrund der erwähnten Probleme nicht empfehlenswert und für die Praxis ungeeignet. 16 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Das folgende Modell (Abbildung 2.2) führt aufgrund eines zusätzlichen Pseudonymisierungsschrittes und einer Vertrauensstelle zu besseren Ergebnissen. Dabei geben die Datenquellen die verschlüsselten Nutzdaten und die unverschlüsselten Personendaten an die Vertrauensstelle weiter. Diese pseudonymisiert die Personendaten und überliefert die Daten an die Datensammelstelle. Dort werden die Daten abermals pseudonymisiert und die Nutzdaten entschlüsselt. Dieses zweistuge Modell bringt folgende Vor- bzw. Nachteile mit sich: + Die Datensammelstelle erhält keine personenbezogenen Daten. + Aufgrund der zentralen Pseudonymisierung ist ein Bekanntwerden des Schlüssels unwahrscheinlich. + Der Datensammelstelle ist die Datenquelle nicht bekannt. + Durch die zentrale Pseudonymisierung ist der administrative Aufwand geringer. + Mehr Sicherheit wird durch das zweistuge Verfahren geboten. - Auch auÿerhalb der Datenquelle sind Personendaten bekannt. - Hoher organisatorischer Aufwand aufgrund des Aufbaus einer Vertrauensstelle. Dieses Verfahren eignet sich für die Praxis besser und ist ein guter Kompromiss zwischen Datensicherheit und zusätzlich anfallenden Kosten aufgrund erhöhtem organisatorischen Aufwand. Die beiden soeben vorgestellten Verfahren waren Beispiele für zentrale Datenhaltung. Für weitere Modelle dazu oder Beispiele für dezentrale Datenhaltung kann auf [8] verwiesen werden. 2.2 Angris- und Bedrohungsszenarien Um besser gegen Attacken geschützt zu sein, ist es wichtig, über potentielle Angreifer und ihre Ziele bzw. Interessen informiert zu sein. Diese können sehr unterschiedlich sein und zielen nicht immer auf die vollständige Reidentizierung der Datensätze an [9]: (Totale) Reidentikation der Datenbank Wiederherstellung von Informationen (partielle Reidentikation) Ist eine spezielle Person in der Datenbank gelistet? Ist eine spezielle Person in der Datenbank nicht vorhanden? 17 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Abbildung 2.2: Modell 2 Pseudonymisierung durch Vertrauensstelle und Datensammelstelle [8] 18 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Auÿerdem sollte man sich im Klaren sein, von wem Gefahr droht und wie stark die Daten dementsprechend geschützt werden müssen. Welche Mittel (zeitlich und nanziell) stehen einem potentiellen Angreifer zur Verfügung? Wie wichtig sind die geschützten Daten? Hat man es mit Eindringlingen zu tun, die nur zum Spaÿ an sensible Daten kommen wollen oder muss man sich vor professionellen Angreifern schützen, die über beinahe unbegrenzte Ressourcen verfügen? Eine Analogie in der Welt der Kryptographie: Im Bereich E-Commerce werden Daten standardmäÿig mit weniger komplexen Verfahren verschlüsselt als z.B. im militärischen Bereich. Denn privat droht die Gefahr im Allgemeinen von Amateurhackern mit beschränkten nanziellen und zeitlichen Mitteln, wohingegen Militärdaten nicht nur Ziel privater Angrie sind, sondern aufgrund der enthaltenen unbezahlbaren Informationen auch ein Ziel feindlicher Organisationen oder ganzer Länder mit entsprechender Ausrüstung sein können. 2.3 Risiko der Reidentizierung durch Verknüpfung von Daten In [17] berichtet L. Sweeny von den Resultaten seiner Studie mit US-Zensusdaten, die zum Ziel hatte herauszunden, wie viele Personen innerhalb eines Gebietes spezielle Kombinationen von demographischen Daten aufweisen, die die Person einzigartig machen: 87% (216 Millionen von 248 Millionen) der US Bevölkerung sind nur durch Geschlecht, Geburtsdatum und 5-stelliger Postleitzahl (vergleichbar mit der 4stelligen PLZ in Österreich) eindeutig zu identizieren. Selbst wenn man den Ort auf ganze Städte ausdehnt, weisen immer noch mehr als die Hälfte (53%) der Bevölkerung einzigartige Kombinationen der drei Attribute auf. Beispiel: Reidentizierung durch Verknüpfung [18]: In Amerika sammeln 17 Staaten medizinische Daten von diversen Gesundheitseinrichtungen wie Spitälern, praktischen Ärzten,... Der linke Kreis von Figur 2.3 beinhaltet einen Teil der Attribute, die dabei gespeichert werden (empfohlen von der National Association of Health Data Organizations (NAHDO)). In Massachusetts sammelte die Group Insurance Commission (GIC) die Gesundheitsdaten von tausenden von Staatsangestellten und ihren Familien mit hunderten Attributen pro Eintrag. Da man davon ausging, dass diese Daten ohne primäre Identikationsmerkmale anonym sind, wurde eine Kopie der Daten an Forschungsstellen weitergegeben und eine Kopie davon sogar an die Industrie verkauft. Mit einem Wählerverzeichnis von Cambridge Massachusetts, das man bereits für 20 Dollar erwerben kann [18], ist es möglich, die medizinischen Daten mit den Daten aus der Wählerliste zu verknüpfen. Im rechten Kreis der Figur 2.3 sind die Attribute ersichtlich, die normalerweise in einem Wählerverzeichnis vorhanden sind. Man kann erkennen, dass es in der Mitte einen Bereich gibt, wo beide Kreise überlappen. Wenn 19 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten jetzt ein Eintrag aus dem linken Kreis bei diesen Attributen eine einzigartige Kombination aufweist (was nicht gerade sehr ungewöhnlich ist, wie bereits weiter oben erwähnt wurde), so kann dieser Eintrag und somit auch die Diagnose und andere sensible Details eindeutig mit einem Namen und einer Adresse verknüpft werden. So war es für L. Sweeny ohne Probleme möglich, den zu dieser Zeit amtierenden Gouverneur von Massachusetts, William Weld, in der veröentlichten Gesundheitsakte ausndig zu machen und an seine sensiblen Daten zu kommen. Aus dem Wählerverzeichnis in dem sich natürlich auch die Daten von W. Weld befanden ging nämlich hervor, dass es darin nur sechs Personen gab, die am gleichen Tag Geburtstag hatten; nur drei davon waren Männer und nur eine Person hatte auch die gleiche 5-stellige PLZ. Abbildung 2.3: Verknüpfung von Daten [18] Leider werden medizinische Daten immer wieder für illegale Zwecke benützt wie man auch an den folgenden zwei Beispielen sehen kann [19]. Durch schlampige Anonymisierungsmethoden wird dieser Missbrauch noch erheblich vereinfacht. 1995 verglich in Maryland ein Bankier seine Kunden, die noch ausstehende Bankdarlehen hatten, mit einem an Krebs erkrankten Patientenregister. Daraufhin wurde von den krebskranken Kunden das Darlehen sofort eingefordert. Bei einer Befragung von 87 der gröÿten Firmen der USA mit insgesamt mehr als 3,2 Millionen Angestellten gaben 35% zu, dass sie für Entscheidungen über ihre Mitarbeiter auch medizinische Akten verwenden. Natürlich sollte beachtet werden, dass die Daten, die für die Verknüpfung genutzt werden, nicht unbedingt aus Datenbanken stammen müssen, sondern auch durch Be- 20 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten obachtungen oder dem social engineering von Personen zusammengetragen werden können. In [9] ist ein Beispiel zu nden, das den Mechanismus eines Angris durch Verknüpfung von Daten anschaulich erklärt: Abbildung 2.4: Reidentizierung durch Verknüpfung [9] Abbildung 2.4 zeigt zwei Tabellen mit je drei Datensätzen. Die rechte Tabelle stellt eine pseudonymisierte Tabelle mit vier Attributen dar, die die Werte A oder B annehmen können. Der Eintrag ? steht für eine fehlende Beobachtung. Der Angreifer weiÿ, welche Personen sich in dieser Tabelle benden und interessiert sich für die für ihn nicht beobachtbaren Attribute Var 3 und Var 4 . Aufgrund von Beobachtungen kann er die linke Tabelle mit zwei der vier Attributen erstellen und versucht nun durch Verbindung der Daten die Identität der pseudonymisierten Personen zu lüften. Ein simpler Verknüpfungsalgorithmus liefert folgendes Resultat (Abbildung 2.5): ID kann korrespondieren Pseudo-ID mit. . . Alice Bob Claire kann korrespondieren mit. . . ID 2, ID 3 ID 1 Bob, Claire ID 1, ID 2, ID 3 ID 2 Alice, Bob ID 1 ID 3 Alice, Bob Abbildung 2.5: Resultat des Verknüpfungsalgorithmus [9] Da Claire nur mit einem einzigen Datensatz (ID 1) korrespondiert, kann die Abbildung 2.5 dementsprechend aktualisiert werden, und es ergibt sich schlieÿlich Abb. 2.6. Der Angreifer hat nun diesen einen Datensatz eindeutig identiziert und weiÿ nun über die beiden Attribute Var 3 und Var 4 von Claire Bescheid. Der Angreifer kann die zwei verbliebenen Datensätze (Abb. 2.6) nicht eindeutig den Namen Alice bzw. Bob zuordnen. Da aber bei beiden Datensätzen die Ausprägung des dritten Attributs übereinstimmt, kann der Angreifer daraus doch noch Informationen gewinnen nur der Wert von Var 4 bleibt ihm für Alice und Bob verschlossen. Wenn das 21 Kapitel 2. ID Anonymisierung und Pseudonymisierung medizinischer Daten kann korrespondieren Pseudo-ID mit. . . kann korrespondieren mit. . . Alice ID 2, ID 3 ID 2 Alice, Bob Bob ID 2, ID 3 ID 3 Alice, Bob Abbildung 2.6: Aktualisiertes Resultat des Verknüpfungsalgorithmus [9] Ziel des Angreifers eine vollständige Reidentikation der pseudonymisierten Tabelle war, so schlug dieser Angri fehl wenn er jedoch nur an den Werten von Var 3 interessiert war, so war diese Attacke ein voller Erfolg. Wie bereits weiter oben erwähnt wurde, ist neben der Reidentikation einzelner Datensätze auch die Beantwortung der Frage, ob eine bestimmte Person in einer Datenbank enthalten ist, ein mögliches Ziel von Angrien. Man denke hier an Patientenregister, die nur Patienten mit bestimmten Krankheiten enthalten (Krebs, AIDS,. . . ). Die Erkenntnis, dass die gesuchte Person ein Mitglied der entsprechenden Tabelle ist, kann bereits fatale Folgen für die betroene Person haben. Die Nicht-Mitgliedschaft einer Person in einer Tabelle kann relativ leicht festgestellt werden: Kommt die Attributkombination des vermuteten Mitglieds in der Datenbank nicht vor, so ist diese Person darin nicht enthalten. Der gegenteilige Fall kann zu gröÿeren Problemen führen, wie auch Abbildung 2.7 zeigt: Der Angreifer will feststellen, ob Claire von der ihm zwei Attribute bekannt sind Mitglied der pseudonymisierten Tabelle ist. Der Datensatz könnte mit dem ersten Tupel der rechten Tabelle übereinstimmen aber natürlich ist das kein Beweis dafür, dass diese Vermutung auch tatsächlich der Realität entspricht. Erst wenn mehrere Attribute übereinstimmen, kann man mit einer hohen Wahrscheinlichkeit davon ausgehen, dass sich die Person tatsächlich in der Tabelle bendet. In diesem Beispiel gehört der erste Datensatz der pseudonymisierten Tabelle zu Dave, und Claire, die durch Zufall übereinstimmende Attributkombinationen mit Dave aufweist, ist nicht in der Datenbank vertreten. 2.4 k -Anonymität Um das zuvor angesprochene Problem der unzureichenden Anonymisierung und Pseudonymisierung zu lösen, ist es notwendig, die Daten so abzuändern, dass die Tabelle die Anforderung der k -Anonymität erfüllt (siehe auch Kapitel 1.1.3). Denn so ist es durch Verknüpfung der medizinischen Daten und Daten aus z.B. Wählerlisten nicht möglich, einen eindeutigen Personenbezug herzustellen zumindest k Personen haben die gleiche Kombination von sekundären Identikationsmerkmalen und sind daher nicht voneinander unterscheidbar. 22 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Abbildung 2.7: Mitgliedschaft in einem anonymisierten Datenbestand [9] Folgende Möglichkeiten bieten sich an, die gegebenen Daten abzuändern: Generalisierung: Dabei wird der Wert eines Attributs durch einen weniger spezischen Inhalt ersetzt. So wird zum Beispiel das genaue Geburtsdatum durch das Geburtsjahr ersetzt. Wenn dadurch noch nicht das gewünschte Ziel erreicht wurde, so wird der Wert einfach weiter generalisiert, indem z.B. mehrere Jahre zu einer Gruppe zusammengefasst werden, damit zumindest k Personen in diesem Bereich liegen (siehe auch Tabelle 1.3). Unterdrückung (Löschen) einzelner Zellen bzw. auch ganzer Zeilen oder Spalten: Statt den Werten wird dann ein Platzhaltersymbol verwendet (z.B. *) siehe auch Tabelle 1.3 beim Attribut Geschlecht. Die Unterdrückung kann auch als Spezialfall der Generalisierung angesehen werden, bei der so weit wie möglich verallgemeinert wird. Neben der Generalisierung und Unterdrückung gibt es z.B. die Möglichkeit, die Daten durch Hinzufügen von Rauschen oder durch Vertauschen der Werte [20] zu verändern. Dabei werden zufällige Werte den Daten hinzugefügt bzw. einzelne Zeilen, Spalten und auch Zelleninhalte untereinander vertauscht, damit nicht mehr auf den ursprünglichen Zustand der Tabelle und somit auch nicht auf die darin enthaltenen Personen geschlossen werden kann. Doch durch solch tiefe Eingrie sind diese Daten im Allgemeinen nicht mehr für weitere wissenschaftliche Auswertungen zu gebrauchen. Daher wird in der Regel auf die Kombination von Generalisierung und Unterdrückung zurückgegrien, die zwar den Informationsgehalt etwas reduzieren, aber nichts an der Bedeutung der Daten ändern. In [21] verwendet L. Sweeny den Begri Domäne, der oft in Verbindung mit relationalen Datenbanken gebraucht wird und dabei für die möglichen Werte eines Attributs steht, auch in Zusammenhang mit Generalisierung und Unterdrückung, um diese 23 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Prozesse leichter beschreibbar zu machen. Jedes Attribut in der Originaltabelle kann sämtliche Werte der Grunddomäne des Attributs annehmen (z.B. Tabelle 1.1: Wert des Attributs PLZ ∈ P0 = {1010, 1011, 1070, 1110}. Um einen weniger kann ein mapping von Domäne P0 auf Domäne P1 Grunddomäne spezischen Wert zu bekommen, erfolgen. Dabei wird die letzte Zier durch das Zeichen * ersetzt, das für jede beliebige Zier stehen kann und somit den Wert deutlich verallgemeinert. Die Generalisierungsbeziehung zwischen zwei Domänen wird mit dem Operator gekennzeichnet. Der Ausdruck lisierung der Domäne Di Di <D Dj bedeutet, dass die Domäne darstellt. Somit kann durch den Operator Dj <D <D eine Generadie Ordnung der Domänen ausgedrückt werden. Daraus ergibt sich die domain generalization hier- archy DGHA : Sie ist deniert als eine Menge von Domänen, vollständig geordnet durch die Beziehung <D . (Für ein Beispiel siehe linke Grak der Abbildungen 2.8 und 2.9). Entsprechend der V GHA DGHA gibt es auch eine value generalization hierarchy (rechte Grak der Abbildungen 2.8 und 2.9). Abbildung 2.8: domain generalization hierarchy und value generalization hierarchy der PLZ-Domäne [21] Abbildung 2.9: domain generalization hierarchy und value generalization hierarchy der Geschlecht-Domäne [21] 24 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten 2.4.1 k-minimale Generalisierung M/W PLZ M/W PLZ M/W PLZ M/W PLZ M/W PLZ G0 P0 G1 P0 G1 P1 G0 P2 G0 P1 M 1070 Person 1070 Person 107* M 10** M 107* M 1010 Person 1010 Person 101* M 10** M 101* M 1011 Person 1011 Person 101* M 10** M 101* M 1070 Person 1070 Person 107* M 10** M 107* W 1110 Person 1110 Person 111* W 11** W 111* W 1110 Person 1110 Person 111* W 11** W 111* W 1010 Person 1010 Person 101* W 10** W 101* W 1011 Person 1011 Person 101* W 10** W 101* PT GT[1,0] GT[1,1] GT[0,2] GT[0,1] Abbildung 2.10: Verschiedene, zumindest 2-anonyme Generalisierungen der Tabelle PT [21] Abbildung 2.10 [21] zeigt die Tabelle PT und vier verschiedene Generalisierungen auf Attributebene (nicht einzelne Zelleninhalte werden verändert, sondern die Werte einer ganzen Spalte werden generalisiert), die alle zumindest 2-anonym sind. Bei gegebener DGHi Ai , i : 1, . . . , n; T (A1 , . . . , An ) für die Attribute Attributebene für Tabelle n Y gibt es bei Generalisierung auf (|DGHi | + 1) i=1 Möglichkeiten. Bei Generalisierung auf Zellenebene (nicht ganze Spalten werden verändert, sondern nur einzelne Zelleninhalte) gibt es eine entsprechend gröÿere Anzahl an Möglichkeiten (wobei |P T | gleich der Anzahl der Tupel der Tabelle n Y PT ist): (|DGHi | + 1)|P T | i=1 Natürlich sind nicht alle Generalisierungen gleich zufriedenstellend viele von ihnen verallgemeinern die Werte zu stark, obwohl die angestrebte k -Anonymität bereits erreicht wurde. Tl (Ai , . . . , An ) und Tm (Ai , . . . , An ), wobei Tm ist dann k -minimal, wenn sie die Bedingung der k -Anonymität erfüllt und es keine weiteren k -anonymen Generalisationen von Tl gibt, die nach weiteren Generalisierungsschritten die Tabelle Tm ergeben Denition: Gegeben seien die Tabellen Tm eine Generalisierung der Tabelle Tl darstellt. würden [21]. 25 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Abbildung 2.10 zeigt zwei 2-minimale Abwandlungen der Tabelle GT[1,0] . PT GT[0,1] und Die beiden anderen Tabellen generalisieren mehr als notwendig ist. Sie sind selbst Generalisierungen von den beiden anderen Tabellen und daher nicht k -minimal. 2.4.2 Minimale Veränderung und Metriken Wenn es mehrere k -minimale Generalisierungen einer Tabelle gibt wie auch im voran- gegangenen Beispiel so kann man durch Berechnung bestimmter Metriken die beste Lösung herausnden. Dabei versucht man den Informationsverlust, der zwangsläug bei der Veränderung einer Tabelle entsteht, zu berechnen und gibt dann der Generalisierung den Vorzug, die die nützlichsten Daten produziert. Präzisionsmetrik Bei dieser Metrik (Precision Metric Prec) [21] gibt das Verhältnis zwischen der Generalisierungsstufe einer Zelle (h) und den möglichen Generalisierungsstufen den Grad der Veränderung an. Die Präzision der Tabelle ist dann eins minus der Summe der Veränderungen, normalisiert durch die Gesamtanzahl an Zellen. P T (A1 , . . . , AN a ), und DGHA sei die domain generalization hierarchy der Attribute A; Tabelle RT (A1 , . . . , AN a ) sei eine Generalisierung der Tabelle P T . Die Präzision der Tabelle RT geschrieben P rec (RT ) berechnet sich folgendermaÿen (wobei N für die Anzahl der Tupel der Tabelle P T Denition: Gegeben sei die Tabelle steht): PNA PN P rec (RT ) = 1 − i=1 h j=1 |DGHAi | |P T | · |NA | Beispiel: Wenn P T = RT , so ist jeder Wert in der Grunddomäne (h = 0) und P rec(RT ) = 1. Wenn jeder Wert in der höchsten Generalisierungsstufe ist, so ist jedes h = |DGHAi | und P rec(RT ) = 0. Tabelle GT[1,0] der Abbildung 2.10 unter Verwendung der Generalisierungshierarchien 2.8 und 2.9 liefert den Wert P rec(GT[1,0] ) = 0, 75. Damit ist der Wert für diese Tabelle erwartungsgemäÿ höher (besser) als für die Tabellen GT[1,1] und GT[0,2] (P rec(GT[1,1] ) = 0, 58; P rec(GT[0,2] ) = 0, 67). Die Tabelle mit der höchsten Präzision ist aber GT[1,0] mit P rec(GT[0,1] ) = 0, 83. Der Grund dafür ist |DGHGeschlecht | = 2 und |DGHP LZ | = 3 eine Generalisierung eines Attributs mit nur wenigen Generalisierungsschritten wirkt sich negativer auf den Informationsgehalt aus. 26 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Unterscheidbarkeitsmetrik Da bei der Umwandlung einer Tabelle in eine k -anonyme Form viele Tupel auf die gleichen Werte reduziert bzw. generalisiert werden, versucht diese Metrik (Discernibility Metric DM) [22] zu berechnen, wie viele verschiedene Werte pro Tupel bzw. Attribut nach der Umwandlung noch erhalten geblieben sind. Dabei wird jedes Tupel mit Strafpunkten versehen, wenn es von anderen Tupeln nicht mehr unterscheidbar ist und zwar im Ausmaÿ der Anzahl der identischen Datensätze. Fällt also ein Tupel in eine Äquivalenzklasse (Menge von identischen Tupeln) der Gröÿe eine Strafe der Gröÿe j j, so wird ihm zugeordnet (berechnet durch die erste Summe der folgenden Formel). Wird ein Datensatz ganz entfernt also unterdrückt so wird ihm eine Strafe der Gröÿe der Gesamtanzahl der Tupel in der Originaltabelle angehängt, da dieses unterdrückte Tupel nicht mehr von den anderen unterscheidbar ist (berechnet durch die zweite Summe der folgenden Formel). Denition: Gegeben sei die Tabelle PT, und Tabelle RT sei eine Generalisierung P T . |E| bezeichnet die Gröÿe der Äquivalenzklasse, in der sich ein pel bendet, und |P T | steht für die Anzahl der Tupel der Originaltabelle P T . Discernibility Metric der Tabelle RT kann folgendermaÿen berechnet werden: der Tabelle TuDie X X |E| |P T | E 2 + CDM (RT ) = ∀|E|<k ∀|E|≥k Durchschnittliche, normalisierte Äquivalenzklassengröÿenmetrik Auch diese Metrik (Normalized Average Equivalence Class Size Metric) [23] berechnet die Qualität der Generalisierung aufgrund der Gröÿe der Äquivalenzklassen (Menge von identischen Tupeln), ist aber leichter und schneller zu berechnen als die Discernibility Metric. P T (A1 , . . . , AN a ) mit der Anzahl an Tupel |P T |; P T . Die Normalized Metric der Tabelle RT geschrieben CAV G (RT ) Denition: Gegeben sei die Tabelle Tabelle RT (A1 , . . . , AN a ) sei eine Generalisierung der Tabelle Average Equivalence Class Size wird wie folgt berechnet: ! CAV G (RT ) = |P T | / (k) Anzahl der Äquivalenzklassen 2.4.3 Laufzeitverhalten Die Umformung einer Tabelle mit personenbezogenen Daten in eine k -anonyme Form ist eine sehr rechenintensive Aufgabe. A. Meyerson und R. Williams zeigen in [24] und 27 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten [25], dass die optimale Lösung dieses Problems NP-schwer 1 ist. k -Anonymisierung durch das Löschen ganzer Attribute: Gegeben sei eine Tabelle T und eine nichtnegative Zahl L. Existiert eine Generalisierung/UnterdrückungsFunktion g , damit g(T ) k -anonym ist und höchstens L Attribute unterdrückt werden? Theorem 1: Für k > 2 ist die k -Anonymisierung durch das Löschen ganzer Attribute NP-schwer, wenn die Anzahl der möglichen Werte, die ein Attribut annehmen kann, ≥2 ist. Der Beweis kann in [24] nachgelesen werden und ist angelehnt an ein anderes NP-schweres Problem dem k -dimensional perfect matching problem. k -Anonymisierung durch das Löschen einzelner Zellen: Dieser Ansatz ist weniger restriktiv und praxisnäher, denn er erlaubt das Verändern der Inhalte auf Zellenebene. Theorem 2: Für k>2 ist die k -Anonymisierung durch das Löschen einzelner Zellen NP-schwer, wenn die Anzahl der möglichen Werte, die ein Attribut annehmen kann, gröÿer gleich der Anzahl der Tupel n ist. Auch dieser Beweis ist eine Abwandlung des k -dimensional perfect matching problem und nachzulesen in [24]. 2.4.4 Brauchbarkeit k-anonymer Daten Da bei der k -Anonymisierung Daten verändert werden und dadurch zwangsläug der Informationsgehalt sinkt, stellt sich natürlich die Frage, in welchem Maÿe die so gewonnene Tabelle überhaupt noch nützlich ist und ob sie sich noch für wissenschaftliche Schlussfolgerungen und Vorhersagemodelle eignet. Leider gibt es zu diesem interessanten Thema wenig Literatur erste Forschungen in diese Richtung stammen von S. Dreiseitl, S. Vinterbo und L. Ohno-Machado [26]. Hier wurden die Auswirkungen der k -Anonymisierung (durch Unterdrückung auf Zellenebene) auf schlieÿende Statis- tik und Vorhersagemodelle untersucht. Um die Hypothese zu beweisen, dass sich auch k -anonymisierte Daten für wissenschaftliche Arbeiten eignen, kam folgende Versuchs- anordnung zum Einsatz: Als Training Sample wurde ein Datensatz von 250 Patienten alle mit Verdacht auf Herzinfarkt verwendet. Als Test Set kamen 700 Fälle eines anderen Krankenhauses zum Einsatz. Dieser Datenpool wurde ausgewählt, weil er schon zuvor bei anderen Studien verwendet wurde und für die Aufgabenstellung geeignet war. Das Training Set wurde mittels Unterdrückung auf Zellenebene in k -anonyme Daten (2 ≤ k ≤ 150) umgewandelt. Mit diesen Daten wurde pro Anonymisierungsstufe eine Regressionsfunktion konstruiert Daten, die durch die Anonymisierung verloren gingen, wurden durch den Mittelwert der vorhandenen Daten ersetzt. Mittels des Test Sets wurde dann die Aussagekraft dieser Funktionen (Herzinfarkt ja/nein) getestet und die Klas- 1 Dieser Begri aus der Komplexitätstheorie bezeichnet Probleme, die besonders aufwändig zu berechnen sind. 28 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Abbildung 2.11: Fläche unter der ROC-Kurve (AUC) in Abhängigkeit vom Grad der k -Anonymität [26] sikationsergebnisse durch ROC-Kurven 2 bewertet. Die Abbildungen 2.11 und 2.12 zeigen die dabei gewonnenen Ergebnisse. 2.11 listet die Resultate der Fläche unter der ROC-Kurve in Abhängigkeit vom Grad der auf. Es fällt auf, dass bereits bei k -Werten k -Anonymität in tabellarischer Form ab 2 die Vorhersagekraft (= Fläche unter der ROC-Kurve) deutlich nachlässt. In Anbetracht der 1158 gelöschten Zellen und der sinkenden Zahl an verwertbaren Datensätzen (N ) ist dies aber auch nicht weiter verwunderlich. Interessant ist aber, dass die Aussagekraft von k =2 bis k = 20 relativ konstant bleibt. Erst dann tritt eine deutlich sichtbare Verschlechterung ein, wie auch in Abbildung 2.12 zu sehen ist. In [26] wird aber eingeräumt, dass diese 2 Um die Aussagekraft eines Tests (z.B. Labortest, der gesunde von kranken Patienten unterscheidet) zu ermitteln, können statistische Tests durchgeführt werden. Ein Diagramm, das die Ergebnisse und somit die Klassikatorgüte grasch darstellt, ist die ROC-Kurve (Receiver Operating Characteristic Curve). Durch Berechnung der Fläche unter der ROC-Kurve (AUC) ergibt sich der genaue Klassikationswert (z.B.: AU C = 0, 5: zufällige Klassikation; AU C = 1: fehlerfreie Klassikation). 29 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Abbildung 2.12: Grasche Darstellung der Fläche unter der ROC-Kurve (y-Achse), in Abhängigkeit vom Grad der k -Anonymität Werte auch durchaus besser sein könnten, wenn für die (x-Achse) [26] k -Anonymisierung bessere und leistungsfähigere Algorithmen verwendet worden wären. Auÿerdem wären auch andere Regressionsfunktionen oder Methoden wie Neuronale Netze denkbar gewesen, die auch mit fehlenden Werten in den Datensätzen Ergebnisse liefern hätten können. Sicherlich gibt es auf diesem Gebiet noch Forschungsbedarf und einige oene Fragen. Man kann trotzdem davon ausgehen, dass sich k -anonymisierte Daten trotz geringerem Informationsgehalt dennoch für wissenschaftliche Forschung eignen. Die Wahl der richtigen Anonymisierungsstufe (k ) ist hierbei natürlich ausschlaggebend und darf nicht zu hoch ausfallen. Wie das vorangegangene Beispiel aber gezeigt hat, kann auch ein k zwischen 10 und 20, das somit einen guten Schutz der veröentlichten Daten darstellt, noch immer durchaus brauchbare Resultate liefern. 2.4.5 Angrie gegen k-anonyme Daten Trotz Bestimmung der richtigen sekundären Identikationsmerkmale, Wahl eines ausreichenden Wertes für k und eines passenden k -Anonymisierungsalgorithmus, können die so erhaltenen Daten noch immer anfällig für diverse Attacken sein. Dieses Kapitel versucht einen Überblick über die Gefahren zu geben, aber auch mögliche Lösungsmöglichkeiten dafür aufzuzeigen. 30 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Auösen der Mehrdeutigkeit k-anonymer Daten Für folgende Überlegungen [27] dienen Tabellen als Grundlage, die (nur) mittels Unterdrückung von Zelleninhalten in k -anonyme Form gebracht wurden. So wie auch Tabelle 2.1, die trotz ihres geringen Umfangs für erste Überlegungen ausreichend ist. Bereits auf den ersten Blick kann man erkennen, dass der fehlende Eintrag hier nur W Wert M den Wert gehabt haben kann: Wenn das Geschlecht schon vor der Anonymisierung den gehabt hätte, so wäre keine Unterdrückung notwendig gewesen und da die Domäne des Attributs M/W nur zwei Möglichkeiten zulässt, ist es nicht weiter schwierig, auf den Originalwert nämlich W zu schlieÿen. Alter M/W PLZ med. Diagnose 2030 M 1010 1 2030 * 1010 0 Tabelle 2.1: 2-anonyme Tabelle durch Unterdrückung von Zelleninhalten [27] Dieses Prinzip kann natürlich auch auf gröÿere Tabellen mit mehreren unterdrückten Zellen und Domänen von Attributen mit mehr als zwei möglichen Werten übertragen werden. Wichtig ist aber die Kenntnis über den verwendeten Algorithmus zur Anonymisierung der Daten. Mit diesem Wissen kann dann ein entsprechender Algorithmus entworfen werden, der versucht, die Anonymisierung rückgängig zu machen: 1. Es wird festgestellt, welche Werte die einzelnen Attribute annehmen können. (Die Domänen der entsprechenden Attribute werden ermittelt.) 2. Die unterdrückten Zelleninhalte werden durch alle möglichen Werte und Kombinationen von Werten ersetzt und die so erhaltenen verschiedenen Versionen der Tabelle gespeichert. 3. Die Versionen, die nicht zur gegebenen k -anonymisierten Tabelle geführt haben können, werden gelöscht: a) Zuerst werden alle Tupel gekennzeichnet, die nach dem Ersetzen der unterdrückten Zellen keine einmaligen Tupel bilden. Alle Versionen der ursprünglichen Tabelle, die solche Tupel enthalten, werden gelöscht. b) Auf alle anderen Abwandlungen wird der k -Anonymisierungsalgorithmus k -anonymen Tabelle ver- angewendet und das Ergebnis mit der gegebenen glichen. Es ist sofort erkennbar, dass diese Rückanonymisierung viel rechenaufwändiger ist als die Anonymisierung selbst. Besonders der Schritt 3b kann bereits bei Tabellen 31 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten mittlerer Gröÿe inezient sein. Der Grund dafür ist die Tatsache, dass die nötigen Iterationen des Algorithmus mit der Anzahl an unterdrückten Werten exponentiell wächst: Eine Tabelle mit nur zwei Spalten und jeweils 11 möglichen Werten pro Attri4 but und 4 unterdrückten Zellen ergibt 11 mögliche Ausgangstabellen, die überprüft werden müssen. Wenn das Ergebnis des Algorithmus keine eindeutige Lösung für die fehlenden Werte ndet was wahrscheinlich meistens der Fall sein wird so liefert er pro unterdrücktem Wert ein Histogramm, das die Wahrscheinlichkeit der einzelnen möglichen Ersetzungen liefert. Durch zusätzliche Hintergrundinformationen über die Verteilung der Attributwerte könnte man besonders unwahrscheinliche Werte ausschlieÿen und somit die möglichen Werte noch weiter reduzieren. Beispiel: Eine Tabelle mit 200 Tupeln, 5 Spalten und drei möglichen Werten pro Attribut {−1, 0, 1} ist der Ausgangspunkt dieses Experiments. Um eine 2-anonyme Tabelle zu erhalten, ist die Unterdrückung von 8 Zelleneinträgen nötig der Algorith8 mus hat also 3 = 6561 Fälle zu überprüfen. Abbildung 2.13 zeigt das Ergebnis dieses Beispiels: Vier der acht unterdrückten Werte wurden eindeutig bestimmt für die vier restlichen Zellen konnte zumindest eine Möglichkeit eindeutig ausgeschlossen werden. Abbildung 2.13: Histogramm der Wahrscheinlichkeiten der möglichen Ersetzungen der 8 fehlenden Zelleneinträge [27] Obwohl diese Möglichkeit der Rückanonymisierung sehr rechenintensiv ist und sich kaum für gröÿere Tabellen eignet, sollte man sich trotzdem bewusst sein, dass es zumindest theoretisch Möglichkeiten gibt, gelöschte Werte wieder herzustellen. Um diesem Angri entgegenzuwirken, könnte man zufällige zusätzliche Zelleneinträge unterdrücken und somit den Reidentikationsalgorithmus verwirren. Dadurch würde man aber natürlich den Informationsgehalt der Daten noch weiter senken und die Daten im schlimmsten Fall unbrauchbar machen. 32 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Zusammenfügen unsortierter k-anonymer Tabellen Bei dieser Art von Angri [18] kann die Reihenfolge der Tupel zusätzliche (ungewünschte) Informationen oenbaren. Dies kann aber durch einfaches Umsortieren der Zeilen verhindert werden. P T und zwei Ge= {M/W, P LZ}. Wenn Tabelle Beispiel: Abbildung 2.14 zeigt drei Tabellen: Die Originaltabelle neralisierungen GT 1 GT 1 GT 2, wobei k = 2 und QP T Tabelle GT 2 veröentlicht werden, und und später auch so kann durch eine einfache Verknüpfung der Daten zwischen den beiden Tabellen die Originaltabelle wiederhergestellt werden natürlich aber nur dann, wenn die Reihenfolge der Tupel, so wie hier, nicht verändert wurde. Unter Umständen kann auch bereits die Veröentlichung einer einzigen k -anonymi- sierten Tabelle mit geordneten Attributen zu Problemen führen: Wenn man aufgrund M/W der Tabelle GT 1 geW ), so kann man davon ausgehen, dass das Tupel, das M/W = W und P LZ = 1011 gehört, die letzte Zeile in der von Hintergrundinformationen weiÿ, dass das Attribut ordnet ist (zuerst M, zur gesuchten Person dann veröentlichten Tabelle sein muss. M/W PLZ M/W PLZ M/W PLZ M 1070 Person 1070 M 107* M 1010 Person 1010 M 101* M 1011 Person 1011 M 101* M 1070 Person 1070 M 107* W 1110 Person 1110 W 111* W 1110 Person 1110 W 111* W 1010 Person 1010 W 101* W 1011 Person 1011 W 101* PT GT 1 GT 2 Abbildung 2.14: Zwei 2-anonyme Generalisierungen der Tabelle PT [18] Attacke aufgrund wiederholter Veröentlichung Im Allgemeinen sind sekundäre Identikationsmerkmale nur eine Untermenge der Attribute einer veröentlichten k -anonymen Tabelle, da natürlich auch medizinische At- tribute mitveröentlicht werden. Bei mehrfachen Publikationen einer Tabelle müssen diese medizinischen Attribute zusätzlich beachtet und als sekundäre Identikationsmerkmale klassiziert werden, denn sonst können die veröentlichten Tabellen mittels den medizinischen Attributen verknüpft werden [18]. Da das Sammeln von Daten ein 33 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten dynamischer Prozess ist Tupel werden hinzugefügt, gelöscht oder auch geändert und Tabellen daher im Laufe der Zeit mehrmals veröentlicht werden, ist hier ebenfalls Vorsicht geboten. Wenn jedoch erneute Publikationen der Daten auf bereits bestehende k -anonyme Veröentlichungen basieren, so kann die Verknüpfung der Daten unterein- ander zu keinen Problemen oder Risiken führen. Beispiel: Tabelle 2.2 zeigt personenbezogene, medizinische Daten in Tabellenform, und Abbildung 2.15 zwei 2-anonyme Abwandlungen dieser Tabelle (GT 1 und Da die Reihenfolge der Tupel der Tabellen GT 1 und GT 2 GT 2). zufällig gewählt wurde, ist zumindest ein Angri wie im vorangegangenen Beispiel (Unsorted Matching Attack) nicht möglich. Trotzdem ist auch hier die k -Anonymität gefährdet: Durch VerknüpGröße ist es möglich, die Tabelle LT mehr den Bedingungen der k -Anonymität fung der beiden Tabellen durch das Attribut von Abbildung 2.15 zu erhalten, die nicht entspricht. Name SVNR PLZ Geburtsd. M/W Gröÿe Luise Becker 1234100564 1070 10.05.1964 W 160 Anna Bauer 5412021260 1110 05.12.1960 W 171 Ludwig Kern 4321120970 1110 12.09.1970 M 180 Peter Wol 5613080864 1010 08.08.1964 M 170 Rosa Stix 4567151280 1011 15.12.1979 W 160 Tabelle 2.2: Personenbezogene, medizinische Daten in Tabellenform Homogenitätsattacke Beispiel: Alice und Bob sind Nachbarn. Eines Tages wird Bob von einem Krankenwagen in ein Krankenhaus eingeliefert. Alice, die den Abtransport beobachtet hat, will nun herausnden, warum ihr Nachbar eingeliefert wurde und macht Tabelle 2.4 ausndig, die vom Spital veröentlicht wurde und eine 4-anonyme Abwandlung der Originaltabelle (Tabelle 2.3) darstellt. Alice weiÿ, dass ein Tupel dieser Tabelle zu ihrem Nachbarn Bob gehören muss. Auÿerdem ist ihr auch sein Alter (31) und natürlich die PLZ (1030) bekannt. Also kann es sich nur um die Tupel 9, 10, 11 oder 12 handeln, die zu Bob gehören können. Da aber die Diagnose bei allen vier möglichen Datensätzen die gleiche ist, versagt hier die k -Anonymität, und Alice weiÿ über den Grund der Einlieferung ihres Nachbarn Bescheid [28]. Wie man in [28] nachlesen kann, ist diese Situation nicht ungewöhnlich: Angenommen man hat einen Datenpool mit 60000 Tupel. Das sensible Attribut kann drei ver- schiedene Werte annehmen und ist nicht korreliert mit anderen sekundären Identikationsmerkmalen. Nach einer 5-Anonymisierung hat man rund 12000 Gruppen un- gefähr pro 81 Gruppen gibt es eine, bei der das sensible Attribut für alle 5 Tupel den 34 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten PLZ Geburtsd. M/W Gröÿe Wien 19701979 * 160 Wien 19701979 * 180 Wien 19601969 * 171 Wien 19601969 * 160 Wien 19601969 * 170 GT 1 PLZ Geburtsd. M/W Gröÿe PLZ Geburtsd. 111* 111* 19601980 M 180 111* 19601980 W 171 111* Wien 19601980 W 160 101* 101* 19601980 W 160 101* 19601980 M 170 GT 2 LT : M/W Gröÿe 19701979 M 180 19601969 W 171 19601969 M 170 Verknüpfung von GT 1 und Abbildung 2.15: Zwei 2-anonyme Abwandlungen der Tabelle 2.2 (GT 1 und GT 2 GT 2) und die Verknüpfung der beiden Tabellen (LT ) gleichen Wert hat. Bei 60000 Tupel sind dies 12000 : 81 · 5 = 740 Menschen, die durch diese Homogenitätsattacke eindeutig identiziert werden können. Angri durch Hintergrundwissen Beispiel: Alice hat eine Freundin aus Japan mit dem Namen Umeko, die in das Krankenhaus, in dem auch Bob behandelt wird, eingeliefert wurde und deshalb ebenfalls in der Tabelle 2.4 vertreten ist. Alice weiÿ, dass Umeko 21 Jahre alt ist und momentan ihren Hauptwohnsitz in 1011 hat dementsprechend kommen nur mehr die Tupel 1, 2, 3 oder 4 in Frage, die zu ihrer Freundin gehören können. Ohne Zusatzinformation ist sich Alice nicht im Klaren, ob Umeko an einer viralen Erkrankung oder an einer Herzerkrankung leidet. Da aber bekannt ist, dass Japaner eine sehr geringe Inzidenz für Herzerkrankungen haben, schlieÿt Alice diese Diagnose für ihre Freundin aus [28]. k -Anonymität kann Daten nicht vor Angrien durch Hintergrundwissen schützen. Ein weiteres Problem ist die Tatsache, dass derjenige, der die (k -anonymen) Patientendaten veröentlicht, nicht wissen kann, ob bzw. welches Hintergrundwissen bei einem potentiellen Angreifer vorhanden ist. Um diese Attacken trotzdem verhindern zu können, sind stärkere Bedingungen als die der 35 k -Anonymität nötig (Kapitel 2.5.7). Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten PLZ Alter Nationalität Diagnose 1 1030 28 USA Herzerkrankung 2 1010 29 Österreich Herzerkrankung 3 1011 21 Japan Virale Infektion 4 1030 23 Österreich Virale Infektion 5 1110 50 Indien Krebs 6 1110 55 USA Herzerkrankung 7 1150 47 Österreich Virale Infektion 8 1140 49 Österreich Virale Infektion 9 1030 31 Österreich Krebs 10 1030 37 Indien Krebs 11 1010 36 Japan Krebs 12 1012 35 Österreich Krebs Tabelle 2.3: Personenbezogene, medizinische Daten in Tabellenform [28] 2.4.6 Eine Alternative zur k-Anonymität? Zumindest theoretisch gibt es folgende Alternative zur k -Anonymität: Es ist dabei nicht zwingend notwenig, dass mehrere Tupel aufgrund gleicher Werte der sekundären Identikationsmerkmale identisch sein müssen. Es muss nur gesichert sein, dass es in der Grundgesamtheit, aus der die Daten stammen, mehrere Personen gibt, mit denen die Daten der Tabelle verknüpft werden können. So wäre z.B. auch Tabelle 2.5 zulässig, da man davon ausgehen kann, dass es sowohl mehrere verheiratete männliche Tierärzte als auch mehrere ledige weibliche Angestellte in Wien gibt. Da man aber meistens über die Verteilung der Attribute in der Grundgesamtheit keine exakten Informationen hat, eignet sich diese Methode in der Praxis nicht wirklich. Ein weiteres Problem kann auÿerdem auftreten, wenn man aufgrund von Hintergrundinformationen weiÿ, dass sich eine bestimmte Person in der veröentlichten Tabelle benden muss. Denn dann nützt es auch nichts, wenn die Attributkombination auf andere Personen der Grundgesamtheit zutrit. 2.5 Verschiedene Methoden zur k -Anonymisierung Dieses Kapitel widmet sich verschiedenen Methoden zur k -Anonymisierung perso- nenenbezogener Daten mittels Generalisierung bzw. Unterdrückung. Aufgrund der groÿen Anzahl geeigneter Anonymisierungsalgorithmen wird jedoch im Folgenden nur ein Teil der in Frage kommenden Methoden vorgestellt werden. Für den interessierten Leser kann auf nachstehende Literatur verwiesen werden: Using simulated an- 36 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten PLZ Alter Nationalität Diagnose 1 10** < 30 * Herzerkrankung 2 10** < 30 * Herzerkrankung 3 10** < 30 * Virale Infektion 4 10** < 30 * Virale Infektion 5 11** * Krebs 6 11** * Herzerkrankung 7 11** * Virale Infektion 8 11** ≥ 40 ≥ 40 ≥ 40 ≥ 40 * Virale Infektion 9 10** 3* * Krebs 10 10** 3* * Krebs 11 10** 3* * Krebs 12 10** 3* * Krebs Tabelle 2.4: 4-anonyme Form der Tabelle 2.3 [28] PLZ Beruf M/W Familienstand Gröÿe Gewicht Wien Tierarzt M verheiratet 180 75 Wien Angestellter W ledig 165 60 Tabelle 2.5: medizinische Daten in Tabellenform nealing for k -anonymity [29], Protecting privacy when disclosing information [30], Using Boolean reasoning to anonymize databases [31] und Privacy-enhancing kanonymization of customer data [32]. 2.5.1 Minimal Generalization (MinGen) Algorithmus Der MinGen-Algorithmus [21] wandelt eine gegebene Tabelle mit möglichst wenigen Veränderungen in eine k -anonyme Form um. Dabei wird hinsichtlich einer gegebenen Metrik die optimale Lösung gefunden. P T (Ax , . . . , Ay ) mit den sekundären IdentiQP T = {A1 , . . . , An }, wobei {A1 , . . . , An } ⊆ {Ax , . . . , Ay }, domain hierarchies DGHAi und eine natürliche Zahl k , wobei k < |P T |. (Da- Algorithmus: Gegeben sei eine Tabelle kationsmerkmalen generalization mit der Algorithmus eine Lösung produzieren kann, muss die Zahl der Tupel natürlich gröÿer als das gewünschte k sein.) 1. Es wird festgestellt, ob die Ausgangstabelle dies nicht der Fall ist, folgt Schritt 2. 37 (P T ) bereits k -anonym ist. Wenn Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten 2. Alle möglichen Generalisierungen von PT 3. Alle Generalisierungen aus allgens, die werden in allgens gespeichert. k -anonym sind, werden in protected ge- speichert. 4. Die Generalisierung(en) mit der geringsten Veränderung bzw. besten Lösung (basierend auf der gegebenen Metrik ), wird/werden in MGT gespeichert. 5. Die Funktion preferred() gibt schlieÿlich eine einzige Generalisierung aus MGT zurück ausgewählt aufgrund benutzerdenierter Auswahlkriterien. Wie aus dem Algorithmus zu erkennen ist, generalisiert bzw. unterdrückt der Algorithmus die Werte auf Zellenebene, was zu einem sehr inezienten Laufzeitverhalten führt. Bereits Tabellen mittlerer Gröÿe ergeben einen viel zu groÿen Suchraum für die verwendete erschöpfende Suche. 2.5.2 Datay System Datay [19] ist ein Computerprogramm, das in der Lage ist, medizinische Daten in Echtzeit in k -anonyme Daten umzuwandeln. Es liefert dabei zwar keine optimalen Resultate im Allgemeinen generalisiert der Algorithmus zu stark doch aufgrund der kurzen Berechnungszeit auch für groÿe Tabellen ist es für den Einsatz in der Praxis gut geeignet. Datay wird folgendermaÿen angewendet: Der Dateninhaber kennzeichnet diejenigen Attribute und Tupel einer Tabelle, die veröentlicht werden sollen. Auÿerdem kennzeichnet er die Attribute, die den primären bzw. sekundären Identikationsmerkmalen entsprechen und weist der Tabelle einen minimalen Anonymitätslevel (entspricht einem Wert für k) zu, der erreicht werden soll. Jedem Attribut kann zusätzlich noch eine Zahl zwischen 0 und 1 zugewiesen werden. Diese Zahlen oder auch Gewichte entsprechen den Präferenzen, welche Attribute zuerst (entspricht der Zahl 1) bzw. welche Attribute überhaupt nicht (entspricht der Zahl 0) verändert oder gelöscht werden sollen. Mit diesen Einstellungsmöglichkeiten kann man k -anonyme medizini- sche Daten erzeugen, die den späteren Verwendungszweck berücksichtigen: Wenn z.B. Daten für eine wissenschaftliche Studie übermittelt werden sollen, die den Zusammenhang zwischen Alter, Geschlecht und Krebsrisiko untersuchen will, so ist es möglich, durch Zuweisen entsprechender Werte zwischen 0 und 1 diese Attribute vor zu starker Generalisierung zu schützen. Damit aber die geforderte k -Anonymität trotzdem erreicht werden kann, werden die restlichen Attribute die aber für die gegebene Fragestellung nicht so entscheidend sind entsprechend stärker abgeändert. Die Möglichkeit, den Grad der Anonymisierung jedes Attributs einzeln zu regeln, kann auch in anderer Hinsicht hilfreich sein: Da sich manche Attribute besonders gut eignen, mit anderen veröentlichten Daten verbunden zu werden und damit ein erhöhtes Risiko 38 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten darstellen, kann für solche Attribute einfach eine stärkere Generalisierung durch die Zuweisung einer Zahl nahe bei 1 gefordert werden. Algorithmus: (Aus Gründen der Übersichtlichkeit und der leichteren Verständlichkeit ist im nachfolgenden Beispiel die Wahrscheinlichkeit einer Generalisierung für jedes Attribut gleich den Attributen werden also keine Gewichte zugewiesen.) Ge- P T (Ax , . . . , Ay ) mit den sekundären Identikationsmerkmalen QP T = {A1 , . . . , An }, wobei {A1 , . . . , An } ⊆ {Ax , . . . , Ay }, domain generalization hierarchies DGHAi und eine natürliche Zahl k , wobei k < |P T |. (Damit der Algogeben sei eine Tabelle rithmus eine Lösung produzieren kann, muss die Zahl der Tupel natürlich gröÿer als das gewünschte k sein.) 1. Die gegebene Tabelle wird zusammengefasst, indem die Tupel, die die gleichen Werte der sekundären Identikationsmerkmale aufweisen, zu einer einzelnen Zeile zusammengezogen werden. Anschlieÿend wird der so entstandenen Tabelle eine neue Spalte (Frequenzliste, freq ) hinzugefügt, die pro (zusammengefasster) Zeile die Anzahl der enthaltenen, gleichen Tupel speichert. 2. Wenn mehr als k Werte der Liste freq ≤k sind, so wird für jedes Attribut die Anzahl an verschiedenen Werten berechnet, die es in der Tabelle einnimmt. Das Attribut mit den meisten verschiedenen Werten wird entsprechend der DGH um eine Stufe generalisiert. Daraufhin wird die Liste freq aktualisiert, und der Punkt 2 wiederholt sich solange, bis weniger als 3. Die Tupel, die in der Frequenzliste einen Wert k Werte dieser Liste <k ≤k 3 sind . haben, werden gelöscht. 4. Mittels der Werte aus freq und den zuvor abgeschnittenen medizinischen Daten wird die k -anonyme Beispiel: Tabelle Algorithmus: Form der Ursprungstabelle hergestellt. T 1 der Abbildung 2.16 zeigt bereits den ersten Schritt des Datay- T 1 besteht nur aus sekundären Identikationsmerkmalen (R(ace), Birth- d(ate), M/F und ZIP ) und der zusätzlichen Spalte freq. Da jedes Tupel aufgrund der groÿen Anzahl an verschiedenen Ausprägungen der sekundären Merkmale einmalig ist, konnten bis jetzt auch keine Tupel zusammengefasst werden, und die Häugkeit jedes Tupels =1 (Inhalt der Spalte f req ). Da der gewünschte Wert von erreicht ist, wird der Algorithmus fortgesetzt. Da mehr als <k k k=2 noch nicht Tupel eine Häugkeit von aufweisen, wird die Spalte mit den meisten verschiedenen Ausprägungen (Birth- date mit 12 verschiedenen Werten) generalisiert. Dadurch ergeben sich nun mehrere T 2 bilden. (f req = 1). gleiche Tupel, die somit zusammengezogen werden können und die Tabelle Zwei der Tupel dieser Tabelle sind aber noch immer einzeln vorhanden Um die Werte der Tabelle aber nicht zu stark verallgemeinern zu müssen, sieht der 3 Diese Überprüfung bzw. Abbruchbedingung soll verhindern, dass aufgrund von wenigen (< k) Ausreiÿern die Werte der Tabelle zu stark generalisiert werden. Deshalb werden diese Tupel im 3. Schritt eliminiert. 39 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Algorithmus bei Ausreiÿern (entspricht ≤ k Tupel mit f req < k ) die Eliminierung die- ser vor. Nach dem Löschen dieser beiden Tupel, dem Auseinanderziehen der zuvor zusammengefassten Zeilen und dem Anhängen der zuvor unterdrückten medizinischen Attribute, ergibt sich die 2-anonyme Tabelle T3 (Schritt drei und vier). Wie bereits erwähnt und auch aus dem Beispiel ersichtlich ist, liefert Datay kein optimales Ergebnis auch eine k -minimale Generalisierung (siehe Kapitel 2.4.1) wird in der Regel nicht erreicht, weil Entscheidungen zur Generalisierung bzw. Unterdrückung auf Attribut- bzw. Tupelbasis getroen werden. Damit werden die Daten oftmals stärker verändert als nötig gewesen wäre. Erschöpfende Suchalgorithmen wie MinGen (Kapitel 2.5.1) treen die Entscheidungen auf Zellenbasis und sind somit viel exibler und genauer, aber auch bedeutend langsamer. 2.5.3 Incognito Der k -Anonymisierungsalgorithmus Incognito [33] von K. LeFevre, D. J. DeWitt und R. Ramakrishnan basiert ebenso wie z.B. Datay (Kaptiel 2.5.2) auf globaler Ge- 4 neralisierung auf Attributebene. Im Gegensatz zu greedy Algorithmen produziert Incognito jedoch k -minimale wie Datay Generalisierung, wenn auch die Performan- ce dieser Methode schlechter ist: Die Laufzeit nimmt mit der Anzahl der sekundären Identikationsmerkmale im Grunde exponentiell zu. Durch verschiedene Optimierungen kann der Vorgang der Anonymisierung jedoch im Normalfall deutlich beschleunigt werden. Um eine Tabelle T in eine k -anonyme Form umzuwandlen, erzeugt Incognito alle möglichen Generalisierungen auf Attributebene der Tabelle T. Dazu wird zuerst für jedes sekundäre Identikationsmerkmal einzeln geklärt, ab welcher Generalisierungsstufe die Tabelle nur in Bezug auf dieses einzelne Attribut k -anonym wäre. Danach werden immer gröÿere Gruppen von Attributen zusammengefasst und überprüft, bis schlieÿlich die gesamte Menge sekundärer Identikationsmerkmale erreicht ist. Dieses etappenweise Vorgehen hat den Vorteil, dass zuerst nur Kombinationen von wenigen Attributen untersucht werden, die eine überschaubare Anzahl von möglichen Generalisierungen ergeben und somit schnell durchsucht werden können. Die Generalisierungen, die keine k -anonyme Tabelle ergeben, können gelöscht werden und müssen somit in den folgenden Schritten nicht mehr beachtet werden, was zu einer bedeutenden Verkleinerung des Suchraums führt. Beispiel: Tabelle 2.6 sowie die in Abbildung 2.17 dargestellten domain generalization hierarchies und value generalization hierarchies der Attribute Zipcode, Birthdate 4 Greedy Algorithmen sind meist sehr schnell und nden zu vielen Problemen brauchbare, aber keine optimalen Lösungen. Sie zeichnen sich dadurch aus, dass sie immer denjenigen Folgestand wählen, der momentan das beste Ergebnis bzw. den gröÿtmöglichen Gewinn verspricht. Daher auch der Name greedy (engl.) = gierig. 40 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten R. Birthd. M/F ZIP freq b 20/09/65 m 02141 1 b 14/02/65 m 02141 1 b 23/10/65 f 02138 1 b 24/08/65 f 02138 1 b 07/11/64 f 02138 1 b 12/01/64 f 02138 1 w 23/10/64 m 02138 1 w 15/03/65 f 02139 1 w 13/08/64 m 02139 1 w 05/05/64 m 02139 1 w 13/02/67 m 02138 1 w 21/03/67 m 02138 1 2 12 2 3 R. Birthd. M/F ZIP freq b 1965 m 02141 2 b 1965 f 02138 2 b 1964 f 02138 2 w 1964 m 02138 1 w 1965 f 02139 1 w 1964 m 02139 2 w 1967 m 02138 2 2 3 2 3 T2 T1 Race Birthd. M/F ZIP Problem black 1965 m 02141 short of breath black 1965 m 02141 chest pain black 1965 f 02138 painful eye black 1965 f 02138 wheezing black 1964 f 02138 obesity black 1964 f 02138 chest pain white 1964 m 02139 obesity white 1964 m 02139 fever white 1967 m 02138 vomiting white 1967 m 02138 back pain T3 Abbildung 2.16: Einzelne Schritte der k -Anonymisierung Tabellenform mittels Datay [21] 41 personenbezogener Daten in Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten und Sex bilden die Grundlage für das folgende Beispiel. Birthdate Sex Zipcode Disease 1/21/76 Male 53715 Flu 4/13/86 Female 53715 Hepatitis 2/28/76 Male 53703 Bronchitis 1/21/76 Male 53703 Broken Arm 4/13/86 Female 53706 Sprained Ankle 2/28/76 Female 53706 Hang Nail Tabelle 2.6: Patientendaten in Tabellenform [33] Abbildung 2.17: Domain generalization hierarchies und value generalization hierarchies für die Attribute Zipcode (a, b), Birthdate (c, d) und Sex (e, f ) [33] Abbildung 2.18 zeigt die Überprüfung der verschiedenen Generalisierungen, die sich bei der Kombination zweier sekundärer Identikationsmerkmale der Tabelle 2.6 ergeben. Die erste Zeile zeigt das Generalisierungsgitter, das durch die Verbindung der domain generalization hierarchies der Attribute Sex und Zipcode entsteht (Abbildung 2.17). Der so entstandene Graph wird mittels eines modizierten Breitensuchalgorithmus vollständig durchsucht und jeder Knoten daraufhin getestet, ob die Generalisierung, die er repräsentiert, die Ausgangstabelle in eine Der Startknoten der Breitensuche ist 2.6 nicht die gewünschte < S0 , Z0 > k -anonyme Form umwandelt. und liefert hinsichtlich der Tabelle k -anonyme Abwandlung. Daher wird dieser Knoten entfernt, und es ensteht die zweite Abbildung der ersten Zeile. Hier wird zuerst der Knoten < S1 , Z0 > überprüft, und da er die Bedingung erfüllt im Gegensatz zum nächs- ten Knoten < S0 , Z1 >, der entfernt wird wird dieser Knoten beibehalten. Dadurch entsteht die letzte Abbildung der ersten Zeile. Die Überprüfungen weiterer Generalisierungen des Knotens < S1 , Z0 > erübrigen sich, da sie natürlich auch eine k -anonyme 42 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Tabelle bilden, genauso wie Knoten < S0 , Z2 >. Damit ist dieser Baum vollständig durchsucht, und es sind nur mehr gültige Generalisierungen vorhanden. Mit den verbleibenden zwei 2-Attributkombinationen Birthdate und Zipcode bzw. Birthdate und Sex wird ebenso verfahren. Somit ergeben sich die restlichen Graphen der Abbildung 2.18. Abbildung 2.18: 2-Attribut Generalisierungen der Tabelle 2.6 [33] Diese werden im nächsten Schritt weiter zusammengefasst. Der so entstehende 3-Attribut Graph wird ebenfalls mittels Breitensuche vollständig durchsucht. (Der Verbindungsalgorithmus, der verschiedene Graphen miteinander vereint, kann in [33] nachgelesen werden.) Nach der Entfernung aller Knoten bzw. Generalisierungen, die keine k -anonyme Tabelle ergeben, ergibt sich der Baum, der unter Abbildung 2.19 (a) zu sehen ist und der gleichzeitig auch das Endergebnis des Algorithmus darstellt: alle möglichen k -anonymen Generalisierungen, die sich aufgrund der gegebenen Tabelle 2.6 und der gegebenen domain generalization hierarchies (Abbildung 2.17) ergeben. Ohne das oben vorgestellte etappenweise Vorgehen bzw. das schrittweise Hinzufügen zusätzlicher sekundärer Identikationsmerkmale müsste der in Abbildung 2.19 (b) abgebildete 3-Attribut Graph durchsucht werden, um die Lösung des Beispiels zu erhalten. Experimente und Resultate: Neben dem Vergleich von Incognito mit anderen 43 k- Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Abbildung 2.19: (a) 3-Attribut Graph, generiert aus den resultierenden Graphen der Abbildung 2.18; (b) 3-Attribut Graph ohne Einschränkung des Suchraums [33] Anonymisierungsalgorithmen, die ebenfalls k -minimale Generalisierungen auf Attribut- ebene bieten, wurden auch zwei Abwandlungen bzw. Weiterentwicklungen von Incognito auf ihre Ezienz hin getestet: Superroots Incognito : Die Überprüfung eines Knotens bzw. Generalisierung auf Bildung einer k -anonymen Tabelle wird beschleunigt, indem die Berechnung nicht auf den Originaldaten, sondern auf anderen bereits berechneten Generalisierungen beruht. Cube Incognito : Durch Berechnung einer Generalisierung der Originaltabelle vor dem Start des eigentlichen Algorithmus wird versucht, Rechenzeit im weiteren Verlauf von Incognito zu sparen, da dann diverse Berechnungen nicht auf der fein gegliederten Originaltabelle, sondern auf der bereits vorgeneralisierten Tabelle basieren können. Bei praktischen Tests zeigt es sich, dass dieser Ansatz bei eher kleinen Tabellen durchaus Geschwindigkeitsvorteile bringt; bei gröÿeren Tabellen wird dieser Performancegewinn durch die lange Vorbereitungszeit zunichte gemacht. Abbildung 2.20 zeigt den Performancevergleich von Incognito, Superroots Incognito und Cube Incognito mit anderen auf einer 4591581 k -Anonymisierungsalgorithmen, basierend Tupel umfassenden Datenbank, variierender Gröÿe der sekundären Identikationsmerkmale und k = 2. Superroots Incognito liefert erwartungsgemäÿ das beste Resultat, gefolgt vom normalen Incognito-Algorithmus. Cube Incognito hat aufgrund der enormen Gröÿe der Ausgangstabelle leichte Geschwindigkeitsprobleme, liegt aber im Vergleich mit den anderen k -Anonymisierungsstrategien doch deut- lich vorne. Dieser groÿe Performanceunterschied muss aber kritisch betrachtet werden, da für den Vergleich verwendete Algorithmen wie Binary Search keine wirklich ezienten Methoden darstellen. 44 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Abbildung 2.20: Performancevergleich von Incognito, Superroots Incognito und Cube Incognito mit anderen k -Anonymisierungsalgorithmen [33] 2.5.4 µ-ARGUS µ-ARGUS [34] ist ein Softwarepaket (programmiert mit Borland C++), das dem Benutzer erlaubt, Daten interaktiv und seinen Wünschen entsprechend in k -anonyme Daten umzuwandeln. Dabei werden zunächst globale Generalisierungen (= Generalisierungen auf Attributebene) durchgeführt, um anschlieÿend Ausreiÿer durch Unterdrückung auf Zellenebene zu eliminieren. Im ersten Schritt hilft µ-ARGUS dem Benutzer bei der Auswahl der Attribute, die sich für eine globale Generalisierung eignen. Wenn der Anwender mit dem Resultat nicht zufrieden ist, so kann die Auswahl auch geändert werden. Im nächsten Schritt werden vom Algorithmus automatisch die Zelleneinträge ermittelt, die unterdrückt werden müssen, um k -anonyme Daten zu erhalten. Abbildung 2.21 zeigt das funktionelle Design von µ-ARGUS, das einen Überblick der einzelnen Schritte und Bestandteile des Algorithmus liefert. Um dem Benutzer Hilfestellungen bieten zu können und die richtigen Entscheidungen zu treen, benötigt der Algorithmus Metadaten, die über eine ASCII-Datei bereitgestellt werden können. Diese kann z.B. die value generalization hierarchy der einzelnen Attribute enthalten, oder auch festlegen, bis zu welcher Stufe global generalisiert werden soll bzw. wann mit der lokalen Unterdrückung fortgesetzt werden soll. In [21] liefert L. Sweeny nach reverse engineering und Neuimplementation von µARGUS eine genauere Beschreibung des Algorithmus: P T (Ax , . . . , Ay ) mit den sekundären IdentikationsmerkQP T = {A1 , . . . , An }, wobei {A1 , . . . , An } ⊆ {Ax , . . . , Ay }, domain generalihierarchies DGHAi und eine natürliche Zahl k , wobei k < |P T |. Auÿerdem Gegeben sei eine Tabelle malen zation 45 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Abbildung 2.21: Funktionelles Design des µ-ARGUS-Algorithmus [34] müssen die sekundären Identikationsmerkmale auf drei Gruppen aufgeteilt sein: Attribute mit der Kennzeichnung most identifying, more identifying und identifying, die ähnlich wie bei Datay Einuss auf die Reihenfolge der Generalisierung ausüben. 1. Eine Frequenzliste f req wird angelegt, die pro Attribut die voneinander unter- schiedlichen Werte und die Anzahl ihres Auftretens innerhalb von 2. Die Attribute werden entsprechend der destens k -mal DGH PT speichert. generalisiert, bis jeder Wert min- vorkommt. 3. Verschiedene 2er und 3er Kombinationen der Attribute werden getestet, ob sie k -anonym sind. outliers gespeichert. bereits Wenn nicht, werden diese Kombinationen in die Datei 4. Der Benutzer bestimmt, ob ein Attribut, das in werden soll. 46 outliers vorkommt, generalisiert Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten 5. Schritte 3 und 4 werden so lange wiederholt, bis der Benutzer kein Attribut mehr zur Generalisierung freigibt. 6. Der Zelleneintrag, der am öftesten in outliers vorkommt, wird unterdrückt. Dieoutliers ser Punkt wiederholt sich so lange, bis sich keine Kombinationen mehr in benden. Leider weist der Punkt 3 laut L. Sweeny [21] folgende Mängel auf: Der Algorithmus testet nicht alle möglichen 2er und 3er Kombinationen; Kombinationen höheren Grades werden überhaupt nicht überprüft. Dadurch kann es vorkommen, dass von µ-ARGUS erzeugte Tabellen nicht der Bedingung der k -Anonymität entsprechen. Somit ist dieser Algorithmus für die Praxis nicht empfehlenswert. 2.5.5 Multidimensional k-Anonymity In [23] präsentieren K. LeFevre, D. DeWitt und R. Ramakrishnan einen neuen multi- dimensionalen k -Anonymisierungsalgorithmus, der schneller als optimale Algorithmen wie MinGen (siehe Kaptiel 2.5.1) arbeitet und trotzdem ansprechende Resultate erzeugt. Eindimensionale und multidimensionale globale Generalisierung: Wie bereits erwähnt, werden bei einer globalen Generalisierung die Domänen der einzelnen sekundären Identikationsmerkmale in abgewandelte, generalisierte Domänen übergeführt (= Generalisierung auf Attributebene). Dabei kann aber zwischen zwei Subklassen unterschieden werden: ein- und mehrdimensionale globale Generalisierung. Bei einer eindimensionalen globalen Generalisierung gibt es pro sekundärem Identikationsmerkmal eine Funktion, die die Domäne des jeweiligen Attributs in eine weniger spezische überführt, wohingegen bei einer multidimensionalen globalen Generalisierung nur eine einzige Funktion für alle sekundären Identikationsmerkmale genutzt wird. Tabelle 2.7 zeigt sechs Datensätze in Tabellenform, die medizinische Daten enthalten. Die Tabellen 2.8 und 2.9 zeigen 2-anonyme Abwandlungen der Originaltabelle, die durch ein- bzw. mehrdimensionale Generalisierung erzeugt wurden. Der Unterschied der zwei Methoden ist dabei deutlich sichtbar: Bei einer eindimensionalen Abwandlung werden gleiche Attributwerte der Originaltabelle stets auf gleiche Werte der k -anonymisierten Tabelle abgebildet (z.B. PLZ 1011 wird immer zu [1010 − 1011]). Tabelle 2.9 zeigt das Resultat durch multidimensionale Generalisierung: Hier wird z.B. die PLZ 1011 einmal auf den Wert [1010 − 1011] abgebildet, und zweimal bleibt der Originalwert erhalten. Damit ist diese Art der Generalisierung viel exibler und kann sich den Anforderungen besser anpassen. Eindimensionale Partitionierung einer Domäne: Bei einer eindimensionalen globalen Generalisierung ist zuvor eine eindimensionale Partitionierung der Domäne jedes 47 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Alter M/W PLZ Diagnose 25 M 1011 Grippe 25 W 1020 Hepatitis 26 M 1011 Bronchitis 27 M 1010 Knochenbruch 27 W 1020 AIDS 28 M 1011 Herzinfarkt Tabelle 2.7: medizinische Daten in Tabellenform [23] Alter M/W PLZ Diagnose [25 − 28] [25 − 28] [25 − 28] [25 − 28] [25 − 28] [25 − 28] M [1010 − 1011] Grippe W 1020 Hepatitis M Bronchitis M [1010 − 1011] [1010 − 1011] Knochenbruch W 1020 AIDS M [1010 − 1011] Herzinfarkt Tabelle 2.8: 2-anonyme Abwandlung der Tabelle 2.7 durch eindimensionale globale Generalisierung [23] Attributs notwendig: Jede Domäne muss in eindimensionale, nicht überlappende Intervalle gegliedert werden, die insgesamt den ganzen Wertebereich umfassen. Die Werte, die innerhalb eines Intervalls liegen, werden dann bei der Generalisierung auf diesen Wertebereich abgebildet (Tabelle 2.8 Attribute Alter und P LZ ). (Strikte) multidimensionale Partitionierung: Hierbei werden nicht die einzelnen Domänen in eindimensionale Abschnitte eingeteilt, sondern der gesamte Wertebereich aller Attribute (ein d-dimensionaler Raum für d Attribute) wird in nicht überlappende multidimensionale Regionen eingeteilt, um anschlieÿend die multidimensionale globale Generalisierung durchführen zu können. Räumliche Darstellung der Partitionierung: Um sich die Partitionierung besser vorstellen zu können, können die Attribute A={A1 , A2 , . . . , Ad } der Tabelle d-dimensionalen Raum projiziert werden, wobei jedes Tupel der Tabelle T T in einen einen Punkt in diesem Raum darstellt. Abbildung 2.22 a) stellt die Domänen der Attribute Alter und P LZ inklusive der sechs Datensätze aus Tabelle 2.7 repräsentiert durch Punkte in einem zweidimensionalen Raum dar. Abbildung b) zeigt eine eindimensionale Partitionierung der Domäne des Attributs P LZ : Die Werte 1010 und zusammengefasst, wohingegen der Wert 1011 werden zu dem Intervall [1010 − 1011] 1020 nicht verändert/generalisiert wird. Ab- 48 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Alter M/W PLZ Diagnose [25 − 26] [25 − 27] [25 − 26] [25 − 28] [25 − 27] [27 − 28] M 1011 Grippe W 1020 Hepatitis M 1011 Bronchitis M [1010 − 1011] Knochenbruch W 1020 AIDS M [1010 − 1011] Herzinfarkt Tabelle 2.9: 2-anonyme Abwandlung der Tabelle 2.7 durch multidimensionale globale Generalisierung [23] Abbildung 2.22: Räumliche Darstellung a) der Domänen der Attribute Alter und P LZ der Tabelle 2.7; b) der Partitionierung der Domäne des Attributs P LZ ; und c) der multidimensionalen Partitionierung der Domänen der Attribute Alter und P LZ [23] bildung c) zeigt die multidimensionale Partitionierung, die zur Tabelle 2.9 geführt hat. Korrekterweise sollte natürlich auch das dritte sekundäre Identikationsmerkmal M/W vorhanden sein, doch da sich dadurch die Dimension der Darstellung auf drei erhöhen würde, wurde aus Gründen der Übersichtlichkeit darauf verzichtet. Dank dieser Grak kann man den Vorteil der multidimensionalen Partitionierung auf den ersten Blick erkennen: Durch die exiblere Einteilung des Raumes sind kleinere Regionen mit weniger Tupel möglich, was dazu führt, dass die Werte nicht zu stark generalisiert werden müssen. Laufzeitverhalten: Optimale strikte multidimensionale Partitionierung ist ebenso wie optimale k -Anonymisierung durch Unterdrückung und Generalisierung NP-schwer (Kapitel 2.4.3). Der Beweis dafür kann in [23] nachgelesen werden. Neben dem Laufzeitverhalten ist auch die maximale Gröÿe einer Region, die durch multidimensionale Partitionierung entstehen kann, von groÿem Interesse und für die Qualität der Generalisierung bedeutend. Wie bereits erwähnt, sind natürlich möglichst kleine Abschnitte erwünscht, da dadurch die Daten nur wenig verändert werden 49 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten müssen. Abbildung 2.23: Menge an Punkten (a) ohne bzw. (b) mit möglicher Partitionierung [23] Abbildung 2.23 a) zeigt eine Menge an Punkten, angeordnet im 2-dimensionalen Raum. Da ein Schnitt (=Partitionierung der Fläche) achsenparallel sein muss und nur dann möglich ist, wenn die Anzahl der Punkte in den beiden entstehenden Partitionen mindestens k beträgt, ist in diesem Fall keine Teilung dieser Fläche möglich. Erst nach Hinzufügen eines weiteren Punktes (b) kann eine Partitionierung erfolgen. Daraus folgt: Für jede Menge an Punkten 2d(k − 1) + m, wobei m P im d-dimensionalen Raum mit die maximale Anzahl von Kopien eines Punktes aus |P | > P ist, existiert eine mögliche Partitionierung. Im Fall der eindimensionalen Partitionierung ist die maximale Anzahl der Punkte (=Tupel) eines Intervalls nicht wie im multidimensionalen Fall unabhängig von der Gesamtanzahl der Tupel der Tabelle Datensätze mit und beträgt T, sondern wächst linear mit der Anzahl der O(|T |). Multidimensionale lokale Generalisierung: Im Gegensatz zu den bisher erwähnten globalen Generalisierungsalgorithmen, gibt es natürlich auch die Möglichkeit einer lokalen, multidimensionalen Generalisierung. Der hier beschriebene Ansatz lockert die Anforderungen und Bedingungen, die für die strikte multidimensionale Partitionierung gelten und trägt daher den Namen relaxed multidimensionale Partitionierung. Hierbei ist es erlaubt, dass sich die Regionen, in die der Wertebereich eingeteilt ist, überlappen. Abbildung 2.24 zeigt anhand der Gegenüberstellung der strikten (GT 1) und relaxed multidimensionalen Generalisierung (GT 2) der Tabelle PT der lokalen Generalisierung: Da es für die Domäne des Attributs deutlich die Vorteile P LZ keine mögliche strikte multidimensionale Partitionierung gibt, müssen alle Werte auf das gleiche Intervall abgebildet werden, damit aus der Originaltabelle PT eine 2-anonyme Tabelle erstellt werden kann. Durch die gelockerten Bedingungen können drei überlappende Regionen erstellt werden, die ebenfalls eine 2-anonyme Tabelle ergeben, die aber einen deutlich höheren Informationsgehalt aufweist. 50 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten PLZ Diagnose 1011 Grippe 1011 Hepatitis 1011 Bronchitis 1010 Knochenbruch 1020 AIDS 1011 Herzinfarkt PT PLZ Diagnose [1010 − 1020] Grippe [1010 − 1020] Hepatitis [1010 − 1020] Bronchitis [1010 − 1020] Knochenbruch [1010 − 1020] AIDS [1010 − 1020] Herzinfarkt GT 1 PLZ Diagnose [1010 − 1011] Grippe 1011 Hepatitis 1011 Bronchitis [1010 − 1011] Knochenbruch [1011 − 1020] AIDS [1011 − 1020] Herzinfarkt GT 2 Abbildung 2.24: Gegenüberstellung der strikten (GT 1) und relaxed multidimensionalen Generalisierung (GT 2) der Tabelle greedy Partitionierungsalgorithmus: PT k -Anonymisierung [23] durch multidimensionale Generalisierung erfolgt in zwei Schritten: Zuerst wird der Domänenraum in multidimensionale Regionen eingeteilt, bevor die Tabelle anhand dieser Partitionen in eine k -anonyme Form umgewandelt wird. In [23] wird ein Algorithmus vorgestellt, der ei- ne Abwandlung eines Baumkonstruktionsalgorithmus darstellt und das Problem der strikten multidimensionalen Partitionierung löst. Mittels kleiner Änderungen kann er auch für die relaxed multidimensionale Generalisierung angepasst werden. Die Zeit- n gleich der Anzahl der Tupel ist. Jede Region enthält mindestens k und höchstens 2d(k−1)+m Punkte, wobei m die komplexität des Algorithmus beträgt 0(nlogn), wobei maximale Anzahl von Kopien eines beliebigen Punktes ist (multidimensionale strikte Partitionierung) bzw. 2k − 1 Punkte (relaxed multidimensionale Partitionierung). Aus diesen worst case-Szenarien und den Metriken aus Kapitel 2.4.2 kann berechnet werden, dass selbst im schlechtesten Fall die k -Anonymisierung durch multidimensionale Generalisierungen nur einen konstanten Faktor von der optimalen Lösung entfernt ist: Die optimale Generalisierung (in Bezug auf die Metrik ergibt den Wert CAV G (RT ) ≥ 1, AV G) der Tabelle RT der sich nur um den Faktor zwei von der worst case-Generalisierung durch relaxed multidimensionale Partitionierung unterscheidet: CAV G (RT ) ≤ 2. Experimente und Resultate: Um die Qualität und die Geschwindigkeit multidimen- 51 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten sionaler Generalisierung mit eindimensionaler Generalisierung vergleichen zu können, dienten sowohl natürliche als auch künstlich erzeugte Daten als Ausgangspunkt. Wie zu erwarten war, schnitt der multidimensionale Ansatz im Allgemeinen besser ab als ein vergleichbarer eindimensionaler Algorithmus. Exemplarisch dafür wird hier auf die unterschiedliche Partitionierung zweier sekundärer Identikationsmerkmale einer künstlich erzeugten Tabelle (µ = 25 und σ = 0, 2) mit 1000 Tupel eingegangen. Abbildung 2.25: optimale eindimensionale (erste Zeile) bzw. multidimensionale (zweite Zeile) Partitionierung der Domänen zweier sekundärer Identikationsmerkmale [23] Die zweite Zeile der Abbildung 2.25 zeigt, dass die multidimensionale Partitionierung die multivariate Verteilung der zugrunde liegenden Daten gut wiedergibt, wohingegen die eindimensionale Partitionierung eher zu einer Linearisierung der Attribute neigt und besonders bei kleinem k anscheinend nur die Verteilung der Werte eines einzi- gen Attributs beachtet. Dadurch wird das andere Attribut (hier das Attribut auf der x-Achse) nur zu sehr groben Regionen zusammengefasst und dementsprechend (zu) stark generalisiert. Für weitere Resultate inklusive Diagramme kann auf [23] verwiesen werden. 2.5.6 k-Optimize R. J. Bayardo und R. Agrawal präsentieren in [22] eine Methode zur k -Anonymisierung, die in den meisten Fällen optimale Ergebnisse (in Bezug auf die gegebene Metrik) trotz deutlich gesteigerter Performance im Vergleich zu anderen Algorithmen liefert. 52 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Dieser Ansatz unterscheidet sich von den bisherigen Algorithmen in mehreren Punkten: Zum einen wird nicht von der Originaltabelle ausgegangen, die durch Generalisierung und Unterdrückung in eine k -anonyme Form gebracht wird, sondern von einer Tabelle mit komplett generalisierten sekundären Identikationsmerkmalen. Erst nach und nach werden zusätzliche Informationen in Form speziellerer Werte der Attribute der Tabelle hinzugefügt, bis diese nicht mehr der Bedingung der k -Anonymität ge- nügen würde. Obwohl diese Änderung im Ablauf der Generalisierung eher willkürlich erscheinen mag, ist sie ein wichtiger Beitrag zum Erfolg dieses Ansatzes. Auÿerdem wird ein spezieller Baumsuchalgorithmus zum Aunden der besten Lösung verwendet, der durch spezielle Abbruchbedingungen den Suchraum entscheidend verkleinert und auch eine dynamische Neuanordnung des Suchbaums unterstützt. Drittens wird eine neue Datenmanagementstrategie eingesetzt, die die Kosten der Bewertung einer k -Anonymisierung drastisch reduziert. Wie bereits erwähnt, muss zur Generalisierung eines Attributs zuerst seine Domäne in Intervalle partitioniert werden, welche alle möglichen Werte umfassen. So Alter mit der Grunddomäne A0 = {1, 2, 3, . . . , 30} A1 = {[1, 10] , [11, 20] , [21, 30]} partitioniert werden. Um kann z.B. das (geordnete) Attribut entsprechend der Domäne diese Schreibweise zu verkürzen, wird im Folgenden nur mehr der kleinste Wert eines Intervalls angegeben, und somit kann die Generalisierung des Attributs dermaÿen angeschrieben werden: Alter folgen- {1, 11, 21}. Um eine Tabelle entsprechend der Methode von R. J. Bayardo und R. Agrawal in eine k -anonyme Form umzuwandeln, müssen zuerst die Werte der Attribute geordnet werden (z.B. aufsteigend), und wie oben erwähnt in Intervalle eingeteilt werden. Es sollte beachtet werden, dass diese Intervalle nicht zu groÿ gewählt werden, da diese Einteilung das Mindestmaÿ der späteren Generalisierung festlegt. Danach werden die Attribute selbst geordnet und die Intervalle fortlaufend nummeriert. Abbildung 2.26 zeigt diese totale Ordnung dreier Attribute mit insgesamt neun möglichen Werten. Abbildung 2.26: Ein Beispiel totaler Ordnung der Domänen einer Tabelle mit drei Attributen und insgesamt neun möglichen Werten. [22] Die Zahl des ersten Intervalls eines jeden Attributs ist mit dem Zeichen * markiert. Eine Anonymisierung muss zumindest diese Werte enthalten (am Beispiel der Abbildung 2.26: {1, 4, 6}). Die Werte der Originaltabelle werden auf die Intervalle oder W ] (Attribut Ledig ] (Attribut k -Anonymisierung: [10 − 49] (Attribut Alter), [M Dies entspricht dem allgemeinsten Fall der Geschlecht) und [Verheiratet F amilienstand) abgebildet. 53 oder Verwitwet oder Geschieden oder Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Der Startwert des Intervalls eines Attributs wird durch die entsprechende Zahl in der Anonymisierung angegeben, und das so aufgespannte Intervall erstreckt sich bis zur nächsten in der Anonymisierung angegebenen Zahl. Sollte diese bereits zum nächsten Attribut gehören, so wird das Intervall so groÿ gewählt, dass es alle möglichen Werte des Attributs umfassen kann. Diese Art der k -Anonymisierung ist mit der weiter oben beschriebenen Generalisierung eines einzelnen Attributs vergleichbar (abgekürzte Schreibweise) auch wenn dies natürlich auf einer anderen Ebene geschieht. Durch das Hinzufügen weiterer Werte zur Anonymisierung z.B. {1, 4, 5, 6, 8} er- gibt sich also eine Tabelle mit zusätzlichen Informationen und höherer Aussagekraft {1, 4, 5, 6, 8} würden sich folgende [10 − 49] (Attribut Alter), [M ] und [W ] (Attribut Geschlecht) und Verwitwet ] und [Geschieden oder Ledig ] (Attribut F amilienstand). dank kleinerer Intervalle. Durch die Anonymisierung Intervalle ergeben: [Verheiratet oder Die Anonymisierung mit dem höchsten Informationsgehalt enthält natürlich alle möglichen Werte {1, 2, 3, 4, 5, 6, 7, 8, 9}. Natürlich besteht nun die Gefahr, dass eine Anonymisierung, die möglichst viele Informationen der Originaltabelle beibehalten will, keine k -anonyme Tabelle erzeugt. Deshalb wird eine systematische Suche im Lösungsraum durchgeführt, um die optimale k -Anonymisierung zu erhalten. Dazu wird das OPUS Framework verwendet, das eine set-enumeration-search Strategie mit dynamischer Baumneuanordnung und speziellen Abbruchsbedingungen ( pruning ) erweitert. Zuerst werden alle Untermengen eines Alphabets (= Anonymisierung) systematisch durch Erweiterung des Baums aufgezählt (set-enumeration). Abbildung 2.27 zeigt ein Beispiel für das Alphabet {1, 2, 3, 4}. Jeder Knoten repräsentiert eine Anonymisierung, die auf ihre Kosten hin getestet werden soll. Der oberste Knoten ({}), von dem aus der Baum zu wachsen beginnt, stellt die allgemeinste Form der k -Anonymisierung dar erst nach und nach werden zusätzliche Werte hinzugefügt und somit die Generalisierung spezieller. Die (geordneten) Werte eines Knotens, die an seine Kinder weitergegeben werden können, nennt man tail set . (Bei Abbildung 2.28 wird das tail set innerhalb spitzer Klammern für jeden Knoten angegeben.) Die Kinder erhalten zusätzlich zu den direkt vererbten Werten des Elternknotens den ersten noch nicht an ein anderes Kind vergebenen Wert aus dem tail set. Somit ergibt sich der auf Abbildung 2.27 ersichtliche Baum. Natürlich könnte der soeben erstellte Baum mittels diverser Suchalgorithmen wie der Tiefensuche nach der optimalen Anonymisierung durchsucht werden: Für jeden Knoten, der ja eine Anonymisierung repräsentiert, werden die Kosten berechnet und mit den bisherigen Kosten verglichen. Sollte sich ein besserer Wert ergeben, so werden zukünftige Ergebnisse mit dieser Anonymisierung verglichen. Wenn dieser Algorithmus terminiert, hat man eine optimale Lösung identiziert unglücklicherweise ist diese Methode, wie bereits erwähnt, nicht praktisch anwendbar, da der Suchraum im Normalfall viel zu groÿ ist. 54 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Abbildung 2.27: Set-enumeration-Baum über das Alphabet {1, 2, 3, 4} [22] Daher versucht der in [22] vorgestellte Algorithmus, die Knoten selbst bzw. Werte im tail-set zu prunen. Dadurch kann der Suchraum erheblich eingeschränkt werden bzw. der Verzweigungsfaktor des Baums reduziert werden, wie es in Abbildung 2.28 deutlich ersichtlich ist: Der Wert 3 vom tail-set des Knotens {1} wird gestri- chen, womit sich ein wesentlich kleinerer Baum als Abbildung 2.27 ergibt. Natürlich darf ein Wert nur dann entfernt werden, wenn festgestellt wurde, dass Nachkommen dieses gestrichenen Wertes/Knotens keine optimalen Lösungen ergeben können. Dies kann durch Berechnung der Kosten (basierend auf der gegebenen Metrik), die von den nachfolgenden Knoten erreicht werden könnten und dem Vergleich mit bereits bestehender Kosten, erfolgen. Überschreiten die neu berechneten Kosten die bisherigen besten Ergebnisse, so kann dieser Knoten gelöscht werden. Ähnlich verhält es sich auch mit dem Entfernen von Elementen aus dem tail-set genauere Angaben dazu und zur Berechnung der Kosten können in [22] nachgelesen werden. Eine weitere Möglichkeit, Werte zu prunen und somit den Suchraum möglichst klein zu halten, ist die Möglichkeit, nutzlose Werte zu entfernen. Abbildung 2.29 zeigt dies an einem Beispiel: Eine Datei, deren Tupel sich aufgrund bereits erfolgter Anonymisierung in fünf Äquivalenzklassen benden, wird durch einen weiteren Wert in der Anonymisierung erneut unterteilt (strichlierte Linien). Wenn dadurch die Äquivalenzklassen in zu kleine Bereiche aufgebrochen werden (alle neuen Klassen kleiner als k ), so wird der hinzugefügte Wert als nutzloser Wert eingestuft und kann gelöscht werden. Neben dem prunen von Werten kann sich auch die Neuanordnung des tail sets positiv auf die Performance auswirken und auch das Löschen der richtigen Werte unterstützen. Durch die von einem Knoten H festgelegte Anonymisierung werden die Tupel einer Tabelle in Äquivalenzklassen eingeteilt. Durch das Hinzufügen eines 55 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Abbildung 2.28: Set-enumeration-Baum über das Alphabet {1, 2, 3, 4} inklusive An- gabe des tail-sets und pruning des Wertes 3 vom tail-set des Knotens {1} [22]. Abbildung 2.29: Eine sortierte Datei mit in fünf Äquivalenzklassen eingeteilten Tupel. Durch Hinzufügen eines Wertes zur Anonymisierung würden sich die Äquivalenzklassen an den strichlierten Linien teilen. Wenn alle sich so ergebenden neuen Äquivalenzklassen kleiner als k sind, wird der hinzugefügte Wert als nutzloser Wert bezeichnet [22]. Elements des tail sets des Knotens H zur Anonymisierung werden die bereits be- stehenden Klassen natürlich weiter aufgeteilt. Die Anzahl der so neu entstehenden Äquivalenzklassen wird für jedes Element berechnet und diese dann in absteigender Reihenfolge im tail set angeordnet. Somit werden Anonymisierungen, die viel verändern, möglichst bald getestet, wohingegen Anonymisierungen, die nur wenig bewirken, bis zum Schluss aufgehoben oder sogar vorzeitig entfernt werden. Ein weiterer anspruchsvoller Aspekt des k -Optimize-Algorithmus ist die eziente Berechnung der Äquivalenzklassen, welche sich durch einen Knoten oder dem Hinzufügen eines zusätzlichen Wertes aus dem tail set ergeben, um die Kostenfunktionen zu ermitteln. Ein einfacher und langsamer Ansatz wäre das Sortieren der gesamten Datensätze nach jeder Veränderung und anschlieÿendes Durchsuchen der Datei, um die Grenzen der einzelnen Klassen zu nden. Da aber durch Hinzufügen eines zusätzlichen Wertes zur Anonymisierung die Äquivalenzklassen nicht völlig neu deniert sondern nur weiter unterteilt werden, ist es nicht nötig, die gesamte Datei zu durchsuchen. So werden nur die relevanten Klassen genauer untersucht und anhand des hinzugefügten Wertes aufgespalten. 56 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Experimente und Resultate: Für Testzwecke wurde eine Tabelle mit 30162 Tupel und 9 Attributen verwendet. Dabei wurde aber nicht nur k -Optimize mit anderen Algorithmen verglichen, sondern hauptsächlich der Algorithmus mit verschiedenen Kongurationen getestet. Abbildung 2.30 zeigt einen dieser Selbstvergleiche: Als Metrik wurde die Discernibility Metric (Kapitel 2.4.2) verwendet. Folgende Einstellungen kamen zum Einsatz: Unterdrückung erlaubt/nicht erlaubt/teilweise erlaubt (sub limit) und feine bzw. grobe Pre-Generalisierung eines Attributs (ne/coarse). Da durch eine Pre-Generalisierung der Suchraum verkleinert wird, kann dadurch erwartungsgemäÿ eine Performancesteigerung von k -Optimize erreicht werden, wohingegen das Gestatten von Unterdrückungen die Ezienz des Algorithmus deutlich verschlechtert. Abbildung 2.30: Test des k -Optimize-Algorithmus mit verschiedenen Einstellungen [22] Auf den Vergleich mit anderen k -Anonymisierungsalgorithmen wurde in [22] nicht besonders ausführlich eingegangen. Es wird nur erwähnt, dass greedy-Algorithmen im Vergleich meist sehr schnell terminierten, jedoch suboptimale Ergebnisse erzielten, wohingegen andere (bessere) Methoden wiederum relativ langsam konvergierten. 57 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten 2.5.7 l-Diversity l -Diversity [28] ist eine Weiterentwicklung der k -Anonymität und versucht durch zusätzliche Beschränkungen und Forderungen zwei der in Kapitel 2.4.5 erwähnten Angrie gegen k -anonyme Daten (Homogenitätsattacke und Angri durch Hinter- grundwissen) zu verhindern. Da bei beiden zuvor erwähnten Attacken Hintergrundinformationen des Angreifers eine groÿe Rolle spielen, wird hier zuerst auf diesen Punkt eingegangen. Der Angreifer kennt natürlich die veröentlichte k -anonyme Tabelle, und man kann annehmen, dass ihm auch die Domäne jedes Attributs bekannt ist. Auÿerdem könnte er auch wissen, dass eine spezielle Person in der Tabelle enthalten ist. Wenn dies der Fall ist, wird er wahrscheinlich auch über die nicht sensiblen Attribute (= sekundäre Identikationsmerkmale) der Person Bescheid wissen und/oder auch einige sensible Attribute ausschlieÿen können. Auch über die Verteilung der sensiblen und nicht sensiblen Attribute in der Bevölkerung (Demographisches Hintergrundwissen) könnte der Angreifer informiert sein (z.B. Wahrscheinlichkeit von Krebs bei einem Patienten über 40). Mittels des Bayes-Theorems wird in [28] versucht, das mögliche Hintergrundwissen eines Angreifers bei der Anonymisierung einer Tabelle zu berücksichtigen. Dabei werden die Begrie prior belief und observed belief verwendet. Der Begri prior belief steht für das eigentliche Hintergrundwissen einer Person. Nachdem sie aber die veröentlichte Tabelle eingesehen hat, wandelt sich ihr prior belief in den observed belief um, welcher durch den Satz von Bayes berechnet werden kann. Das Ziel ist nun, dass die Dierenz zwischen prior belief und observed belief möglichst gering ist mit anderen Worten, der Angreifer sollte nur an wenig neue Informationen durch die veröentlichte Tabelle gelangen. In diesem Zusammenhang sind auch die Begrie positive und negative disclosure wichtig. Von positive disclosure spricht man dann, wenn der Angreifer, nachdem ihm die generalisierte Tabelle bekannt ist, mit hoher Wahrscheinlichkeit das sensible Merkmal einer gewissen Person identizieren kann. Ein Beispiel dafür ist in Kapitel 2.4.5 zu nden, wo Alice aufgrund einer Homogenitätsattacke das sensible Merkmal von Bob ausndig machen konnte. Wenn ein Angreifer Werte des sensiblen Attributs mit hoher Wahrscheinlichkeit ausschlieÿen kann, so handelt es sich um negative disclosure wie es auch beim Beispiel Angri durch Hintergrundwissen im Kapitel 2.4.5 der Fall war. Doch nicht immer sind positive und negative disclosure so fatal wie bei den beiden vorangegangenen Beispielen: Wenn Alice z.B. ausschlieÿen kann, dass Bob an Ebola leidet, so kann sie daraus keinen groÿen Nutzen ziehen, da ihr prior belief für dieses Ereignis ohnehin klein war und somit der Unterschied zwischen prior belief und observed belief ebenfalls gering ausfällt. Leider gibt es bei diesem Ansatz auch einige Nachteile: Man weiÿ im Allgemeinen nicht die Verteilung der sensiblen und nichtsensiblen Attribute in der Gesamtbevölkerung Ω, die man aber benötigt, um den observed belief zu berechnen. Auÿerdem 58 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten kann man sich nicht sicher sein, was und wie viel der Angreifer tatsächlich weiÿ. Bei speziellen und auÿergewöhnlichen Fällen kann zusätzliches Wissen des Angreifers auch negative Auswirkungen für ihn haben: Wenn Bob z.B. eine für sein Alter ungewöhnliche Krankheit hat, so wird ein Angreifer, der den Zusammenhang zwischen Krankheit und Alter kennt, diese Möglichkeit eher ausschlieÿen eine Person, die nicht über dieses Wissen verfügt, wird die tatsächliche Krankheit eher in Erwägung ziehen. Daher muss bei der Veröentlichung der Daten darauf geachtet werden, dass man auch Angreifer mit unterschiedlichen Stufen an Hintergrundwissen in Betracht zieht. Um die zuvor beschriebenen Nachteile und Unzulänglichkeiten zu umgehen, wird in [28] die l -Diversity eingeführt. Das Wort Diversity, das im Deutschen Mannigfaltigkeit oder auch Vielfalt bedeutet, bezieht sich auf das sensible Attribut, das pro k -Gruppe eine Gruppe aus mindestens k Tupel, die sich nicht durch die Kombinati- on ihrer sekundären Identikationsmerkmale unterscheidet mindestens Werte annehmen muss (l Denition: Eine k -Gruppe ist l-divers, wenn das sensible Attribut der Gruppe zu- l verschiedene Ausprägungen aufweist. Eine Tabelle T k -Gruppe l-divers ist. mindest jede l verschiedene ≥ 2). ist dann l -divers, wenn Durch diese Bedingung wird die Attacke durch Hintergrundwissen deutlich erschwert. Der Angreifer muss nun l−1 sensible Werte durch negative disclosure ausschlieÿen können, um an den tatsächlichen Wert zu kommen. Auch die Homogenitätsattacke ist bei einer l-diversen Tabelle aufgrund der verschiedenen Werte des sensiblen Attributs nicht möglich. Ein Beispiel dafür zeigt Tabelle 2.10, die eine 3-diverse Abwandlung der Tabelle 2.3 darstellt und somit nicht mehr durch die beiden erwähnten Angrie korrumpiert werden kann. Zusammenfassend kann man folgende Vorteile der l -Diversity gegenüber der k -Anonymität und dem Ansatz mit dem Bayes-Theorem herausstreichen: l-Diversity schützt vor Homogenitätsattacken und Angrien durch Hinter- grundwissen. l-Diversity benötigt trotzdem kein Wissen über die Verteilung der Attribute in der Grundgesamtheit. l-Diversity setzt auch nicht voraus, dass man bei der Veröentlichung der Ta- belle Informationen über einen möglichen Angreifer haben muss. Auch verschiedene Stufen von Hintergrundwissen müssen nicht extra in Betracht gezogen werden. l-Diversity hat, wie auch die k -Anonymität, die Eigenschaft (im Gegensatz zum Ansatz mit dem Bayes-Theorem) monoton zu sein. Das bedeutet, dass eine weitere Generalisierung einer Tabelle, die bereits l -Diversity ist, wieder l -Diversity ist. Diese Eigenschaft kann man sich bei der Umwandlung einer Tabelle in eine 59 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten PLZ Alter Nationalität Diagnose 1 103* * Herzerkrankung 2 103* * Virale Infektion 3 103* * Krebs 4 103* * Krebs 5 11** * Krebs 6 11** * Herzerkrankung 7 11** * Virale Infektion 8 11** * Virale Infektion 9 101* * Herzerkrankung 10 101* * Virale Infektion 11 101* * Krebs 12 101* ≤ 40 ≤ 40 ≤ 40 ≤ 40 > 40 > 40 > 40 > 40 ≤ 40 ≤ 40 ≤ 40 ≤ 40 * Krebs Tabelle 2.10: 3-diverse Abwandlung der Tabelle 2.3 [28] l -Diversity Form zunutze machen. Wie schon erwähnt wurde, gibt es bereits bei kleinen Tabellen mit wenigen Attributen eine groÿe Anzahl an möglichen Lösungen. Um schneller ans Ziel und zu einer Lösung zu kommen, verwenden viele Algorithmen Suchstrategien im Lösungsraum, die die Suche an einem Ast vorzeitig abbrechen können, wenn gewisse Abbruchkriterien erfüllt sind. Ohne der Eigenschaft der Monotonie könnten durch den vorzeitigen Stopp wichtige Lösungen verloren gehen. Die bisherigen Aussagen über die l -Diversity beruhen auf der Annahme, dass pro Datensatz nur ein sensibles Attribut vorkommt. Wenn man das Prinzip der l -Diversity auch auf mehrere medizinische Attribute pro Tabelle ausweiten will, ergeben sich neue Herausforderungen, wie es in Tabelle 2.11 ersichtlich ist. Bei dieser Tabelle handelt es sich um eine k -Gruppe, die sowohl auf das Attribut Symptom als auch auf Attribut Diagnose bezogen 3-divers ist (jeweils ohne das andere Attribut). Ein Angreifer, der weiÿ, dass sich eine bestimmte Person in dieser Tabelle bendet und z.B. ausschlieÿen kann, dass die Person an Bluthochdruck leidet, hat somit das zweite sensible Merkmal identiziert, und der Angri ist erfolgreich. Eine Möglichkeit, diesem Angri entgegenzuwirken, wäre die zufällige Anordnung der Werte eines sensiblen Attributs innerhalb einer k -Gruppe, um die Korrelation zwischen den beiden Attributen aufzubrechen. Da aber eine derart groÿe Veränderung der Daten für die meisten wissenschaftlichen Studien inakzeptabel wäre, ist von diesem Lösungsansatz Abstand zu nehmen. Folgende Methode, die kurz in [28] skizziert wird, eignet sich besser, um das zuvor beschriebene Problem zu lösen: Gegeben sei eine 60 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten PLZ Alter Nationalität Symptom Diagnose 1 103* * Bluthochdruck Herzerkrankung 2 103* * Bluthochdruck Virale Infektion 3 103* * Gelenksschmerzen Krebs 4 103* ≤ 40 ≤ 40 ≤ 40 ≤ 40 * Bauchschmerzen Krebs Tabelle 2.11: 4-anonyme Tabelle mit zwei sensiblen Merkmalen [28] Tabelle mit den sensiblen Attributen S , V1 , V2 , . . . , Vm . Zuerst werden die Attribute V1 , V2 , . . . , Vm ignoriert und die Originaltabelle in eine l-diverse Tabelle bezogen auf Attribut S umgewandelt. φ = 1 − 1/l und ts sei die Zahl der Tupel mit dem 0 Wert s des Attributs S innerhalb einer k -Gruppe. Für jedes s innerhalb einer k 0 Gruppe werden dφts0 e Tupel mit der Ausprägung s ausgewählt und die Werte der Attribute V1 , V2 , . . . , Vm für diese Datensätze unterdrückt. Die zusätzliche Sicherheit wird hier durch die Unterdrückung von Zelleninhalten erkauft. Die Information sinkt dementsprechend weiter ab. Trotzdem hat diese Methode auch ihre Vorteile: Die Information durch das Attribut Die Information der restlichen sensiblen Attribute (V1 , S bleibt vollständig erhalten. V2 , . . . , Vm ) bleibt zumin- dest teilweise erhalten. Die Information durch die Korrelation der einzelnen Attribute wird nicht verfälscht. Experimente und Resultate: Um die Performance des l -Diversity Algorithmus einschätzen zu können, wurde in [28] die Zeit, die dieser Algorithmus braucht, um eine Datenbank mit 45222 der verwendete l-diverse Tabelle umzuwandeln, mit der benök -Anonymisierungsalgorithmus verglichen. (Leider wird Tupel in eine tigten Zeit eines normalen k -Anonymisierungsalgorithmus nicht näher erwähnt.) Abbildung 2.31 zeigt das Ergebnis des Vergleichs: Die Verarbeitungszeit nimmt bei steigender Anzahl sekundärer Identikationsmerkmale bei beiden Algorithmen in etwa gleich zu. Neben der Geschwindigkeit ist natürlich auch die Nützlichkeit der erhaltenen Daten von Interesse. Um diese zu bestimmen, wurden die schon in Kapitel 2.4.2 erwähnten Metriken verwendet. Dabei wurde festgestellt, dass auch hier die beiden getesteten Algorithmen in den meisten Fällen etwa gleich abschnitten und die l -Diversity die Daten nicht unbedingt stärker generalisiert, als es für das Erreichen einer k -anonymen Tabelle nötig ist. Für weiterführende Vergleiche und Tests in Bezug auf Performance und Verwendbarkeit wird auf [28] verwiesen. Obwohl auf manchen Gebieten der l -Diversity noch Forschungsbedarf besteht (z.B. mehrere sensible Attribute pro Tabelle), kann man aufgrund der Vorzüge dieser Ano- 61 Kapitel 2. Anonymisierung und Pseudonymisierung medizinischer Daten Abbildung 2.31: Performancevergleich l -Diversity und nymisierungsmethode (verglichen mit der k -Anonymität k -Anonymität [28] wird höherer Schutz der Da- ten bei etwa gleicher Verarbeitungsgeschwindigkeit und ähnlicher Nützlichkeit geboten) durchaus von einer gelungenen Weiterentwicklung sprechen. 62 3 Methoden 3.1 Das Studiensystem ArchiMed Der Name ArchiMed bezeichnet ein Multicenter-Studiensystem, das an der Medizinischen Universität Wien 2 (MSI) 1 an der Besonderen Einrichtung für Medizinische Statistik vom Institut für Medizinische Informations- und Auswertesysteme (MIAS) 3 entwickelt wurde. In seiner ursprünglichen Version ist ArchiMed als Monocenter- Studiensystem seit den Jahren 1997 bzw. 1999 an den Medizinischen Universitäten Wien und Graz im Einsatz. Ein Studiensystem wie ArchiMed [35] kann das Datenmanagement klinischer Studien eine Tätigkeit, die einen wesentlichen Teil der Arbeit eines wissenschaftlichen Mitarbeiters einer Universitätsklinik darstellt erheblich erleichtern und vor allem auch die Qualität der somit erstellten Studien steigern: Der Benutzer wird bei der Eingabe der Daten durch zahlreiche Systemkomponenten unterstützt (interaktive Datenvalidierung). Das System bietet eine integrierte Dokumentationsumgebung für die zuvor entwickelten Formulare. Ein Auswertesystem unterstützt die klinische Forschung durch statistische Analysen, die aufgrund vordenierter statistischer Funktionen in benutzerfreundlicher Form auch Benutzern mit geringer Erfahrung im statistischen Bereich ermöglichen, die erhobenen Daten zu analysieren. Die für eine Studie nötige Patientenrekrutierung wird unterstützt und vereinfacht, indem Ein- und Ausschlusskriterien automatisch überprüft werden. Das Design der Studienformulare wird durch eine entsprechende Systemkomponente erleichtert, und der Endanwender kann ohne Unterstützung selbst die benötigten Formulare entwerfen. Im Gegensatz zu Monocenter-Studien sind Multicenter-Studien nicht an eine Institution gebunden, wo sie lokal durchgeführt werden, sondern können von mehreren 1 http://www.meduniwien.ac.at/ 2 http://www.meduniwien.ac.at/msi/ 3 http://www.meduniwien.ac.at/msi/mias/ 63 Kapitel 3. Methoden Einrichtungen parallel betrieben werden. Dadurch ergeben sich natürlich zusätzliche Anforderungen, die das Studiensystem erfüllen muss. Vor allem gesetzliche Vorschriften in Bezug auf Datenschutz und Datensicherheit müssen beachtet werden (siehe Kapitel 1.2). Um das derzeit noch verwendete ArchiMed Monocenter-Studienystem zu einem Multicenter-Studiensystem zu erweitern, war es nötig, einige Systemkomponenten anzupassen, um folgende Funktionalitäten zu erhalten: Dokumentation der Studiendaten via Internet Sichere Datenübertragung Selektive Berechtigungsvergabe (sowohl für die einzelnen Studienpartner als auch für die Studienzentrale) Einfacher Aufbau von neuen Studien mit exibler Zuordnung von Studienpartnern sowie deren Benutzer Möglichkeit zur raschen Erstellung bzw. Änderung von Studienformularen Protokollierung von Datenänderungen Export der Studiendaten mit der Möglichkeit einer Anonymisierung bzw. einer k -Anonymisierung Der letzte Punkt dieser Auistung die Ermöglichung eines (k -anonymen) Exports wurde im Rahmen dieser Arbeit verwirklicht. Aufbauend auf einem bereits bestehenden Framework wurde ein Exportwerkzeug entwickelt, das dem Benutzer bei der Erstellung eines Exports unterstützt, Vorschläge zum Erreichen der k -Anonymität gibt und den Export auch ausführt. 3.2 Methode der Bevor ein spezieller k -Anonymisierung k -Anonymisierungsalgorithmus (siehe Kapitel 2.5) ausgewählt wer- den konnte, mussten einige grundlegende Überlegungen getroen werden. Vor allem stellte sich die Frage, ob und wie domain generalization hierarchies (DGH siehe Kapitel 2.4) verwendet werden und wie weit der Benutzer selbst in die Anonymisierung eingreifen sollte (automatische/manuelle k -Anonymisierung). Viele der im Kapitel 2.5 vorgestellten Algorithmen basieren auf solchen Verallgemeinerungshierarchien, doch kein Artikel geht im Speziellen darauf ein. Zu Fragen wie: Kann ein Benutzer, der nur am Rande mit Algorithmen und Informationstechnologien vertraut ist (z.B. Ärzte), eine seinen Anforderungen entsprechende DGH erstellen?, Hat es Sinn, Hierarchi- en für einige immer wieder vorkommende Attribute x zu implementieren?, Welche Attribute eignen sich für die Erstellung einer 64 DGH bzw. welche Attribute sind dafür Kapitel 3. Methoden eher ungeeignet?, Welche Alternativen zu dieser Technik gibt es? konnten durch diese Artikel nicht beantwortet werden. Aufgrund folgender Überlegungen wurde gegen die Verwendung von DGHs ent- schieden: Verallgemeinerungshierarchien eignen sich nicht für alle Attribute. Wenn z.B. nicht die gesamte Domäne eines Attributs bekannt ist, kann eine DGH nicht erstellt werden. Viele Attribute haben eine groÿe (bis unendliche) Anzahl an möglichen Werten. Dadurch gestaltet sich die Erstellung einer Hierarchie sehr arbeitsaufwändig. Verschiedene Aufgabenstellungen erfordern in den meisten Fällen auch unterschiedliche Hierarchien, die dementsprechend vom Benutzer selbst angelegt werden müssen und somit einen Mehraufwand darstellen oder auch den Benutzer überfordern können. Auch in [36] wird darauf hingewiesen, dass das Erstellen einer DGH keine triviale Tätigkeit ist und der Erfolg der wesentlich von den vorhandenen DGH s k -Anonymisierung abhängt. Dadurch ergab sich die Notwendigkeit, nach einer anderen Möglichkeit der Generalisierung zu suchen. Schlieÿlich el die Entscheidung auf eine manuelle Editierung/Generalisierung der Werte mit Unterstützung des Exportwerkzeuges (mehr dazu in Kapitel 4). Aufgrund der nicht automatischen Generalisierung waren viele der k- Anonymisierungsstrategien aus Kapitel 2.5 ungeeignet: Algorithmen wie MinGen (siehe Kapitel 2.5.1) treen ihre Entscheidung auf Zellenebene und verändern so pro Tabelle eine groÿe Anzahl an Zelleneinträgen, was zu einem zu groÿen Arbeitsaufwand bei manueller Editierung führen würde. Daher kamen nur mehr wenige Algorithmen in Frage, von denen eine leicht abgeänderte Form des Datay-Algorithmus ausgewählt wurde (siehe Kapitel 2.5.2). Im Folgenden sind die Punkte aufgelistet, die zum Einsatz von Datay führten: Die Entscheidungen, die dieser Algorithmus trit, sind verständlich und auch für den Benutzer leicht nachvollziehbar. Datay ändert die Werte spalten- bzw. zeilenweise, was zu einem geringeren Aufwand bei einer manuellen Editierung der Einträge führt. Datay lässt sich im Vergleich zu anderen Algorithmen relativ leicht implementieren. Aufgrund des eher einfachen Datay-Algorithmus hält sich der Rechenaufwand in Grenzen, und die Entscheidungen sind in Echtzeit verfügbar. Die Qualität der Anonymisierung ist daher nicht optimal, aber in den meisten Fällen ausreichend. 65 4 Resultate Im Folgenden wird zunächst ein grober Überblick über den Funktionsumfang des k -anonymen Exportwerkzeugs gegeben, bevor konkret auf die Realisierung des Werk- zeuges im System ArchiMed eingegangen wird. Dazu wird der Exportvorgang schrittweise anhand eines Beispiels erklärt. 4.1 Funktionsumfang des k -anonymen Datenexportwerkzeuges Basierend auf den in der Datenbank des Systems ArchiMed bereits vorhandenen Tabellen EXPORTE, EXPORTPOSITIONEN, EXPORTERGEBNISSE und EXPORT- ERGEBNISZEILEN liefert das Exportwerkzeug folgende Funktionalitäten die Reihenfolge der Funktionen entspricht der Abfolge der einzelnen Schritte beim Exportieren der gewünschten Studiendaten (siehe auch Abbildung 4.1): 1. Die Studie bzw. das Studienformular, das für den Export verwendet werden soll, wird geönet. 2. Ein neuer Export wird angelegt bzw. ein bereits bestehender Export dieser Studie wird ausgewählt. 3. Die Parameter für den Export werden festgelegt (bzw. geändert): Es kann das Datums- und das Zeichenformat gewählt und ein Kommentar dem Export hinzugefügt werden. Auÿerdem kann das gewünschte Trennzeichen angegeben werden, das die einzelnen Attributwerte des Exportergebnisses voneinander trennt. Diese Parameter werden in der Tabelle EXPORTE gespeichert (pro Export ein Datensatz). 4. Die einzelnen Attribute, die exportiert werden sollen (= Exportpositionen), können ausgewählt werden. Zusätzlich wird jede Exportposition klassiziert, ob es sich um ein primäres bzw. sekundäres Identikationsmerkmal oder um ein medizinisches Attribut handelt. Neben dieser Einteilung können noch weitere Parameter für jedes Attribut vergeben werden (z.B. neue Bezeichnung des Attributs für den Export), die in der Tabelle EXPORTPOSITIONEN festgehalten werden (pro Exportposition ein Datenbankeintrag). 66 Kapitel 4. Resultate 5. Eine Exportvorschau wird generiert, die den aktuellen k -Wert berechnet und die einzelnen Tupel des Exports, gereiht nach ihrer Häugkeit, wiedergibt. Wenn der gewünschte Grad der Anonymisierung noch nicht erreicht ist, wird der Benutzer vom Exportwerkzeug auf mögliche Abänderungen der Daten hingewiesen, die zu einer Erhöhung des k -Wertes führen. 6. Der Export wird durchgeführt und in den Tabellen EXPORTERGEBNISSE bzw. EXPORTERGEBNISZEILEN gespeichert. Abbildung 4.1: UML-Aktivitätsdiagramm, das den Ablauf eines k -anonymen Daten- exports darstellt 4.2 Realisierung des k -anonymen Datenexports im System ArchiMed Um die Realisierung der zuvor angeführten Funktionen dem Leser möglichst übersichtlich zu präsentieren, werden anschlieÿend die einzelnen Schritte eines Exports anhand eines Beispiels inklusive Screenshots und Erklärungen zu diversen Einstellungsmöglichkeiten vorgestellt: Nachdem die gewünschte Studie geönet wurde (Abbildung 4.2 zeigt eine ausgewählte exemplarische Studie mit dem Bezeichner k-Anonyme Studie und die dazugehörigen bestehenden Dokumente), kann der Exportvorgang durch Betätigen des Links Export gestartet werden. Abbildung 4.3 zeigt den nächsten Schritt des Exportwerkzeuges: Alle bereits angelegten Exporte der im letzten Schritt ausgwählten Studie werden angezeigt. 67 Kapitel 4. Resultate Abbildung 4.2: Ein Screenshot der Studiendokumentation einer ausgewählten Studie mit den bereits erstellten Dokumenten: Mittels des Menüpunkts Export (siehe Pfeil) kann der Exportvorgang zu dieser Studie gestartet werden. Abbildung 4.3: Liste der bereits vorhandenen Exporte einer Studie: Hier kann ein neuer Export angelegt werden (Button Neuen Export anlegen), ein bereits vorhandener ausgewählt werden (Link ändern) bzw. direkt zum Formular Wählen Sie ein Exportergebnis (Abbildung 4.9) gesprungen werden. 68 Kapitel 4. Resultate Nach Auswahl eines bereits erstellten Exports (Link ändern) bzw. nach Anlegen eines neuen Exports (Button Neuen Export anlegen) gelangt man zur Maske Export editieren, die Abbildung 4.4 zeigt. Hier kann man folgende Parameter des neuen Exports vergeben bzw. Parameter des vorhandenen Exports ändern: Abbildung 4.4: Maske zum Festlegen der Parameter eines Exports (z.B. Trennzeichen, Zeichenformat, Datumsformat,. . . ) Bezeichner: Der Bezeichner (Name) des Exports kann hier vergeben werden. Er ist unter anderem bei der Auswahl eines Exports sichtbar. Trennzeichen: Das Trennzeichen man kann zwischen TAB, Strichpunkt, Beistrich und Leerzeichen wählen trennt die einzelnen Attributwerte des Exportergebnisses voneinander. Daraus entsteht eine Zeichenkette der Form: Text <Trennzeichen> Text <Trennzeichen> Text . . . z.B.: 1070;10.12.1965;88;70;. . . . Zeichenformat Das Konvertierungsformat für Zahlen bzw. Datum/Zeit kann bzw. Datumsfor- hier ausgewählt werden. mat: Kommentar: Hier kann dem Export noch ein Kommentar hinzugefügt werden, welcher bei der Auswahl eines Exports sichtbar ist. Ein Klick auf den Link Weiter erstellt einen Export mit der soeben ausgewählten Exportbeschreibung und legt einen entsprechenden Datensatz in der Tabelle EXPOR- TE an. Nun müssen in der darauolgenden Maske (Abbildung 4.5) die gewünschten Attribute (Exportposition) ausgewählt werden, die in den Export übernommen werden sollen. Dazu wird im Dropdown-Menü Variablenart entsprechend der Aufgabenstellung Exportieren, Sekundäre Identikation, Primäre Identikation bzw. Nicht 69 Kapitel 4. Resultate Abbildung 4.5: Parametrierung der einzelnen Exportpositionen (z.B. Variablenart zur Auswahl der gewünschten Exportpositionen, Funktion zur Auswahl einer Aggregatfunktion,. . . ) Exportieren ausgewählt. Für den Export werden nur Attribute mit den Parametern Exportieren bzw. Sekundäre Identikation berücksichtigt. Exportpositionen mit der Klassikation Sekundäre Identikation werden für die Berechnung des k -Wertes im nächsten Schritt verwendet, wohingegen Attribute mit dem Parameter Exportieren als unveränderlich angesehen werden. Weitere Parameter, die pro Exportposition vergeben werden können: Spalten- Für die Exportposition kann hier optional ein neuer Bezeichner bezeichner: vergeben werden. Funktion: Nicht immer besteht der Wert eines Attributs aus einem einzigen Wert bzw. Zelle. So könnte es z.B. vorkommen, dass bei der Bestimmung der Körpertemperatur eines Patienten diese zweimal gemessen werden muss und beide Werte eingetragen werden. Somit kann man mittels Dropdown-Menü Funktion eine Aggregatfunktion wie Minimum, Maximum, Durchschnitt, Summe,. . . auswählen, die diese mehrfachen Werte zu einem einzigen Wert zusammenfasst. Wenn man die eben angesprochenen zusätzlichen Werte aber nicht verwerfen bzw. zu einem einzigen Wert zusammenfassen will, so hat man die Möglichkeit, durch das +-Icon die entsprechende Position zu duplizieren und somit jedes einzelne Datum zu exportieren. 70 Kapitel 4. Resultate Spaltennr.: Die Spaltennummer gibt an, an welcher Position (Spalte) des Exports die jeweilige Exportposition erscheint. Wenn dieser Parameter nicht gesetzt wird, so wird einfach die nächste freie Position für diese Variable reserviert. Abbildung 4.6: Die Exportvorschau zeigt eine Tabelle mit allen zuvor ausgewählten sekundären Identikationsmerkmalen und ihren gespeicherten Werten, gereiht nach ihrer Häugkeit. (Gleiche Tupel werden zusammengefasst.) Der nächste Schritt der k -Anonymisierung zeigt eine Tabelle mit allen zuvor aus- gewählten sekundären Identikationsmerkmalen und ihren gespeicherten Werten (siehe Abbildung 4.6 mit den sekundären Identikationsmerkmalen, die aus Abbildung 4.5 hervorgehen). Wenn mehrere Tupel die gleichen Ausprägungen der sekundären Identikationsmerkmale besitzen, so werden sie zu einer einzelnen Zeile zusammengefasst und die Anzahl zusammengefasster Zeilen in einer zusätzlichen Spalte angezeigt. Aufgrund dieser Häugkeiten kann leicht der momentane der im Feld derzeitiger maximaler k -Wert k -Wert berechnet werden, angezeigt wird. Sollte der gewünschte k- Wert noch nicht erreicht sein, so gibt das Exportwerkzeug in Anlehnung an den Datay-Algorithmus Empfehlungen aus, wie die vorhandenen Daten abgeändert werden können, um das beste Ergebnis zu erzielen: Sollten mehr als k Tupel eine Häugkeit von ≤k besitzen, so wird vorgeschlagen, das Attribut mit den meisten verschiedenen Werten zu generalisieren. Dazu kann der Benutzer auf die Spaltenüberschrift dieser Exportposition klicken, um eine zusätzliche 71 Kapitel 4. Resultate Tabelle zu önen, die alle verschiedenen Werte dieser Position inklusive ihrer Häugkeiten wiedergibt (siehe Abbildung 4.7). Somit ist für den Anwender ersichtlich, welche Werte nur selten vorkommen und demnach hinderlich für das Erreichen eines höheren k -Wertes sind. Um die (seltenen) Werte zu verallgemeinern, kann in der dritten Spalte der Tabelle eine generalisierte Variante des Ausgangswertes eingetragen werden. Um diese Editierung zu vereinfachen bzw. zu beschleunigen kann unterhalb der zusätzlichen Tabelle ein Intervall angegeben werden, das dazu dient, dass alle Werte des ausgewählten Attributs auf die Zeichen innerhalb dieser Grenzen reduziert werden. Somit kann zum Beispiel ein Datum der Form dd.mm.yyyy leicht generalisiert werden, indem Tage und Monate durch diese Funktion entfernt werden. Wenn der Benutzer mit den Änderungen zufrieden ist, kann er diese Tabelle schlieÿen, und das Exportwerkzeug berechnet den neuen eine Häugkeit von jedoch ≤k ≤k k -Wert. Sollten noch immer mehr als k Tupel besitzen, so wiederholt sich der letzte Schritt abermals. Falls Tupel eine Häugkeit von ≤k aufweisen, so wird empfohlen, diese Aus- reiÿer zu eliminieren, um die einzelnen Attribute nicht zu stark verallgemeinern zu müssen. Wenn die geforderte k -Anonymität erreicht ist, so kann der Benutzer den Ex- port endgültig durchführen bzw. beenden und die Daten in einer Datei abspeichern. Der Anwender ist natürlich nicht an die Empfehlung gebunden, sondern kann frei die Daten manipulieren so kann es z.B. aus Sicht des Benutzers vorteilhaft sein, eine andere Exportposition als vorgeschlagen zu verallgemeinern, wenn diese wichtige Daten enthält, die möglichst originalgetreu erhalten bleiben sollen. k -Anonymisierung anhand der Abbildungen 4.6, 4.7 und 4.8: k -Wert mit den Ausgangsdaerreichbar. Daher schlägt der k -Anonymisierungsalgorithmus vor, das Praktisches Beispiel zur Wie in Abbildungen 4.6 ersichtlich ist, ist der gewünschte ten noch nicht Attribut mit den meisten verschiedenen Ausprägungen hier die Exportposition Ge- burtsdatum zu generalisieren. Da eine Verallgemeinerung des Geburtsdatums noch nicht den gewünschten Erfolg mit sich bringt, wird im nächsten Schritt das Attribut Postleitzahl generalisiert (siehe Abbildungen 4.7), da nun dieses Attribut die meisten unterschiedlichen Werte enthält. Als nächstes wird vom k -Anonymisierungsalgorithmus vorgeschlagen, die Werte des Attributs Beruf abzuändern. Da es jedoch nur schwer möglich ist, dieses Attribut sinnvoll zu verallgemeinern, werden alle Ausprägungen dieser Exportposition gelöscht. Dadurch ergibt sich Abbildung 4.8, die eine Tabelle zeigt, die nur noch ein einziges Tupel enthält, welches nicht der gewünschten 2-Anonymität genügt. Daher wird empfohlen, diese Zeile zu löschen. Nun kann die 2-anonyme Tabelle mittels eines Rechtsklicks auf den Link Datei in Textle exportieren exportiert bzw. abgespeichert werden. Neben diesem normalen Durchlauf des Exportwerkzeuges kann auch von einem bereits angelegten Export durch Betätigen des önen-Links (siehe Abbildung 4.3) direkt zum Formular Wählen Sie ein Exportergebnis (Abbildung 4.9) gesprungen werden, wo ein neues Exportergebnis mit dem derzeitigen Datenbestand angelegt werden kann (Neues Exportergebnis anlegen). Auÿerdem kann auch durch Auswahl eines 72 Kapitel 4. Resultate Abbildung 4.7: Eine zusätzliche Tabelle (rechts), die die Werte der ausgewählten Exportposition beinhaltet und eine Editierung bzw. Generalisierung dieser ermöglicht. Abbildung 4.8: Die Exportvorschau, die eine bereits teilweise generalisierte Tabelle zeigt. 73 Kapitel 4. Resultate bereits vorhandenen Exportergebnisses dieses angezeigt werden. Abbildung 4.10 fasst zur besseren Übersicht den Ablauf des Exportwerkzeuges als UML-Aktivitätsdiagramm grob zusammen. Die einzelnen Zustände stellen die verschiedenen Formulare dar, wohingegen die Aktionen Tätigkeiten (unter anderem die Betätigung von Links bzw. Buttons) kennzeichnen, die den Pfeilen entsprechend zu den weiteren Schritten des Exportwerkzeuges führen. Abbildung 4.9: Das Formular Wählen Sie ein Exportergebnis ermöglicht das Anlegen eines neuen Exportergebnisses (inklusive Kommentar). Zusätzlich werden hier alle bereits vorhanden Exportergebnisse des Exports aufgelistet. 74 Kapitel 4. Resultate Abbildung 4.10: UML-Aktivitätsdiagramm eines Exportablaufs des Exportwerkzeuges 75 5 Diskussion Folgende Erkenntnisse konnten durch Planung und Implementierung bzw. nach der Fertigstellung des k -anonymen Exportwerkzeuges gewonnen werden: Aufgrund der manuellen Editierung/Generalisierung der Werte gestaltet sich die k -Anonymisierung trotz Unterstützung durch das Exportwerkzeug schwierig und auch aufwendig: Es ist für den Benutzer bei der Generalisierung der Ausprägungen eines Attributs nicht immer klar ersichtlich, welche Werte ausschlaggebend dafür sind, dass kein höherer k -Wert erreicht werden kann und dement- sprechend verändert werden sollten. Natürlich müssen in erster Linie Werte generalisiert werden, deren Häugkeit kleiner als das gewünschten k ist. Zusätzlich können aber auch aufgrund der restlichen Attribut- bzw. Wertkombinationen Werte mit deutlich gröÿerer Häugkeit als k verantwortlich für ein niedriges k sein, was bei groÿen Tabellen oftmals die Generalisierung erschwert. Abbildung 5.1 zeigt dieses Problem anhand eines konkreten Beispiels: Die erste Tabelle dieser Abbildung zeigt die sekundären Attribute einer Tabelle, die in eine 2-anonyme Form gebracht werden soll, wobei gleiche Tupel bereits zusammengefasst wurden. Um den aktuellen k -Wert zu erhöhen, wird die Exportposition PLZ zur Generalisierung ausgewählt (siehe zweite Tabelle der Abbildung). Da zwei Werte des Attributs nur zwei mal vorkommen, liegt der Entschluss nahe, diese beiden Ausprägungen zu generalisieren (Generalisierungsmöglichkeit A). Aus diesem Vorgang resultiert die dritte Tabelle der Abbilung 5.1, welche noch immer nicht den Anforderungen der 2-Anonymität genügt. Der Generalisierungsvorschlag, den die vierte Tabelle zeigt (Generalisierungsmöglichkeit B), bringt jedoch den gewünschten Erfolg, was auch die letzte Tabelle bestätigt. Bei der Umsetzung bzw. Planung des Exportwerkzeuges waren teilweise groÿe Unterschiede zwischen Theorie und Praxis spürbar: Vor allem die Verwendung einer DGH erwies sich bei konkreten praktischen Überlegungen als unvorteilhaft bzw. schwer zu realisieren (siehe Kapitel 3.2), obwohl viele gröÿtenteils theoretische Abhandlungen zur k -Anonymisierung personenbezogener Daten diese Technologie einsetzen. Die dabei verwendeten Beispiele zeigten zwar eindrucksvoll die Möglichkeiten von Verallgemeinerungshierarchien, doch auf etwaige Probleme oder Schwierigkeiten, die durch die praktische Anwendung entstehen bzw. entstehen können, wurde nicht näher eingangen, was dazu führte, dass auf den Einsatz einer DGH verzichtet wurde. 76 Kapitel 5. Diskussion Auch im Nachhinein betrachtet, stellt der gewählte k -Anonymisierungsalgorith- mus Datay aufgrund der gegebenen Rahmenbedingungen eine gute Wahl dar: Die leicht verständlichen Entscheidungen, die dieser Algorithmus trit, kombiniert mit relativ wenigen benötigten Editiervorgängen durch den Benutzer, machen ihn zu einem gut geeigneten Algorithmus, auch wenn er keine optimalen Resultate erzielt. Häufigkeit Geburtsj. PLZ 2 1988 1110 1 1989 1120 2 1980 1130 1 1989 1110 1 1988 1120 Häufigkeit Geburtsj. PLZ Häufigkeit Alter W. Neuer W. 2 1988 1110 3 1110 1110 1 1989 11** 2 1120 11** 2 1980 11** 2 1130 11** Generalisierungsmöglichkeit A 1 1989 1110 1 1988 11** Häufigkeit Alter W. Neuer W. Häufigkeit Geburtsj. PLZ 3 1110 11** 3 1988 11** 2 1120 11** 2 1989 11** 2 1130 1130 2 1980 1130 Generalisierungsmöglichkeit B Abbildung 5.1: Verschiedene Generalisierungsmöglichkeiten des Attributs PLZ und Auswirkungen auf die erreichtbare k -Anonymität Obwohl es bei der Bedienbarkeit bzw. Benutzerfreundlichkeit des Exportwerkzeuges sicherlich noch Verbesserungsmöglichkeiten gibt (siehe Kapitel 6), erfüllt das Ergebnis dieser Arbeit doch eindeutig die gestellten Anforderungen. 77 6 Ausblick Warum medizinische Daten ausgetauscht bzw. übermittelt werden, wurde anhand praktischer Beispiele wie der e-Health-Initiative in Österreich [5], die sich durch die Vernetzung diverser Gesundheitsanbieter und einem somit erleichterten Informationsaustausch eine Qualitäts- und Ezienzsteigerung im Gesundheitswesen erwartet, ausführlich erläutert. Da beim Verarbeiten, Übermitteln bzw. Überlassen sensibler Daten zu denen auch medizinische Daten zählen entsprechende Gesetze eingehalten werden müssen (in Österreich: Datenschutzgesetz 2000 [10] und die Richtlinie 95/46/EG des Europäischen Parlaments und des Rates vom 24. Oktober 1995 zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten und zum freien Datenverkehr [11]), wurde auch auf die für diese Arbeit relevanten Gesetzestexte eingegangen. Aus der gesetzlichen Denition von indirekt personenbezogenen bzw. anonymisierten Daten folgt, dass die Anonymisierung durch Löschen oder Verschlüsseln der primären Identikationsmerkmale nicht ausreichend ist, weil auf diesem Wege veränderte Daten immer noch ohne groÿen Aufwand personenbezogene Informationen Preis geben können. Daher wurde auf dem Konzept der setzt und verschiedene Möglichkeiten und Methoden zur k -Anonymität aufge- k -Anonymisierung analysiert k -anonymisierter k -anonymisierter Daten ein- und wiedergegeben. Zusätzlich wurde auch auf die Brauchbarkeit Daten, Laufzeitverhalten und Metriken zur Bewertung gegangen. Um einen k -anonymes k -Anonymisierungsalgorithmus praktisch umzusetzen, wurde ein Datenexportwerkzeug für das Multicenter-Studiensystem ArchiMed im Rahmen dieser Arbeit implementiert. Neben der Erläuterung der Funktionsweise der verwendeten Methode und den Kriterien, die zur Auswahl der Methode geführt haben, wurde auch ein Exportvorgang anhand eines konkreten Beispiels dokumentiert und erklärt. Auch wenn die gestellten Anforderungen an das k -anonyme Exportwerkzeug durch die im Rahmen dieser Arbeit entwickelten Anwendung erfüllt wurden, bleibt trotzdem noch Raum für Verbesserungen, die vielleicht in einem zukünftigen Projekt umgesetzt werden könnten: Obwohl die Verwendung von DGHs als einzige Generalisierungsmöglichkeit auf- grund der weiter oben erwähnten Probleme nicht optimal erscheint, würde eine optionale Einführung dieser Anonymisierungshierarchien die Benutzerfreundlichkeit wahrscheinlich erhöhen. Eine zusätzliche Option beim manuellen Editieren der Werte (siehe Abbilung 4.7) könnte angeboten werden, um eine für dieses 78 Kapitel 6. Ausblick Attribut passende DGH zu laden und alle vorkommenden Werte durch eine allgemeinere Form zu ersetzen. Eine weitere Verbesserung würde ein automatisches Speichern der Wertepaare (Originalwert ↔ verallgemeinerter Wert) nach dem manuellen Generalisieren darstellen. Denn somit würde man zumindest eine einstuge DGH erhalten, die wiederverwendet werden kann und den Arbeitsaufwand bei der Generalisierung ähnlicher Attribute verringert. Wenn zumindest optional tay noch weitere DGHs eingeführt werden, könnte man neben Da- k -Anonymisierungsalgorithmen anbieten, die auf solche Hier- archien angewiesen sind. Natürlich würden sich hier besonders Algorithmen anbieten, die, anders als Datay, eher auf Qualität und nicht auf Geschwindigkeit setzen (z.B. MinGen siehe Kapitel 2.5.1). So könnte der Benutzer auch die Anonymisierungsstrategie ganz nach seinen Bedürfnissen auswählen. 79 Danksagung An dieser Stelle möchte ich mich bei all jenen bedanken, die durch ihre fachliche und persönliche Unterstützung zum Gelingen dieser Diplomarbeit beigetragen haben. Besonderer Dank gebührt meinen Eltern, die mir dieses Studium durch ihre Unterstützung ermöglicht haben. Weiters danke ich Ao. Univ. Prof. Dipl. Ing. Dr. Georg Duftschmid für die Betreuung meiner Magisterarbeit und Dr. Thomas Wrba für die Hilfe beim praktischen Teil meiner Arbeit. 80 Abbildungsverzeichnis 1.1 1.2 2.1 2.2 Gespeicherte Attribute pro Geburt im US Staat Illinois . . . . . . . . . 1 UML-Aktivitätsdiagramm, das den Ablauf einer Anonymisierung bzw. Pseudonymisierung zusammenfassend darstellt . . . . . . . . . . . . . . 9 Modell 1 Pseudonymisierung durch Datenquellen [8] . . . . . . . . . . 16 Modell 2 Pseudonymisierung durch Vertrauensstelle und Datensammelstelle [8] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3 Verknüpfung von Daten [18] . . . . . . . . . . . . . . . . . . . . . . . . 20 2.4 Reidentizierung durch Verknüpfung [9] . . . . . . . . . . . . . . . . . . 21 2.5 Resultat des Verknüpfungsalgorithmus [9] . . . . . . . . . . . . . . . . . 21 2.6 Aktualisiertes Resultat des Verknüpfungsalgorithmus [9] . . . . . . . . 22 2.7 Mitgliedschaft in einem anonymisierten Datenbestand [9] . . . . . . . . 23 2.8 domain generalization hierarchy und value generalization hierarchy der PLZ-Domäne [21] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 24 domain generalization hierarchy und value generalization hierarchy der Geschlecht-Domäne [21] . . . . . . . . . . . . . . . . . . . . . . . . 2.10 Verschiedene, zumindest 2-anonyme Generalisierungen der Tabelle 24 PT [21] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.11 Fläche unter der ROC-Kurve (AUC) in Abhängigkeit vom Grad der k -Anonymität [26] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.12 Grasche Darstellung der Fläche unter der ROC-Kurve . . . . . . . . . 30 2.13 Histogramm der Wahrscheinlichkeiten der möglichen Ersetzungen der 8 fehlenden Zelleneinträge [27] . . . . . . . . . . . . . . . . . . . . . . . . 32 P T [18] . . . . . . . . . 2.2 (GT 1 und GT 2) und 33 die Verknüpfung der beiden Tabellen (LT ) . . . . . . . . . . . . . . . . 35 2.14 Zwei 2-anonyme Generalisierungen der Tabelle 2.15 Zwei 2-anonyme Abwandlungen der Tabelle 2.16 Einzelne Schritte der k -Anonymisierung Tabellenform mittels Datay [21] personenbezogener Daten in . . . . . . . . . . . . . . . . . . . . 41 2.17 Domain generalization hierarchies und value generalization hierarchies für die Attribute Zipcode (a, b), Birthdate (c, d) und Sex (e, f ) [33] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.18 2-Attribut Generalisierungen der Tabelle 2.6 [33] . . . . . . . . . . . . . 43 81 Abbildungsverzeichnis 2.19 (a) 3-Attribut Graph, generiert aus den resultierenden Graphen der Abbildung 2.18; (b) 3-Attribut Graph ohne Einschränkung des Suchraums [33] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.20 Performancevergleich von Incognito, Superroots Incognito und Cu- k -Anonymisierungsalgorithmen [33] µ-ARGUS-Algorithmus [34] . . . . be Incognito mit anderen . . . . . 45 . . . . . 46 . . . . . . . . . . . . . . . 49 2.23 Menge an Punkten (a) ohne bzw. (b) mit möglicher Partitionierung [23] 50 2.21 Funktionelles Design des 2.22 Räumliche Darstellung einer Partitionierung 2.24 Gegenüberstellung der strikten (GT 1) und relaxed multidimensionalen Generalisierung (GT 2) der Tabelle PT [23] . . . . . . . . . . . . . . . . 51 2.25 optimale eindimensionale bzw. multidimensionale Partitionierung der Domänen zweier sekundärer Identikationsmerkmale [23] . . . . . . . . 52 2.26 Ein Beispiel totaler Ordnung der Domänen einer Tabelle mit drei Attributen und insgesamt neun möglichen Werten. [22] . . . . . . . . . . . 2.27 Set-enumeration-Baum über das Alphabet 2.28 Set-enumeration-Baum über das Alphabet {1, 2, 3, 4} [22] . . . {1, 2, 3, 4} inklusive . . . . 53 55 tail- sets und pruning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.29 Nutzloser Wert einer Anonymisierung . . . . . . . . . . . . . . . . . . 56 2.30 Test des k -Optimize-Algorithmus mit verschiedenen Einstellungen [22] 57 2.31 Performancevergleich l -Diversity und 62 4.1 k -Anonymität UML-Aktivitätsdiagramm, das den Ablauf eines [28] . . . . . . k -anonymen Datenex- ports darstellt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Ein Screenshot der Studiendokumentation einer ausgewählten Studie mit den bereits erstellten Dokumenten 4.3 4.4 67 . . . . . . . . . . . . . . . . . . Liste der bereits vorhandenen Exporte einer Studie . . . . . . . . . . . 68 68 Maske zum Festlegen der Parameter eines Exports (z.B. Trennzeichen, Zeichenformat, Datumsformat,. . . ) . . . . . . . . . . . . . . . . . . 4.5 Auswahl bzw. Parametrierung der einzelnen Exportpositionen 4.6 Exportvorschau: Tupel gereiht nach ihren Häugkeiten . . . . . . . . 71 4.7 Manuelle Editierung der Werte einer Exportposition . . . . . . . . . . . 73 4.8 4.9 . . . . . 69 Die Exportvorschau, die eine bereits teilweise generalisierte Tabelle zeigt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Auistung aller Exportergebnisse eines Exports 74 . . . . . . . . . . . . . 4.10 UML-Aktivitätsdiagramm eines Exportablaufs des Exportwerkzeuges 5.1 70 . 75 Verschiedene Generalisierungsmöglichkeiten des Attributs PLZ und Auswirkungen auf die erreichtbare k -Anonymität 82 . . . . . . . . . . . . . . . 77 Tabellenverzeichnis 1.1 Personenbezogene, medizinische Daten in Tabellenform . . . . . . . . . 4 1.2 Typische primäre Identikationsmerkmale [7] . . . . . . . . . . . . . . . 5 1.3 k -anonyme . . . . . . . . . . . . . . . . 6 2.1 2-anonyme Tabelle durch Unterdrückung von Zelleninhalten [27] . . . . 31 2.2 Personenbezogene, medizinische Daten in Tabellenform . . . . . . . . . 34 2.3 Personenbezogene, medizinische Daten in Tabellenform [28] . . . . . . . 36 2.4 4-anonyme Form der Tabelle 2.3 [28] . . . . . . . . . . . . . . . . . . . 37 2.5 medizinische Daten in Tabellenform . . . . . . . . . . . . . . . . . . . . 37 2.6 Patientendaten in Tabellenform [33] . . . . . . . . . . . . . . . . . . . . 42 2.7 medizinische Daten in Tabellenform [23] 48 2.8 2-anonyme Abwandlung der Tabelle 2.7 durch eindimensionale globale Form der Tabelle 1.1 mit k=2 . . . . . . . . . . . . . . . . . Generalisierung [23] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 48 2-anonyme Abwandlung der Tabelle 2.7 durch multidimensionale globale Generalisierung [23] . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10 3-diverse Abwandlung der Tabelle 2.3 [28] 49 . . . . . . . . . . . . . . . . 60 2.11 4-anonyme Tabelle mit zwei sensiblen Merkmalen [28] . . . . . . . . . . 61 83 Literaturverzeichnis [1] Sweeney, L.: Information Explosion. In: Condentiality, Disclosure, and Data Access: Theory and Practical Applications for Statistical Agencies, Urban Institute, 2001, S.4374. explosion2.pdf [2] http://privacy.cs.cmu.edu/people/sweeney/ Clifton, C. ; Marks, D.: Security and Privacy Implications of Data Mining. In: Workshop on Data Mining and Knowledge Discovery. Montreal, Canada : University of British Columbia Department of Computer Science, 1996, S.1519. [3] http://members.aol.com/ptaylor724/cv/pubs/dmkd.ps.gz Healthcare Collaborative Network (HCN). org/profiles/HCN.mspx. [4] [6] Online Ressource, Abruf: 17.08.2006 Health Insurance Portability and Accountability Act. hipaa/. [5] http://ccbh.ehealthinitiative. http://www.hhs.gov/ocr/ Online Ressource, Abruf: 17.08.2006 e-Health-Initiative. Praxisnetzwerk. http://ehi.adv.at/. Online Ressource, Abruf: 17.08.2006 https://www.praxisnetzwerk.at/. Online Ressource, Abruf: 17.08.2006 [7] Simonic, K. ; Gell, G. MAGDA-LENA Datenschutz-Policy für die Kommunikation in Forschung und Lehre. index.html. [8] http://www.uni-graz.at/imi/datenschutz/ 2001 Albert, J. ; David, D. ; Lagerfeld, C. ; Keil, W. ; Rey, H. ; Schöner, C. ; Siebert, I. Management-Papier Pseudonymisierung / Anonymi- http://atg.gvg-koeln.de/xpage/objects/pseudonymisierung/ docs/5/files/MP040316.pdf. 2004 sierung . [9] http://www.iso.org/iso/ en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=42807&scopelist= PROGRAMME. 2002. ISO/NP TS 25237 ISO/TS Health informatics Pseudonymisation. [10] Datenschutzgesetz 2000 (DSG 2000). http://www.dsk.gv.at/dsg2000d.htm. BGBl. I Nr. 165/1999 84 Literaturverzeichnis [11] Richtlinie 95/46/EG des Europäischen Parlaments und des Rates vom 24. Okto- ber 1995 zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten und zum freien Datenverkehr. 9_95_46_EG_rahmen.html. http://byds.juris.de/byds/061_9. Amtsblatt NR. L 281 vom 23. November 1995, S. 3150 [12] 179. Bundesgesetz: Gesundheitsreformgesetz 2005. http://www.bmgf.gv.at/ [13] Burggasser, H. ; Dorda, W. ; Gambal, J. ; Gell, G. ; Ingruber, H. ; Ko- tschy, W. Rahmenbedingungen für ein logisches österreichisches Gesundheitsdatennetz (MAGDA-LENA V2.0). STRING/. http://www.meduniwien.ac.at/msi/mias/ 2000 [14] Duftschmid, G. ; Wrba, T. ; Gall, W. ; Dorda, W.: The strategic approach of managing healthcare data exchange in Austria. Methods Inf Med 43 (2004), Nr. 2, S.124132 http://www.bmgf.gv.at/cms/site/detail.htm? thema=CH0015&doc=CMS1150277592081. Online Ressource, Abruf: 17.08.2006 [15] STRING-Kommission. [16] Health le. Insurance Portability and Accountability Act (HIPAA) Privacy Ru- http://privacyruleandresearch.nih.gov/. Online Ressource, Abruf: 17.08.2006 [17] Sweeney, L.: Uniqueness of Simple Demographics in the U.S. Populati- http://privacy.cs.cmu.edu/dataprivacy/papers/LIDAP-WP4abstract. html. 2000. Carnegie Mellon University, Laboratory for International Data on. Privacy, Pittsburgh [18] Sweeney, L.: k-Anonymity: a model for protecting privacy. Int J Uncertain Fuzziness Knowl-Based Syst 10 (2002), Nr. 5, S.557570 [19] Sweeney, L.: Guaranteeing anonymity when sharing medical data, the Datay system. J Am Med Inform Assoc (1997), S.5155 [20] Dalenius, T. ; Reiss, S.: Data swapping: A technique for disclosure control. J Stat Plan Inference 6 (1982), S.7385 [21] Sweeney, L.: Achieving k-anonymity privacy protection using generalization and suppression. Int J Uncertain Fuzziness Knowl-Based Syst 10 (2002), Nr. 5, S.571588 [22] Bayardo, R. Anonymization. J. ; Agrawal, R.: Data Privacy through Optimal k- In: Proceedings of the 21st IEEE International Conference on Data Engineering, 2005, S.217228 85 Literaturverzeichnis [23] LeFevre, K. ; DeWitt, D. ; Ramakrishnan, R.: anonymity / University of Wisconsin. 2005 Multidimensional k- (1521). Forschungsbericht. http://www.cs.wisc.edu/techreports/2005/TR1521.pdf [24] Meyerson, A. ; Williams, R.: General k -anonymization is hard / Carnegie Mellon School of Computer Science. 2003 (CMU-CS-03-113). Forschungsbericht. http://reports-archive.adm.cs.cmu.edu/anon/2003/CMU-CS-03-113.pdf [25] Meyerson, A. ; Williams, R.: On the Complexity of Optimal k -anonymity. In: Proceedings of the twenty-third ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems, 2004, S.223228 [26] Ohno-Machado, L. ; Vinterbo, S. ; Dreiseitl, S.: Eects of data anony- mization by cell suppression on descriptive statistics and predictive modeling performance. J Am Med Inform Assoc (2002), S.115119 [27] Dreiseitl, S. ; Vinterbo, S. ; Ohno-Machado, L.: Extracting Information from Anonymized Sources. Disambiguation Data: In: Proceedings of the 2001 American Medical Informatics Annual Symposium, 2001, S.144148 [28] Machanavajjhala, A. ; Gehrke, J. ; Kifer, D. ; Venkitasubramaniam, k -anonymity. In: Proceedings of the 22nd IEEE International Conference on Data Engineering, 2006. http://www.cs.cornell. edu/johannes/papers/2006/2006-icde-publishing.pdf M.: l-diversity: Privacy beyond k -anonymity / US Census Bureau Research Report. www.census.gov/srd/ [29] Winkler, W.: Using simulated annealing for Statistical Research Division. 2002. papers/pdf/rrs2002-07.pdf [30] Samarati, P. ; Sweeney, L.: Protecting privacy when disclosing informati- on: k-anonymity and its enforcement through generalization and suppression / Computer Science Laboratory. 1998 (SRI-CSL-98-04). Forschungsbericht [31] Ohrn, A. ; Ohno-Machado, L.: Using Boolean reasoning to anonymize databases. Artif Intell Med 15 (1999), Nr. 3, S.235254 [32] Zhong, S. ; Yang, Z. ; Wright, R. N.: Privacy-enhancing k-anonymization of customer data. In: Proceedings of the twenty-fourth ACM SIGMOD-SIGACT- SIGART symposium on Principles of database systems, 2005, S.139147 [33] LeFevre, K. ; DeWitt, D. J. ; Ramakrishnan, R.: Incognito: Ecient FullDomain k -Anonymity. In: Proceedings of the ACM SIG-MOD International Con- http://www.cse.iitb.ac. in/dbms/Data/Courses/CS632/Papers/incognito.pdf ference on Management of Data, 2005, S.4960. 86 Literaturverzeichnis µ- and τ - argus: software for statistical www.fcsm.gov/working-papers/hundepool.pdf. Willen- [34] Hundepool, A. ; Willenborg, L.: disclosure control. borg, Statistics Netherlands [35] Dorda, W. ; Wrba, T. ; Duftschmid, G. ; Sachs, P. ; Gall, W. ; Rehnelt, C. ; Boldt, G. ; Premauer, W.: ArchiMed: a medical information and retrieval system. Methods Inf Med 38 (1999), Nr. 1, S.1624 [36] Aggarwal, C. C. ; Yu, P. S.: A Condensation Based Approach to Privacy Preserving Data Mining. In: Proceedings of the EDBT Conference, 2004, S.183 199 87