Open tools for quantitative anonymization of tabular phenotype data: literature review

Umfangreicher Review von Anna Haber BIH, Fabian Prasser BIH und Ulrich Sax UMG zu offenen Werkzeugen für die Anonymisierung spaltenbasierter Datenbestände

Präzisionsmedizin setzt auf molekular- und systembiologische Methoden sowie bidirektionale Assoziationsstudien von Phänotypen und (Hochdurchsatz-) genomischen Daten. Die Nutzung solcher Daten stößt jedoch häufig auf Hindernisse, insbesondere im Hinblick auf den Datenschutz.

Eine wichtige Voraussetzung für die Forschungsdatenverarbeitung ist in der Regel eine informierte Einwilligung. Das Einholen von Einwilligungen ist jedoch nicht immer möglich, insbesondere wenn Daten nachträglich analysiert werden sollen. Bei Phänotypdaten kann die Anonymisierung, das heißt das Verändern von Daten derart, dass Personen nicht mehr identifizierbar sind, eine Alternative darstellen. Mehrere Reidentifikationsangriffe haben gezeigt, dass dies eine komplexe Aufgabe ist und  das einfache Entfernen von direkt identifizierenden Attributen wie Namen normalerweise nicht ausreicht. Formalere Ansätze sind erforderlich, die mathematische Modelle verwenden, um Risiken zu quantifizieren und ihre Reduzierung zu steuern.

Aufgrund der Komplexität dieser Techniken ist es schwierig und nicht ratsam, sie von Grund auf neu zu implementieren. Offene Softwarebibliotheken und Tools können eine robuste Alternative darstellen. Allerdings ist auch das Angebot an verfügbaren Anonymisierungstools heterogen und es gestaltet sich aufgrund der Komplexität des Problemfeldes schwierig, sich einen Überblick über deren Stärken und Schwächen zu verschaffen. Durch einen zweistufigen Eignungsbewertungsprozess haben wir 13 Tools für eine eingehende Analyse ausgewählt. Durch den Vergleich der unterstützten Anonymisierungstechniken und weiterer Aspekte, wie zum Beispiel der Reife, leiten wir Empfehlungen für Tools ab, die zur Anonymisierung von Phänotyp-Datensätzen mit unterschiedlichen Eigenschaften verwendet werden können.

Schlussfolgerung:

  • Anonymisierung von Daten ist komplex
  • die Schaffung von Transparenz über die Stärken und Schwächen öffentlich verfügbarer Tools für tabellarische Daten ist eine Herausforderung
  • systematische Überprüfung der in der Literatur beschriebenen offenen Anonymisierungstools für strukturierte Phänotypdaten
  • Empfehlungen für Werkzeuge zur Anonymisierung von Phänotypdatensätzen mit unterschiedlichen Eigenschaften und in unterschiedlichen Kontexten

Die komplette Veröffentlichung können Interessierte über den nachstehenden Link abrufen:

Briefing in Bioinformatics, 2022-10-10, Journal article

https://doi.org/10.1093/bib/bbac440

Link zu den Autor*innen (Institut für Medizinische Informatik): https://doi.org/10.1093/bib/bbac440

Folgen Sie uns