Technologien

Mit jedem neuen Institut und von GCAM betrachteten Krankheitsbild, wachsen der Datenbestand und die Komplexität. Um diesen steigenden Anforderungen gerecht zu werden und optimale Voraussetzungen für bestmögliche Evaluationen und Analysen zu schaffen, haben sich die Experten von GCAM für folgende Architekturen entschieden:

 

Der GCAM Data Lake Ansatz in der Microsoft Azure Cloud

Im Rahmen des M²OLIE-Projektes werden von GCAM der Aufbau und die Implementierung des Data Lakes auf der Microsoft Azure Cloud Computing-Plattform sukzessive vorangetrieben. In jedem Schritt wird ein klinisches Basissystem in den Data Lake aufgenommen und die neuen Daten in den bestehenden Datenbestand integriert. Dabei werden für jeden Patienten sämtliche erhobenen Daten im Data Lake gehalten.

Anbindung der klinischen Basissysteme: Für die Kommunikation zwischen dem internen Netz einer Klinik und der Azure Cloud wird innerhalb des Kliniknetzes ein Windows Server betrieben. Dieser Schnittstellenserver empfängt die Daten der einzelnen Basissysteme und überträgt sie über das Azure Virtual Network, ein gesicherter Point-to-Site-VPN-Gateway, an die Cloud.

Ingestion-Zone: Die Ingestion-Zone wird von einem Blob-Storage gebildet. Dieser Objektspeicher empfängt die aus dem Kliniknetzwerk an die Cloud übermittelten Daten und speichert sie unverändert im Rohformat ab. 

Transformation-Zone: In der Transformation-Zone werden alle in den Blob-Storage abgelegten Daten aufbereitet und in eine strukturierte Form überführt. Durch das Speichern einer Datei im Blob-Storage wird automatisch der ereignisgesteuerte Dienst Azure Functions gestartet. Je nach Datenformat wird eine eigens implementierte Function ausgeführt. Diese extrahiert die relevanten Informationen, überführt sie in ein relationales Datenschema und übermittelt sie an die Storing-Zone. Nach dem Ende der Behandlung eines Patienten werden die in der Storing-Zone gehaltenen Daten anonymisiert. Dieser Schritt wird durch die auf Apache Spark basierende Analyseplattform, Databricks, gewährleistet. Hierbei werden die zu anonymisierenden Daten aus der Storing-Zone gelesen, maskiert und überschrieben.

GCAM Azure

Storing-Zone: Die transformierten Daten werden in der Storing-Zone mit ihren zwei Komponenten persistiert. Einerseits werden in einer SQL-Datenbank die aufbereiteten Daten aus den unterschiedlichen Basissystemen in integrierter Form gehalten, um sie für weitere Analysen zur Verfügung zu stellen. Zudem werden alle Daten in einem weiteren Blob-Storage im Rohformat archiviert. Für große Dateien, wie etwa den DICOM-Bilddaten, sind im SQL-Server lediglich die Metadaten hinterlegt, die eigentliche Speicherung übernimmt in diesem Fall der Blob-Storage.

Associated Processes: Für die Sicherheit und die Überwachung einer vollständigen Datenintegration wurden zwei begleitende Prozesse, der Master Service und der Alive Check, als Azure Functions implementiert.

 

Der Hadoop Data Lake Ansatz

In der Ingestion-Zone werden neue Daten anonymisiert abgelegt, so dass keinerlei Bezug zum liefernden Institut oder gar zum Patienten, von dem diese Daten stammen, hergestellt werden kann. Hier werden die Daten bereits mit Metadaten-Tags versehen und rudimentären Prüfungen unterzogen (Identifikation von Übertragungsfehlern, Duplikatprüfung, etc.).

Nach der ersten Überprüfung werden die Daten in die Raw-Zone überführt. Bei diesem Transport werden die Datentypen und -speicherarten angepasst. Neulieferungen werden mit den bisher bereits vorhandenen Daten zusammengeführt und dauerhaft gespeichert sowie ggf. komprimiert. Es werden keinerlei Informationen gelöscht. Dies ist die eigentliche Rohdatenbasis, auf welcher die nächsten Schichten aufbauen können.

In der Integration-Zone werden die Rohdaten dann zueinander in Beziehung gesetzt und entweder der Präsentationsschicht (Serving-Zone) übergeben oder umfangreichen Analysen unterworfen. Mit jeder neuen Evaluation und Analyse können neue Datenbereiche in der Integration-Zone entstehen, welche sich aber immer aus den Rohdaten bedienen.

In der Serving-Zone werden die Daten der Integration-Zone den Anwendern präsentiert. Dies können entweder in Beziehung zueinander gestellte Abbilder von Rohdaten sein oder aber auch die Ergebnisse von Analysen und Berechnungen.

Parallel hierzu existiert noch der Open-Data-Bereich in welchem öffentlich zugängliche Informationen den Nutzern bereitgestellt werden. Hierzu zählen Klassifikationen ebenso wie zusätzliche Daten (Wetter, Standorte, etc.).

Neben der eigentlichen Aufgabe, dem Strukturieren und Bereitstellen von Analysen, werden neue Analyseverfahren oder -methoden in der Discovery & Sandbox-Area geprüft.

Technologisch aufgesetzt wird dieser Data-Lake auf einem Hadoop-Cluster, welches optimale Möglichkeiten für diesen Ansatz bietet und leicht skalierbar ist.