Die Welt als Datengemeinschaft

21.12.2020 von

Ein Informatik-Team um Professor Carsten Binnig entwickelt eine vertrauenswürdige Plattform für „Data Sharing“. Damit eröffnen sich völlig neue Möglichkeiten, im Bereich Big Data und AI zu kooperieren.

Prof. Dr. Carsten Binnig

Wenn ein Patient zum Arzt geht, möchte er nicht unbedingt die Daten, die dieser erhebt, mit Dritten teilen. Hat er allerdings eine schwere Erkrankung, würde er seine Patientendaten vielleicht doch gerne der medizinischen Forschung zur Verfügung stellen, was ihm aber aufgrund von Datenschutzregelungen nicht ohne Weiteres möglich ist. Der Konflikt zwischen Datenschutz und gemeinsamer Nutzung von Daten („Data Sharing“) betrifft nicht nur die Medizin: In der Industrie könnten geteilte Daten helfen, effizienter und damit günstiger, schneller sowie umwelt­freundlicher zu produzieren. In der Politik helfen Daten, bessere Entscheidungen zu treffen, und in der Finanzwelt sind sie bei der Aufdeckung von Kreditkartenbetrug und Geldwäsche essenziell.

Dabei ist nicht der Datenschutz an sich das Problem, sondern eine fehlende technische Infrastruktur, die einen datenschutzkonformen Austausch erst möglich macht – und vor allem die Interessen aller Beteiligten wahrt. Und Daten gibt es reichlich: Die Menge der weltweit produzierten Daten soll auf voraussichtlich 175 Zettabyte im Jahr 2025 steigen. Allerdings gehen viele dieser Daten, obwohl sie für eine größere Gemeinschaft nützlich wären, verloren, weil die Unternehmen sie für sich behalten. Die EU möchte das Data Sharing erleichtern, aber dazu fehlen die notwendigen Technologien. An dieser Stelle setzten Forschende um Professor Carsten Binnig vom Data Management Lab der TU Darmstadt an. Sie entwickeln TrustDBle („trustable“ ausgesprochen) – eine neue Plattform, die einen vertrauenswürdigen und unkomplizierten Datenaustausch ermöglicht. Die Forschungen entstehen im Rahmen des Nationalen Forschungszentrums für angewandte Cybersicherheit ATHENE, einer Allianz der TU Darmstadt und der Hochschule Darmstadt sowie der Fraunhofer­Institute SIT und IGD. Es ist die europaweit größte Allianz von Forschungseinrichtungen im Bereich Cybersicherheit.

Der Bedarf an einer Technik wie TrustDBle ist groß. „Wir erleben derzeit einen Paradigmenwechsel in der Wirtschaft“, sagt Binnig. Bisher fokussierten sich die Unternehmen darauf, ihre Daten nur für sich zu nutzen. In der Automobilbranche bauten zum Beispiel Hersteller und Zulieferer ihre je eigenen Informationssysteme auf. Die Systeme sind zwar über Schnittstellen verbunden, aber sie können nicht gleichzeitig auf dieselben Informationen zugreifen. Daher muss jeder für sich auch einen eigenen Datenpool aufbauen, um damit etwa Geschäftsprozesse zu steuern oder verschiedene Modelle einer Künstlichen Intelligenz (KI) zu trainieren.

„Ich bin überzeugt, dass Data Sharing einen immensen Nutzen für Wirtschaft und Gesellschaft hat.“

„Inzwischen hat die Wirtschaft längst erkannt, dass es nützlicher ist, einen Teil der Daten zu teilen,“ sagt Binnig. „Damit kann man Business­Prozesse optimieren und transparenter gestalten, aber auch viele Anwendungsfälle im KI­Bereich, in dem viele Daten einfach noch fehlen, besser vorantreiben oder überhaupt erst ermöglichen.“ Aber warum ist es überhaupt so schwierig, die Daten zu teilen? „Es gibt dafür eine ganze Reihe von Herausforderungen“, sagt der Darmstädter Forscher.

„Zum einen gibt es eine Vielzahl von Gesetzen, zum Beispiel die Datenschutz­Grundverordnung der EU, die besagen, wie man mit Daten umgehen muss. Hinzu kommen die firmeninternen Regularien, also Policies, die ebenfalls regeln, welche Daten mit wem und wo geteilt werden dürfen.“

Ein anschauliches Beispiel ist ein Krankenhaus: Es kann zwar Daten über Patienten sammeln, aber insgesamt sind das sehr kleine Datenmengen, die nicht ausreichen, um KI­Modelle zu trainieren. Eine KI braucht in der Regel viele Beispieldaten, um Muster zuverlässig zu lernen. Um zum Beispiel einen Hautkrebs auf Aufnahmen zu erkennen, muss die KI idealerweise Hunderttausende oder besser noch Millionen Aufnahmen haben, auf denen sowohl Hautkrebs als auch gesunde Haut zu sehen sind – nur so kann sich die KI eine zuverlässige Unterscheidung selbst beibringen.

Die Datenschutzrichtlinien schreiben aber vor, dass die Klinik die Daten nicht einfach in einen Pool mit anderen Daten geben darf, selbst wenn dies der Medizin helfen würde. Ein Mediziner oder eine Klinikleiterin muss sich also immer fragen: Was darf ich tun? Wie lauten die gesetzlichen Vorgaben? Die meisten Leute ziehen es dann vor, die Daten nicht herauszugeben. „Wir müssen also ein System entwickeln, das flexibel unterschiedliche gesetzliche oder unternehmensinterne Vorgaben für den Datenaustausch implementieren kann“, sagt Binnig. Die Forscher nutzen dafür die Blockchain­Technologie als Basis. Diese eignet sich aufgrund wesentlicher Vorteile für den Datenaustausch. Zum einen werden Daten in Blockchains manipulationssicher abgelegt. Dies ist wichtig, um zu verhindern, dass gemeinsam genutzte Daten unbemerkt von einzelnen Beteiligten verändert werden können. Dies ist insbesondere relevant, wenn auf Basis gemeinsam genutzter Daten kritische Entscheidungen getroffen werden, wie im Beispiel von medizinischen Daten aus Patientenakten. Die Manipulationssicherheit in Blockchains ist mit Hilfe von kryptographischen Verfahren sichergestellt, die Änderungsoperationen in Blöcken zusammenfassen. Dabei ist jeder Block in einer Kette über eine einmalige ID (sogenannte kryptographische Hashes) mit dem vorhergehenden Element verknüpft. Die ID wird aus dem Inhalt eines Blocks generiert, sodass die Änderung des Inhalts eines Blocks eine Änderung aller darauffolgenden Blöcke bedingt – andernfalls wird die Kette der IDs nicht mehr valide.

Zum anderen bieten Blockchains über sogenannte Smart­Contracts die Möglichkeit, zwischen Parteien digitale Verträge zu schließen, die definieren, wie auf die Daten zugegriffen werden darf. Allerdings kosten die zur Ausführung von Smart­Contracts notwendigen Abstimmungsprozesse in Blockchains Zeit und Ressourcen, was die Anwendung teuer und langsam macht. Dieser Effekt wird sogar verstärkt, wenn die Anzahl der Teilnehmer steigt, weshalb Blockchains nur schlecht skalieren.

Das Forschungsteam der TU Darmstadt hatte nun die Idee, über die Blockchain eine zusätzliche Schicht zu legen, welche eine Abstraktionsebene über vorhandene Blockchains bildet. Die neue Schicht funktioniert wie eine Datenbank, welche die verwalteten Daten partitioniert und Lese­ wie auch Änderungsoperationen auf den Daten über mehrere Blockchains hinweg parallelisiert. Weiterhin erlaubt es die Schicht, Daten nur partiell zu replizieren, sodass nicht jeder Teilnehmer eine Kopie aller Daten, sondern nur einen konfigurierbaren Teil erhält. Zudem werden Daten laufend in einem Cache temporär zwischengespeichert, sodass ein schneller Zugriff möglich ist, ohne jedes Mal die Blockchain zu bemühen.

Auch können sich die Teilnehmenden darauf einigen, dass bei nicht sensiblen Daten keine Mehrheit erforderlich ist, um einer Änderung zuzustimmen. Im Grunde genommen verschmilzt das System die Vorteile einer klassischen verteilten Datenbank mit denen der Blockchain­Technologie. Hierdurch bietet TrustDBle zum einen die Effizienz von Datenbanken und ermöglicht die gemeinsame Datennutzung für viele Anwendungen. Zum anderen bietet TrustDBle aber auch die Manipulationssicherheit von Blockchains. Denn bei Rechtstreitigkeiten sind jederzeit alle Datenänderungen nachvollziehbar in der Blockchain protokolliert.

„Ein weiterer Vorteil an unserem Verfahren ist seine Flexibilität“, sagt Muhammad El Hindi, der das System gemeinsam mit Binnig und Simon Karrer entwickelte. „Da die wesentlichen Aktivitäten in der Schicht oberhalb der Blockchain stattfinden, funktioniert die Technik immer noch, wenn sich die Blockchain technisch weiterentwickelt.“ El­Hindi und Karrer planen daher auch, mit einem Start­up die Technologien hinter TrustDBle marktfähig zu machen und anschließend kommerziell zu vertreiben. Die Chancen stehen gut. Die Anwendungsbereiche sind äußerst vielschichtig. So planen die Forscher zum Beispiel auch eine Kooperation mit Merck und Fraunhofer IWKS, um die Daten der Recycling­Industrie miteinander zu vernetzen und dadurch effizienteres Recycling zu ermöglichen.

„An diesem Beispielzeigt sich besonders gut, wie Data Sharing innerhalb der Industrie auch Implikationen auf die Gesellschaft hat“, sagt Karrer. „In der chemischen Industrie ist oft ein Abfallprodukt der einen Firma ein Rohstoff für eine andere.“ Dennoch werden die Abfälle entsorgt. Das geht nicht nur auf die Kosten der Ökobilanz, sondern verursacht auch wirtschaftliche Belastungen aufgrund von höheren Entsorgungs­ oder Rohstoffkosten. Künftig könnten die Unternehmen mit der Darmstädter Technik eine gemeinsame Plattform betreiben, um Daten aus der Produktion auszutauschen und Abfallprodukte zu vermeiden. Gerade für solche Anwendungen unter Konkurrenzunternehmen ist ein vertrauenswürdiges „Data Sharing“ Grundvoraussetzung. „Ich bin überzeugt, dass Data Sharing einen immensen Nutzen für Wirtschaft und Gesellschaft hat“, sagt Binnig. „Nun entsteht mit TrustDBle endlich auch die technische Infrastruktur dafür.“

Publikationen und Hintergrund

El-Hindi, Muhammad; Karrer, Simon; Doci, Gloria; Binnig, Carsten: TrustD-Ble: Towards Trustable Shared Databases. In: FAB 2020.

El-Hindi, Muhammad; Heyden, Martin; Binnig, Carsten; Ramamurthy, Ravi; Arasu, Arvind; Kossmann: BlockchainDB – Towards a Shared Database on Blockchains. In: SIGMOD 2019.El-Hindi, Muhammad; Binnig, Carsten; Arasu, Arvind; Kossmann, Donald; Ramamurthy, Ravi: BlockchainDB – A Shared Database on Blockchains. In: PVLDB 2019

Die TU-Professoren Carsten Binnig und Sebastian Faust leiten die ATHENE-Mission TRUDATA. Ziel ist die Entwicklung neuer Technologien, die einen vertrauenswürdigen, verlässlichen und selbstbestimmten Datenaustausch ermöglichen und für viele Anwendungen in Bereichen wie Gesundheit, Produktion oder Finanzen relevant sind.

Weitere aktuelle Forschungsthemen aus der TU Darmstadt: