"Wir möchten verbesserte Verfahren zur Entwicklung vertrauenswürdiger Softwaresysteme erforschen", sagt Thorsten Holz und erklärt damit das Ziel des CASA-Projekts Hub C „Sichere Systeme“. Da die meisten modernen Cyberangriffe in der Praxis Sicherheitslücken in Software ausnutzen, "versuchen wir, Angriffe durchzuführen und Schwachstellen zu finden, oder Abwehrmaßnahmen zu entwickeln, die Angriffe erschweren oder sogar unmöglich machen."
Von Security by Design bis zu Machine Learning
Hub C beschäftigt sich mit drei Research Challenges. Erstens: Wie können sichere Systeme von Grund auf aufgebaut werden – also Security by Design. Diese Challenge umfasst viele Aspekte, wie etwa die Entwicklung einer sichereren Programmiersprache, Methoden zum Einsatz von Sicherheitsmechanismen während der Kompilierung und die Entwicklung von vertrauenswürdigen Ausführungsumgebungen. Zweitens: Der Umgang mit Legacy-Systemen und die Verbesserung der Sicherheit von Milliarden von Codezeilen aus den letzten Jahrzehnten - oder, wenn das nicht möglich ist, das Aussortieren von Komponenten (und damit den Angriffen auf sie), die nicht als vertrauenswürdig eingestuft werden können. Drittens: Erforschung von maschinellem Lernen und Computersicherheit.
Bei letzterer Challenge geht es vor allem darum, wie maschinelles Lernen zur Lösung von Sicherheitsproblemen eingesetzt werden kann. Dabei wird zum Beispiel die Frage aufgeworfen, ob es möglich ist, ein Deep Neural Network so zu trainieren, dass es Schwachstellen in einem bestimmten Softwarecode erkennt. Außerdem wird untersucht, wie die Leistungsfähigkeit des maschinellen Lernens für Aufgaben wie die effizientere Erkennung gefälschter Bilder oder die Identifizierung von Fake News genutzt werden kann. Ein weiterer wichtiger Teil dieser Arbeit, die von Konrad Rieck geleitet wird, ist die Verbesserung der Sicherheit des maschinellen Lernens selbst.
Deep Neural Networks als Herzstück heutiger Sprachassistenten
Maschinelles Lernen für Sicherheitszwecke zu nutzen, ist nicht einfach: "Machine Learning Algorithmen sind ziemlich empfindlich", sagt Holz und nennt als Beispiel die Arbeit des Hubs aus dem ersten Jahr, bei der Adversarial Examples im Audiobereich erstellt wurden.
Die meisten Menschen sind sich dessen nicht bewusst, aber das Herzstück heutiger Sprachassistenten sind Deep Neural Networks. Sie zerlegen die vom Aisstenten erkannte Sprache in winzige 200ms-Schnipsel, sogenannte "Phones". Das Hidden-Markov-Model des Sprachassistenten versucht, Wörter auf der Grundlage der empfangenen Phones zu transkribieren. Das Forscher*innen-Team um Holz hat versucht, diese Geräte zu verwirren, indem sie künstliche Geräusche - Adversarial Audio - hinzufügte, die das menschliche Ohr nicht hören kann.
Das aus dem Versuch resultierende Paper zeigt, dass es möglich ist, in Befehlen für Sprachassistenten für den Menschen unhörbare Audiosignale zu verstecken. Angreifer könnten so Kontrolle über das Gerät erhalten. In einem nachfolgenden Paper zur Verbesserung von Machine Learning Systemen zeigen die Forscher*innen, wie man solche Angriffe verhindern kann: Sie designen Spracherkennungssysteme so, dass sie für das menschliche Gehör nicht wahrnehmbare Geräusche ignorieren – ähnlich dem Kompressions-Algorithmus, der bei MP3s unhörbare Details aussortiert.
CASA-PI Konrad Rieck erklärt, dass Machine-Learning-Algorithmen manche Dinge einfach besser können als Menschen. "Sie sind nicht super-schlau", sagt er, "aber sie können sehr langweilige Aufgaben super-effizient erledigen." So sind sie beispielsweise in der Lage, unzählige Maschinencode-Anweisungen oder riesige Protokolldateien zu durchforsten. Neben der Verbesserung der Sicherheit der Algorithmen ist Rieck auch daran interessiert, die interne Funktionsweise der Algorithmen zu ergründen - ein Thema, das wichtig ist, wenn es um Entscheidungen über Menschenleben geht. Rieck untersuchte dieses Gebiet in einem Papier, das auf dem IEEE Symposium on Security and Privacy 2020 vorgestellt wurde. Er fand heraus, dass bestehende Arbeiten zur Erklärung von maschinellem Lernen oft nicht in die Sicherheitsumgebung passen und liefert eine Methode, mit der man messen kann, wie gut sie passen.
"Vielleicht verfassen die Affen irgendwann Shakespeare"
Holz, der 2011 für seine innovativen Forschungsansätze mit dem Heinz Maier-Leibnitz-Preis ausgezeichnet wurde, sieht ein Kernelement der Arbeitsgruppe darin, dass sie nicht auf den Zugriff auf den oftmals nicht verfügbaren Quellcode angewiesen ist. Stattdessen untersuchen sie, wie sich die Firmware - die eingebettete Software, die bestimmt, wie Geräte funktionieren - auf binärer Ebene verhält, um die Reaktionen der Maschine im Detail zu verstehen.
In den letzten zwei Jahren hat die Gruppe auch an der Verbesserung von Fuzzing-Methoden gearbeitet: einer etablierten Technik, um Schwachstellen in einem System zu finden, indem man Zufallswerte einspeist und beobachtet, wie es reagiert. Die Wissenschaftler*innen verbessern das Verfahren, in dem sie die getriggerten Codeblöcke in einer anderen Farbe markieren, die Eingabe verändern und sie erneut senden, um die Ergebnisse schließlich vergleichen zu können.
Da sie Millionen dieser Mutationen im Laufe von 24 Stunden senden können, wird die Strategie mit der Zeit interessante Eingabesequenzen erzeugen, die den Code beeinflussen. "Vielleicht verfassen die Affen irgendwann Shakespeare", so Holz in einer Analogie. Im Fokus dieser Arbeit stehen vor allem Betriebssystem-Kernels, Webbrowser und die in Cloud-Servern eingesetzten Hypervisoren; allein in Hypervisoren haben sie so schon mehr als hundert Bugs gefunden.
Ein wichtiges Ziel bei CASA ist der Technologietransfer in die Industrie. Für die Fuzzing-Arbeit kooperiert Hub C mit Intel. Das Unternehmen setzt nun die im Projekt entwickelten Fuzzing-Tools ein und meldet die entdeckten Schwachstellen zurückmeldet, damit die Tools verbessert werden können.
Weitere Forschungsprojekte innerhalb von CASA
Die Arbeit von Hub C zu Sicheren Systemen ist eines von vier Projekten im Exzellenzcluster CASA - Cyber Security in the Age of Large-Scale Adversaries (CASA). Die anderen drei sind "Kryptographie der Zukunft", geleitet von Eike Kiltz (Hub A); "Eingebette Sicherheit" von Christof Paar (Hub B); und "Usability", geleitet von Angela Sasse (Hub D).
Allgemeiner Hinweis: Mit einer möglichen Nennung von geschlechtszuweisenden Attributen implizieren wir alle, die sich diesem Geschlecht zugehörig fühlen, unabhängig vom biologischen Geschlecht.