Ruhr-Uni-Bochum

Sicherheitslücke bei KI-Bilderkennung: Semantische Wasserzeichen leicht manipulierbar

Wasserzeichen sollen helfen zu entscheiden, ob ein Bild echt ist oder nicht. Aber die Technik lässt sich leicht austricksen.

Real and AI generated picture of cat and dog

Das linke Motiv ist ein echtes Bild von einem Hund und einer Katze. In das rechte Motiv bauten die Forschenden ein Wasserzeichen ein, dass das Bild für ein Machine-Learning-Modell generiert aussehen lässt. Der Einbau des Wasserzeichens hinterließ kaum Spuren im Bild; die manipulierte Version zeigt leicht verschobene Kanten und minimale Unschärfe im Vergleich zum Original-Bild.© MS COCO Dataset

Unser digitaler Alltag ist geprägt von Bildwelten. Ob beim Online-Dating, in sozialen Netzwerken oder auf Shopping-Plattformen – ohne Bilder wäre das Internet heute kaum mehr vorstellbar. Doch ob ein Bild echt ist oder künstlich generiert, lässt sich durch moderne KI-Technologien wie Latent Diffusion Models (LDMs) für das menschliche Auge kaum noch unterscheiden. Das birgt Gefahren: Deepfake-Bilder können missbraucht werden, um Personen öffentlich zu diffamieren oder gezielt Falschinformationen zu verbreiten.

Um solche Manipulationen zu erkennen und zu verhindern, setzen viele Anbieter auf sogenannte Watermarks – sichtbare oder unsichtbare Kennzeichnungen in Bilddateien, die nachweisen, ob ein Bild von einer KI erzeugt wurde. Besonders innovativ sind dabei die sogenannten semantischen Wasserzeichen, die direkt während der Bilderstellung tief in den Entstehungsprozess eingebettet werden. Es werden aktuell unentwegt neue Varianten dieser Wasserzeichen entwickelt und auf Fachkonferenzen vorgestellt. Diese Wasserzeichen galten bislang als besonders robust und schwer zu entfernen.

Bochumer Forscherteam deckt Sicherheitslücken auf

Ein Paper von Bochumer Cybersicherheitsforscher*innen zeigt jedoch, dass diese Annahme trügt. In ihrer Arbeit „Black-Box Forgery Attacks on Semantic Watermarks for Diffusion Models“, die auf der diesjährigen „Computer Vision and Pattern Recognition (CVPR)“ Konferenz am 15. Juni in Nashville, USA, vorgestellt wurde, weisen sie grundlegende Sicherheitslücken semantischer Wasserzeichen nach.

„Wir konnten zeigen, dass Angreifer mit vergleichsweise einfachen Mitteln semantische Wasserzeichen fälschen oder komplett entfernen können“, erklärt Andreas Müller, der zusammen im Team mit Dr. Denis Lukovnikov, Jonas Thietke, Prof. Asja Fischer und Dr. Erwin Quiring (CASA/Horst-Görtz-Institut für IT-Sicherheit an der Fakultät für Informatik, Ruhr-Universität Bochum) zwei neue Angriffs-Möglichkeiten entwickelt hat.

Echte Bilder als KI-Fakes tarnen

Die erste Methode, die sogenannte Imprinting-Attacke, arbeitet auf der Ebene der latenten Repräsentationen – also der tieferliegenden digitalen „Signatur“ eines Bildes, auf der KI-Bildgeneratoren arbeiten. Dabei wird die verborgene Darstellung eines echten Bildes – sozusagen seine digitale Struktur – gezielt so angepasst, dass sie der eines wasserzeichen-behafteten Bildes ähnelt. So lässt sich das Wasserzeichen auf jedes beliebige echte Bild übertragen, obwohl das Referenz-Bild ursprünglich rein künstlich erzeugtes war. Ein Angreifer kann einem KI-Anbieter gegenüber somit jedes beliebige Bild als wasserzeichenbehaftet, also generiert, aussehen lassen und somit gezielt echte Bilder als Fake aussehen lassen.

„Die zweite Methode, der Reprompting-Angriff, nutzt die Fähigkeit, ein wasserzeichen-behaftetes Bild in den latenten Raum zurückzuführen und anschließend mit einem neuen Prompt neu zu generieren. So entstehen beliebige neue generierte Bilder, die das gleiche Wasserzeichen tragen“, erklärt Co-Autor Dr. Erwin Quiring.

Beide Angriffstechniken benötigen nur ein einziges Referenzbild mit dem Ziel-Wasserzeichen und funktionieren modellübergreifend – das heißt, sie sind unabhängig von der konkreten KI-Architektur, etwa ältere Diffusion Modelle mit UNet oder neuere Diffusion Transformer. Das macht die Angriffe besonders gefährlich und zeigt die enorme Herausforderung bei der Absicherung dieser Wasserzeichentechnologie.

Forderung nach Neuentwicklung

Für die Zukunft der Wasserzeichentechnologie sind diese Erkenntnisse besorgniserregend: Laut den Wissenschaftlern gibt es derzeit keine effektive Gegenmaßnahme gegen diese Angriffe. „Das wirft die Frage, wie wir KI-generierte Inhalte künftig sicher kennzeichnen und authentifizieren können,“ so Andreas Müller. Die Bochumer Wissenschaftler fordern daher, semantische Wasserzeichen grundlegend zu überdenken, um sie widerstandsfähiger und vertrauenswürdiger zu machen.

Die Arbeit findet in der Fachwelt große Beachtung: Unter Tausenden eingereichten Beiträgen gehört ihr Paper zu den wenigen, die auf der Konferenz nicht nur als Poster vorgestellt, sondern auch mündlich einem großen Fachpublikum präsentiert und diskutiert werden.

 

Originalveröffentlichung

Andreas Müller, Denis Lukovnikov, Jonas Thietke, Asja Fischer, Erwin Quiring: Black-Box Forgery Attacks on Semantic Watermarks for Diffusion Models, Computer Vision and Pattern Recognition, 2025, USA, Paper-Download: https://arxiv.org/pdf/2412.03283

Pressekontakt

Andreas Müller
Fakultät für Informatik
Ruhr-Universität Bochum
Tel.: +49 234 32 19901
E-Mail: andreas.mueller-t1x(at)ruhr-uni-bochum.de

 

Allgemeiner Hinweis: Mit einer möglichen Nennung von geschlechtszuweisenden Attributen implizieren wir alle, die sich diesem Geschlecht zugehörig fühlen, unabhängig vom biologischen Geschlecht.