Unser digitaler Alltag ist geprägt von Bildwelten. Ob beim Online-Dating, in sozialen Netzwerken oder auf Shopping-Plattformen – ohne Bilder wäre das Internet heute kaum mehr vorstellbar. Doch ob ein Bild echt ist oder künstlich generiert, lässt sich durch moderne KI-Technologien wie Latent Diffusion Models (LDMs) für das menschliche Auge kaum noch unterscheiden. Das birgt Gefahren: Deepfake-Bilder können missbraucht werden, um Personen öffentlich zu diffamieren oder gezielt Falschinformationen zu verbreiten.
Um solche Manipulationen zu erkennen und zu verhindern, setzen viele Anbieter auf sogenannte Watermarks – sichtbare oder unsichtbare Kennzeichnungen in Bilddateien, die nachweisen, ob ein Bild von einer KI erzeugt wurde. Besonders innovativ sind dabei die sogenannten semantischen Wasserzeichen, die direkt während der Bilderstellung tief in den Entstehungsprozess eingebettet werden. Es werden aktuell unentwegt neue Varianten dieser Wasserzeichen entwickelt und auf Fachkonferenzen vorgestellt. Diese Wasserzeichen galten bislang als besonders robust und schwer zu entfernen.
Bochumer Forscherteam deckt Sicherheitslücken auf
Ein Paper von Bochumer Cybersicherheitsforscher*innen zeigt jedoch, dass diese Annahme trügt. In ihrer Arbeit „Black-Box Forgery Attacks on Semantic Watermarks for Diffusion Models“, die auf der diesjährigen „Computer Vision and Pattern Recognition (CVPR)“ Konferenz am 15. Juni in Nashville, USA, vorgestellt wurde, weisen sie grundlegende Sicherheitslücken semantischer Wasserzeichen nach.
„Wir konnten zeigen, dass Angreifer mit vergleichsweise einfachen Mitteln semantische Wasserzeichen fälschen oder komplett entfernen können“, erklärt Andreas Müller, der zusammen im Team mit Dr. Denis Lukovnikov, Jonas Thietke, Prof. Asja Fischer und Dr. Erwin Quiring (CASA/Horst-Görtz-Institut für IT-Sicherheit an der Fakultät für Informatik, Ruhr-Universität Bochum) zwei neue Angriffs-Möglichkeiten entwickelt hat.
Echte Bilder als KI-Fakes tarnen
Die erste Methode, die sogenannte Imprinting-Attacke, arbeitet auf der Ebene der latenten Repräsentationen – also der tieferliegenden digitalen „Signatur“ eines Bildes, auf der KI-Bildgeneratoren arbeiten. Dabei wird die verborgene Darstellung eines echten Bildes – sozusagen seine digitale Struktur – gezielt so angepasst, dass sie der eines wasserzeichen-behafteten Bildes ähnelt. So lässt sich das Wasserzeichen auf jedes beliebige echte Bild übertragen, obwohl das Referenz-Bild ursprünglich rein künstlich erzeugtes war. Ein Angreifer kann einem KI-Anbieter gegenüber somit jedes beliebige Bild als wasserzeichenbehaftet, also generiert, aussehen lassen und somit gezielt echte Bilder als Fake aussehen lassen.
„Die zweite Methode, der Reprompting-Angriff, nutzt die Fähigkeit, ein wasserzeichen-behaftetes Bild in den latenten Raum zurückzuführen und anschließend mit einem neuen Prompt neu zu generieren. So entstehen beliebige neue generierte Bilder, die das gleiche Wasserzeichen tragen“, erklärt Co-Autor Dr. Erwin Quiring.
Beide Angriffstechniken benötigen nur ein einziges Referenzbild mit dem Ziel-Wasserzeichen und funktionieren modellübergreifend – das heißt, sie sind unabhängig von der konkreten KI-Architektur, etwa ältere Diffusion Modelle mit UNet oder neuere Diffusion Transformer. Das macht die Angriffe besonders gefährlich und zeigt die enorme Herausforderung bei der Absicherung dieser Wasserzeichentechnologie.
Forderung nach Neuentwicklung
Für die Zukunft der Wasserzeichentechnologie sind diese Erkenntnisse besorgniserregend: Laut den Wissenschaftlern gibt es derzeit keine effektive Gegenmaßnahme gegen diese Angriffe. „Das wirft die Frage, wie wir KI-generierte Inhalte künftig sicher kennzeichnen und authentifizieren können,“ so Andreas Müller. Die Bochumer Wissenschaftler fordern daher, semantische Wasserzeichen grundlegend zu überdenken, um sie widerstandsfähiger und vertrauenswürdiger zu machen.
Die Arbeit findet in der Fachwelt große Beachtung: Unter Tausenden eingereichten Beiträgen gehört ihr Paper zu den wenigen, die auf der Konferenz nicht nur als Poster vorgestellt, sondern auch mündlich einem großen Fachpublikum präsentiert und diskutiert werden.
Originalveröffentlichung
Andreas Müller, Denis Lukovnikov, Jonas Thietke, Asja Fischer, Erwin Quiring: Black-Box Forgery Attacks on Semantic Watermarks for Diffusion Models, Computer Vision and Pattern Recognition, 2025, USA, Paper-Download: https://arxiv.org/pdf/2412.03283
Pressekontakt
Andreas Müller
Fakultät für Informatik
Ruhr-Universität Bochum
Tel.: +49 234 32 19901
E-Mail: andreas.mueller-t1x(at)ruhr-uni-bochum.de
Allgemeiner Hinweis: Mit einer möglichen Nennung von geschlechtszuweisenden Attributen implizieren wir alle, die sich diesem Geschlecht zugehörig fühlen, unabhängig vom biologischen Geschlecht.