Deepfakes als Sicherheitsrisiko: Was steckt dahinter?

2021-04-28
Autor:
Jan Tissler

«Deepfakes» bringen Täuschungen auf ein neues Level: Die Stimme und sogar das Gesicht einer Person lassen sich damit automatisiert nachahmen. Das hat Konsequenzen für Sicherheitsmassnahmen und ermöglicht nicht zuletzt neue Formen des Phishing.

Viele von uns haben bereits gelernt, Fotos nicht mehr zu trauen. Zu leicht lassen sie sich bearbeiten und verfälschen. Ähnlich entwickelt es sich nun in den Bereichen Audio und Video. Eine besonders verblüffende Kategorie hört hier auf den Namen «Deepfake»: Das Gesicht und die Stimme einer Person werden dann automatisiert durch die einer anderen ersetzt. Damit kann man also einen Menschen in Ton und Bewegtbild sagen lassen, was immer man möchte.

Das Wort Deepfake setzt sich zusammen aus «Deep Learning», einer Methode im Bereich der Künstlichen Intelligenz (KI), und Fake, also Fälschung. Das bedeutet: Anstatt in mühsamer Kleinarbeit die Täuschung manuell zu erstellen, lässt man sich von einer KI dabei helfen. Die braucht vor allem entsprechendes Material zum Lernen, also möglichst viele Video- und Audio-Vorlagen der Zielperson.

Ganz neu ist das Phänomen zwar nicht. Aber die Werkzeuge, um eine solche Fälschung umzusetzen, werden leistungsfähiger. Was vor ein paar Jahren eher ein spassiger Trick war, den man leicht durchschauen konnte, wird immer präziser. Zugleich sind passende Werkzeuge für jede interessierte Person verfügbar. Das Startup Deeptrace hat ermittelt, dass die Zahl der Deepfakes im Internet zwischen Oktober 2019 und Juni 2020 um 330 Prozent gestiegen ist.

Und das hat nicht zuletzt Konsequenzen für verschiedene Sicherheitsmassnahmen und -technologien.

Beispiel für ein Deepfake: Der falsche Tom Cruise

Ein aktuelles Beispiel für einen verblüffenden Deepfake ist der TikTok-Account @deeptomcruise. In mehreren kurzen Clips sieht man hier den Schauspieler Tom Cruise wie er leibt und lebt – oder glaubt es zumindest. Es ist kaum zu fassen, dass diese Videos tatsächlich gefälscht sind. Man muss schon sehr genau hinschauen, um die Anzeichen dafür zu entdecken.

Der Macher hinter diesen viralen Clips, der belgische Videoeffekt-Spezialist Chris Ume, hat inzwischen erklärt, wie sie entstanden sind. Er hat sich einen professionellen Tom-Cruise-Doppelgänger zu Hilfe geholt: Miles Fisher. Der lieferte erstens schon eine hilfreiche Grundähnlichkeit mit dem Schauspieler und konnte zweitens die Mimik, Gestik und Stimme imitieren.

Die Software war im nächsten Schritt dafür zuständig, das Gesicht so abzuändern, dass Miles Fisher vollständig zu seinem Vorbild Tom Cruise wurde. Für einfache Fälle geht das heutzutage automatisch: Anwendungen mit der passenden Künstlichen Intelligenz können zwei Gesichter und Stimmen analysieren, ihre besonderen Merkmale finden und dann das eine in das andere verwandeln.

Die Arbeit am falschen Tom Cruise hat allerdings Monate gedauert und brauchte viel Feintuning. Insofern gilt: Eine so überzeugende Fälschung wie diese erstellt man auch heute noch nicht im Vorbeigehen.

Aber es zeigt trotzdem, was bereits möglich ist. Morgen wird die Technik zudem schon wieder weiter sein. Und nicht in jedem Fall muss die Fälschung so perfekt ausfallen, um eine Wirkung zu erzielen.

Gefahren aus Deepfakes

Ein Bereich, in dem solche falschen Videos für Aufregung sorgen können, sind «Fake News» und Desinformationskampagnen. Zwar ist es in vielen Fällen weiterhin möglich, Deepfakes zu enttarnen. Aber wir wissen, wie schnell sich Sensationsmeldungen im Netz verbreiten und wie hartnäckig sich Lügen gegen alle Aufklärungsversuche behaupten können.

Zugleich können Deepfakes Auswirkungen auf Sicherheitsmechanismen haben. Man denke an Video-Identifizierungsverfahren. Heute ist die Technik zwar noch nicht so weit, um eine ausreichend gute Fälschung live zu generieren. Insofern sind technische Gegenmassnahmen verfügbar. Aber wie lange können wir noch davon ausgehen, dass die Person auf dem Bildschirm wirklich diejenige ist, die vor der Kamera sitzt?

Ein anderer möglicher Angriffspunkt sind einfache Gesichtserkennungsmethoden. Apples «Face ID»-Verfahren in iPhones und iPads gehört aber beispielsweise nicht dazu, weil es nicht nur das Kamerabild auswertet, sondern auf weitere, spezialisierte Sensoren setzt. Ein Foto oder Video reicht also nicht zum Überrumpeln. Selbst Masken soll es erkennen können.

Allerdings sind nicht alle Verfahren so abgesichert, wenn ihnen die notwendige Hardware dafür nicht zur Verfügung steht. Eine aktuelle Untersuchung der südkoreanischen Sungkyunkwan University zeigt beispielsweise, dass kommerziell verfügbare Gesichtserkennungsdienste von Anbietern wie Microsoft und Amazon für Deepfake-Angriffe anfällig sind. In manchen Fällen fand der Dienst die Fälschung sogar überzeugender als das Original.

Die gute Nachricht aus der Studie: Bereits verfügbare Erkennungsmechanismen für Deepfakes funktionierten in ihren Tests gut. Werden sie vorgeschaltet, sind die Dienste deutlich weniger anfällig.

Zudem sind die betroffenen Unternehmen nicht untätig: Im Rahmen einer «Deepfake Detection Challenge» liessen Amazon, Microsoft und Facebook gemeinsam mit mehreren Universitäten nach Erkennungsmethoden forschen.

Drängender ist aktuell die Gefahr im Bereich Audio, denn Stimmen lassen sich bereits deutlich besser imitieren als Gesichter in Videos. Damit gibt es beispielsweise neue Angriffswege für Phishing-Attacken, die bislang vor allem E-Mail nutzen. Und das ist keine Spekulation: Der Manager eines britischen Energieunternehmens wurde offenbar dazu gebracht, 220.000 Euro an einen ungarischen Zulieferer zu überweisen. Er dachte, sein deutscher Vorgesetzter hätte ihn in einem Anruf dazu aufgefordert. Nicht nur die Stimme hatten die Betrüger täuschend echt imitiert, sondern auch die typische Tonalität bis hin zum Akzent. Und es gibt weitere Beispiele.

Schlusswort

Wie in einem anderen Artikel bereits erklärt: Die erste Abwehrmassnahme gegen solche Angriffe ist das Bewusstsein darüber, dass sie überhaupt möglich sind. Phishing nutzt oftmals Vertrautheit mit einer Person, um unsere inneren Alarmsysteme zu schwächen. Und mit Deepfakes betrifft das eben nicht mehr nur E-Mails, sondern auch Anrufe und in Zukunft sogar Videocalls.

Videoeffekt-Spezialist Chris Ume vergleicht es im Gespräch mit The Verge mit Photoshop: Vor 20 Jahren wussten nur wenige, welche Fotomanipulationen möglich sind. Heute ist es Allgemeinwissen. Ähnlich werde es auch mit Deepfakes passieren.