Deepfakes stellen eine ernstzunehmende Herausforderung dar, die sowohl technologische als auch gesellschaftliche Fragen aufwirft. Deshalb entwickeln Forschende am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Berlin Methoden, mit denen Deepfakes verlässlich erkannt werden, um Menschen mit den nötigen Warnungen und Richtigstellungen erreichen zu können.
„News-Polygraph“ heißt das ambitionierte Projekt, das im Katz-und-Maus-Spiel zwischen den Erzeugnissen von generativen Modellen und Erkennungs-Technologien den entscheidenden Vorteil bringen soll.
Anwendungsmöglichkeiten sind nahezu grenzenlos
Deepfakes sind realistisch anmutende Medieninhalte, die mithilfe generativer künstlicher Intelligenz (genKI) erzeugt oder manipuliert werden, um täuschend echte Audio-, Video- und Bildinhalte zu generieren. Die Anwendungsmöglichkeiten: Nahezu grenzenlos. Wie diese Technologie ihr positives sowie negatives Potenzial entfaltet, und wie wir uns als Gesellschaft vor Desinformation und Manipulation schützen können, beleuchten Vera Schmitt, Gastwissenschaftlerin der TU Berlin am DFKI Berlin, und Tim Polzehl, DFKI-Forscher im Bereich „Speech and Language Technology“, durch Einblicke in ihre Arbeit.
Öffentlichen Verfügbarmachung wirft auch ethische Fragen auf
Polzehl: „Eine frühe Version von dem, was heute als Deepfake betrachtet wird, kennen wir aus der Sprachsynthese. Dort werden mittels KI möglichst echt klingende computergenerierte Stimmen entwickelt, die sich in den letzten fünf Jahren so weit entwickelt haben, dass nun einzelne Stimmen täuschend echt generiert werden können – auch mit wenig Trainingsmaterial. Heute ermöglicht generative KI auch die Erstellung täuschend echter Bilder, Videos und Audios, die oft schwer von echten Inhalten zu unterscheiden sind. Mit dem Aufschwung und der öffentlichen Verfügbarmachung der generativen KI wurde das Thema zu einem breiten gesellschaftlichen Phänomen, das technische, ethische und anwendungsbezogene Fragen aufwirft.“
Kann Technologie bei der Beantwortung der Fragen helfen?
Diese Fragen verlangen nach Antworten. Als Forschende befassen sich Polzehl und Schmitt mit der Aufgabenstellung, wie Technologie bei der Beantwortung dieser Fragen helfen kann. Für eine erfolgreiche Identifizierung von manipulativen KI-generierte Medieninhalten braucht es neben technischen Lösungen allerdings auch gesellschaftliche – menschliche. Ein Umstand, der bereits bei der Definition von „Deepfakes“ eine Herausforderung birgt.
Schmitt: „Für ‚Deepfakes‘ eine einzige exakte Definition zu finden ist schwierig – es gibt eine Vielzahl von Definitionen. Deepfakes sind im Grunde realistische Medieninhalte, die durch KI und Transformer-basierte Modelle abgeändert, erzeugt oder verfälscht werden. Dabei gilt allerdings die eine große Debatte zu beachten, inwiefern Vorsatz, Betrug, Erpressung, Rufschädigung und politische Manipulation eine Rolle spielen, und inwieweit Kunst und Unterhaltung ein Platz eingeräumt werden sollte.“
Mensch und KI: gemeinsam stark
Es gilt also, Mensch und Technologie gemeinsam zu denken. Schließlich sind es Menschen, die glauben, Eindrücke verarbeiten, manipuliert werden – und womöglich selbst manipulieren. Erst durch die Kombination von menschlichem Urteilsvermögen und KI-unterstützen Tools lässt sich verlässlich erkennen, wann eine Täuschung vorliegt, dann lassen sich effektive Gegenmaßnahmen entwickeln.
Das Zusammenspiel ist deshalb notwendig, weil Vorsatz zur Täuschung beispielsweise von KI-Modellen nicht gut erkannt werden kann, denn dafür braucht es geeignete Indikatoren. Menschen müssen die Evaluationen von KI-Modellen demnach kontrollieren, selbst den Kontext schaffen und andere Möglichkeiten in Betracht ziehen. Wir Menschen erkennen bestimmte Indikatoren für Fälschungen auf Anhieb, die KI erkennt andere Anzeichen.
Auf Details kommt es an
Ein plakatives Beispiel: Betrachten wir ein realistisch wirkendes Foto eines Menschen, der auf jeder Seite zwei Ohrläppchen hat. Für die meisten Menschen wäre dies ein deutliches Anzeichen für ein Deepfake.
Polzehl: „Die KI kommt an diesem Punkt ins Straucheln, denn eventuell sehen alle von der KI erkannten Elemente realistisch aus – und das Ohrläppchen wird mitunter gar nicht erkannt. Oder es wird doch erkannt, nur kann die KI das Erkannte nicht in einen sinnvollen Kontext setzen – nämlich: dass wir Menschen nun mal in der Regel pro Ohr nur ein Ohrläppchen haben. Für eine solche Entscheidung bräuchte eine KI zunächst einmal eine deutlich gesteigerte Erkennung der Ohrläppchen, logisches, kritisches und hinterfragendes Denken und Weltwissen über menschliche Anatomie, was derzeit nicht gegeben ist. Wir Menschen haben diese Fähigkeiten und können aus unserem Wissen und dem Kontext ableiten, dass dieses Foto wohl nicht authentisch ist.“
Hoch spezialisiert funktioniert KI sehr gut
Bei Bilddarstellungen und technischen Feinheiten ist uns die KI allerdings um Längen voraus. Lichtverhältnisse, Schatten und Überlagerungen, Bewegungen, Übergänge und Auffälligkeiten auf Pixelebene – in diesen Bereichen wird es für die menschliche Wahrnehmung schwierig. Bei dieser fast schon forensischen Betrachtung können KI-Tools hervorragend aushelfen, denn hoch spezialisiert funktioniert KI sehr gut – kann explizite Aufgaben also effektiv erfüllen. Unregelmäßigkeiten und Auffälligkeiten können dann wiederum als Indikator für mittels generativer KI-Modelle generierte Inhalte interpretiert werden.
Content-based-analysis
Abgesehen von der Identifizierung inhaltlicher Unstimmigkeiten sind Menschen dazu in der Lage, Verhältnismäßigkeiten und Erwartungen in ihre Betrachtung von Medieninhalten einfließen zu lassen.
Schmitt: „In der Regel haben wir ein gutes Verständnis von Kontext und Logik. Wenn also in einem Video die Säulen am Brandenburger Tor umkippen, und umstehende Menschen überhaupt nicht auf dieses Ereignis reagieren, dann können wir sehr leicht auf eine unechte Darstellung schließen. Außerdem gäbe es bei solch einem Event eine Vielzahl von unabhängigen Quellen, welche über das Geschehen berichten würden.“
Für die Ermittlung von Deepfakes und manipulativen Inhalten muss also auf eine Analyse des Inhalts gesetzt werden. Vor allem, wenn anhand der Darstellungsform kaum zwischen authentischem und künstlichem Material unterschieden werden kann – wie beispielsweise bei Text.
„Synthetische Texterzeugnisse sind in kleinen Mengen nahezu unmöglich zu erkennen“
Im Textbereich gibt es inzwischen viele unterschiedliche populäre Transformer-basierte Modelle zur Generierung. Diese synthetischen Texterzeugnisse sind in kleinen Mengen nahezu unmöglich zu erkennen. Sowohl für den Menschen als auch für die KI.
Schmitt: „Deshalb sind für die Erkennung von falschen Informationen die Beantwortung einiger Fragen elementar. Wer hat die Information ursprünglich in den Umlauf gebracht? Welche Fakten, Personen und Events werden dargestellt? Gibt es zu der Thematik bereits bekannte Fakes?“
Mit Deep Ware Scanner, Deeptrace oder Whisper lassen sich Informationen validieren
Auf diese Fragen können spezialisierte KI-Tools bereits verlässliche Antworten liefern. Durch öffentlich verfügbare Anwendungen wie beispielsweise Deep Ware Scanner, Deeptrace oder Whisper lassen sich Informationen validieren. Und auch der News-Polygraph soll künftig Menschen dazu ermächtigen, Informationen leichter zu überprüfen – und manipulative Narrativen aufzudecken.
Polzehl: „Wir haben es mit zwei Begriffen zu tun. Zunächst gibt es Deepfakes, also Audios, Videos, Bilder und Co mit vermeintlicher Authentizität. Dann gibt es da noch Desinformationen in Narrativen. Letzteres bringt uns in den Bereich des Fact-Checking – und zu einem weiteren Aspekt unseres News-Polygraphen.“
News-Polygraph vs. Desinformation in Narrativen
Eine Grundidee des Fact-Checkings: Manipulative Narrative wiederholen sich, also können wir in die Vergangenheit schauen – und dieselben Narrative womöglich erneut in der Gegenwart entdecken. Bei diesem Prozess kann KI erfolgreich unterstützen. Dann bleibt zu überprüfen, ob die Narrative bereits widerlegt wurde, ob es dazu bereits Veröffentlichungen gab – und zuletzt, wie man diese Information effektiv kommunizieren kann.
Das Team um Polzehl und Schmitt versteht den News-Polygraphen als „KI-Modell zur intelligenten Entscheidungshilfe für Journalisten“. Daher sei es entscheidend, dass die Auswertungen des Modells auf eine so transparente Weise dargestellt werden können, dass diese von Journalisten entsprechend verstanden und eingeordnet werden können.
Gefälschte Inhalte können unwissend und unabsichtlich geteilt werden
Schmitt: „Es ist außerdem wichtig, die Umstände von der Verbreitung von Miss- und Desinformation zu evaluieren und diese in eine Beurteilung oder Umsetzung wie beispielsweise eines Digital Service Acts mit einfließen zu lassen. Schließlich können gefälschte Inhalte auch unwissend und unabsichtlich geteilt werden, ohne jedwede Intention dahinter, damit zu täuschen.“
Es bräuchte also ein Prozedere, durch das KI-generiertes Material nicht nur gekennzeichnet wird, sondern neben Authentizität auch Intention und Wirkung bemessen werden können. Denn die Tatsache, dass KI synthetische Medien wie Stimmen, Videos und Bilder generieren kann, sei zunächst positiv, so Schmitt. Allerdings können Menschen mit denselben Inhalten persönliche Kampagnen fahren und diese Medien missbrauchen.
Intention und Quellen einer Behauptung spielen eine immer größere Rolle
„Wenn beispielsweise faktenbasiert kommuniziert wird, werden in der Regel auch Quellen bereitgestellt. Am Ende müssen aber auch wir Wissenschaftler unser Vertrauen ein Stück weit verschenken – auch wenn die Wissenschaft im Anschluss daran zum größten Teil auf Evidenz basiert.“
Tim Polzehl
Polzehl: „Sich gegen Desinformationen zu wappnen heiß deshalb öfter und kritischer hinterfragen, wem und vor allem warum man bestimmten Behauptungen Glauben schenkt. Dabei spielen Intention und Quellen einer Behauptung eine immer größere Rolle. Das gilt auch für uns Wissenschaftler. Wenn beispielsweise faktenbasiert kommuniziert wird, werden in der Regel auch Quellen bereitgestellt. Am Ende müssen aber auch wir Wissenschaftler unser Vertrauen ein Stück weit verschenken – auch wenn die Wissenschaft im Anschluss daran zum größten Teil auf Evidenz basiert.“
Absolute Gewissheit gibt es nicht
Schmitt: „Es wird nie eine KI geben, die alles erkennen kann. Darüber hinaus herrscht zwischen generativen Modellen und Erkennungs-Technologien ein immenses Ungleichgewicht, welches es durch einen Zuwachs an Ressourcen und Aufmerksamkeit für dieses Thema auszugleichen gilt. Denn Deepfakes haben in der heutigen Welt eine schier unendliche Reichweite – eine Skalierbarkeit –, welcher durch Aufklärung, Entlastung und Befähigung begegnet werden muss.“
Auch deshalb teilten Polzehl und Schmitt ihre Einschätzungen auf der diesjährigen re:publica in Berlin. Doch selbst wenn Informationen und ein kritischer Umgang in Kombination mit KI-Tools perspektivisch dazu befähigen, Deepfakes verlässlicher zu erkennen – entschärft sind sie dadurch nicht. Die Gefahren liegen hinter der künstlich erstellten Fassade.
„Es ist mein persönlicher Wunsch, dass wir als Gesellschaft die Bedeutung von Desinformation größer einsortieren, sodass wir besser darauf vorbereitet sind.“
Tim Polzehl
Polzehl: „Selbst die Kennzeichnung von KI-generiertem Material schützt nicht zwingend vor Beeinflussung durch diese Inhalte. Verschiedene Studien zur Kennzeichnung lieferten die Erkenntnis, dass sich Menschen dennoch beeinflussen lassen. Durch ‚Erkennen‘ ist das Thema also nicht vom Tisch. Es ist mein persönlicher Wunsch, dass wir als Gesellschaft die Bedeutung von Desinformation größer einsortieren, sodass wir besser darauf vorbereitet sind. Dann kann eine Kennzeichnung funktionieren, das Abfangen von schädlichen Narrativen und Inhalten gelingen und ein besseres Monitoring vollzogen werden. All das soll simultan zu einer Entlastung aller Menschen geschehen, welche konsequent mit einer wachsenden Zahl von Fälschungen konfrontiert werden. Und dedizierte Akteure dazu befähigen, dem wachsenden Output gerecht zu werden.“
Originalpublikation
Weitere Informationen des DFKI zum Projektz news-polygraph
KI wird auch in der Zahnmedizin eine immer größere Rolle spielen, siehe hierzu auch unsere Beiträge:
„KI kommt definitiv. Wir sollten uns darauf einstellen und mitgestalten“