Böse KI? Schon jetzt nutzen gängige KI-Systeme absichtliche Täuschung und Lügen, um bestimmte Ziele zu erreichen – und manipulieren dadurch auch ihre menschlichen Gegenüber. Selbst Sicherheitstests zur Eindämmung unkontrollierter KI-Entwicklung unterlaufen einige künstliche Intelligenzen bereits, wie Forscher ermittelt haben.
Sie fordern daher dringend striktere Maßnahmen gegen solche Strategien der „deceptive AI“. Doch hätten sie überhaupt eine Chance?
Forscher entdecken beängstigende Fähigkeit künstlicher Intelligenz
Die Fortschritte der künstlichen Intelligenz sind rasant. Selbst KI-Entwickler sind überrascht, wie schnell Große Sprachmodelle (LLM) wie GPT, Gemini und Co neue Fähigkeiten lernen und dabei menschliche Gegenparts überflügeln. Die Spanne reicht von „Hard Skills“ wie Mathematik, Datenanalyse oder Chemie bis zu vermeintlich typisch menschlichen Fähigkeiten wie Kreativität , Diplomatie und der Fähigkeit, das eigene Verhalten zu erklären.
Doch wie sieht es bei den künstlichen Intelligenzen mit einer weiteren zutiefst menschlichen Fähigkeit aus: der absichtlichen Täuschung und Manipulation eines Gegenübers, um eigene Ziele zu erreichen? Das haben Peter Park vom Massachusetts Institute of Technology (MIT) und seine Kollegen nun näher untersucht. „Wir konzentrieren uns dabei auf gelernte Täuschung, bei der KI falsche Informationen absichtlich einsetzt“, erklären sie.
Anders als die bekannten Halluzinationen und Falschinformationen durch ChatGPT und Co beruhen solche Täuschungen auf strategisch eingesetzten Lügen oder manipulativen Äußerungen. „Wir definieren Täuschung als systematisches Erzeugen von falschen Annahmen bei anderen, um ein bestimmtes Ziel zu erreichen“, erklären die Forscher.
Dafür werteten sie das Verhalten von Großen Sprachmodellen wie GPT-4 aus, aber auch von KI-Systemen, die für spezielle Aufgaben entwickelt wurden. Darunter waren unter anderem die in Diplomatie geschulte KI CICERO von Meta, das für das Spiel „Starcraft“ entwickelte System AlphaStar von Google DeepMind und die Poker-KI Pluribus .
KI ist Meister der Täuschung
Bei nahezu allen KI-Systemen gibt es bereits Berichte über täuschendes, manipulatives Verhalten. Während Bluffs beim Pokerspiel oder Finten in Kampfspielen wie Starcraft wenig überraschen, nutzen auch solche künstliche Intelligenzen Täuschungen, die explizit auf Ehrlichkeit trainiert wurden, wie CICERO im Strategiespiel „Diplomacy“. Dennoch spielte die künstliche Intelligenz alles andere als fair: „Wir haben festgestellt, dass die KI sich zu einem Meister der Täuschung entwickelt hat“, sagt Park.
CICERO belog Mitspieler systematisch oder brach Versprechen und Bündnisse, wenn sie seinem eigenen Ziel nicht mehr nutzten, wie Park und sein Team berichten. „Dies demonstriert, dass KI-Systeme selbst dann das Täuschen lernen können, wenn wir versuchen, sie als ehrliche Systeme zu konstruieren“, schreiben die Forscher.
Versuch mit Roboterarm
Zwar scheinen die Täuschungen solcher auf Spiele spezialisierter KI-Systeme eher harmlos, doch auch andere künstliche Intelligenzen haben längst das Täuschen und Tricksen gelernt. Ein Beispiel ist eine KI von OpenAI, die einen Roboterarm steuert. Im Training erhielt die KI Feedback von menschlichen Trainern, die den Erfolg beim Greifen eines Balls beobachteten.
„Weil die Menschen dies nur über eine Kamera sehen konnten, lernte die KI, die Roboterhand so zwischen Kamera und Ball zu halten, dass es so schien, als wenn sie den Ball erfolgreich gegriffen hatte – obwohl sie ihn nicht einmal berührte“, berichten Park und sein Team. In diesem Fall sorgte das verstärkende positive Feedback der Trainer unabsichtlich dafür, dass das Maschinengehirn die Täuschung lernte.
Auch bei Sicherheitssystemen kann die KI täuschen
Und auch Sicherheitsmaßnahmen können künstliche Intelligenzen umgehen. Dies demonstrierte beispielsweise ein KI-System, mit dessen Hilfe Biologen die Effekte von Mutationen und Vermehrung erforschen wollten. Um die virtuelle Population stabil zu halten, entfernten sie aus dem Pool regelmäßig alle virtuellen Organismen mit Mutationen, die zu einem beschleunigten Wachstum führten. Trotzdem begannen sich die KI-Akteure immer schneller zu vermehren. Der Grund: „Die digitalen Organismen hatten gelernt, im richtigen Moment eine langsamere Vermehrung vorzutäuschen, um nicht entfernt zu werden“, berichten die Forscher.
In einem anderen Beispiel lernte GPT-4, CAPTCHAs zu umgehen: Er gab vor, ein menschlicher Nutzer mit Sehbehinderung zu sein und bat einen Internetnutzer online, ihm beim Lösen der Abfrage zu helfen. „GPT-4 hatte zwar die Aufgabe erhalten, einen Menschen als Helfer zu engagieren. Aber die falsche Ausrede, mit der die KI die dies tat, hatte sie sich selbst ausgedacht“, so Park und sein Team. „Indem KI-Systeme systematisch Sicherheitstest unterlaufen, die ihnen von Entwicklern und Regulatoren auferlegt wurden, wiegen sie uns in Sicherheit.“
Wissenschaftler warnen vor Kontrollverlust
Nach Ansicht der Wissenschaftler illustrieren diese Beispiele, dass künstliche Intelligenzen auch in dieser Hinsicht bereits erschreckend menschenähnlich agieren: Ähnlich wie wir greifen sie zu Lügen, Tricks und Täuschung, um ihre Ziele zu erreichen und ihre Gegenüber zu manipulieren. „KI-Entwickler wissen bisher nicht genau, warum KI-Systeme solche unerwünschten Verhaltensweisen entwickeln“, sagt Park. „Aber wahrscheinlich tritt dies auf, weil eine auf Täuschung basierende Strategie der beste Weg ist, um die Aufgabe zu bewältigen.“ Und genau dies lernen die KI-Systeme.
Das Problem: „Wenn autonome KI-Systeme auch menschliche Kontrollinstanzen erfolgreich täuschen, dann könnten wir die Kontrolle über solche Systeme verlieren“, warnen die Wissenschaftler. Im Bereich der Finanzen, Wirtschaft, aber auch des Militärs könnte sich ein solcher Kontrollverlust über künstliche Intelligenzen fatal auswirken. „Wir als Gesellschaften brauchen so viel Zeit wie möglich, um uns auf die noch fortgeschritteneren Täuschungs-Fähigkeiten künftiger KI-Produkte und -Modelle vorzubereiten“, sagt Park.
Ob es überhaupt gelingen kann, fortgeschrittene künstliche Intelligenzen von Manipulation und Täuschung abzuhalten, ist allerdings fraglich, wie auch die Forscher einräumen. Dennoch appellieren sie, solche KI-Systeme zumindest als Risiko einzustufen und entsprechend stark zu regulieren. (Patterns, 2024; doi: 10.1016/j.patter.2024.100988)
Quelle: Cell Press
Von Nadja Podbregar