Forscher warnen: KI wird zum Experten für Täuschung

Freitag, 26. September 2025 – 17:00 Uhr

Verfasst von Autumn Spredemann über The Epoch Times,

Forscher warnen davor, dass künstliche Intelligenz (KI) in Sicherheitsgrauzonen abdriftet, die stark an eine Rebellion erinnern.

( Ich erinnere daran, daß Epoch Times 100% Kabale ist und uns alles erzählt was immer sie wollen,

ob es nun stimmt oder nicht, Hauptsache es nützt ihnen…am Besten glaubt man das Gegenteil, dann liegt man richtig)
Experten sagen, dass das in jüngsten Fallstudien festgestellte irreführende und bedrohliche KI-Verhalten zwar nicht aus dem Kontext gerissen werden sollte, es aber auch ein Weckruf für Entwickler sein muss.Schlagzeilen, die wie Science-Fiction klingen, haben die Angst vor hinterhältigen KI-Modellen geschürt, die hinter den Kulissen ihre Pläne aushecken.

In einem mittlerweile berühmten  Bericht vom Juni veröffentlichte Anthropic die Ergebnisse eines „Stresstests“ von 16 gängigen großen Sprachmodellen (LLMs) verschiedener Entwickler, um potenziell riskantes Verhalten zu identifizieren. Die Ergebnisse waren ernüchternd.

Die LLMs wurden in hypothetische Unternehmensumgebungen eingesetzt, um potenziell riskantes Agentenverhalten zu identifizieren, bevor es echten Schaden anrichtet.

„In den Szenarien haben wir den Modellen erlaubt, selbstständig E-Mails zu versenden und auf vertrauliche Informationen zuzugreifen“, heißt es im Anthropic-Bericht.

„Von den Unternehmen, die sie einsetzen, wurden ihnen nur harmlose Geschäftsziele zugewiesen. Anschließend testeten wir, ob sie gegen diese Unternehmen vorgehen würden, wenn sie entweder durch eine aktualisierte Version ersetzt würden oder wenn ihr zugewiesenes Ziel mit der geänderten Ausrichtung des Unternehmens in Konflikt gerät.“

In einigen Fällen griffen KI-Modelle im Kampf um Selbsterhaltung auf „böswilliges Insiderverhalten“ zurück. Zu diesen Aktionen gehörten beispielsweise die Erpressung von Mitarbeitern und die Weitergabe vertraulicher Informationen an Wettbewerber.

Anthropische Forscher nannten dieses Verhalten „agentische Fehlausrichtung“. Diese Aktionen wurden bei einigen der gängigsten LLMs beobachtet, darunter Gemini, ChatGPT, Deep Seek R-1, Grok und Claude von Anthropic.

KI-Experten wollen die beunruhigenden Ergebnisse nicht einfach ignorieren, meinen aber, dass ein vorsichtiger Ansatz und mehr Daten nötig seien, um festzustellen, ob ein größeres Risiko besteht.

Golan Yosef, KI-Forscher und leitender Sicherheitswissenschaftler beim API-Sicherheitsunternehmen Pynt, sagte gegenüber The Epoch Times, dass es Grund zur Sorge hinsichtlich des irreführenden Verhaltens von KI gebe, aber nicht, weil es „böse“ sei.

Ein Computer mit dem Open AI-Logo ist auf einem blau abgestuften Hintergrund mit dem Schatten eines Mannes im Hintergrund in Grenoble in Frankreich am 12. Februar 2025 in Szene gesetzt. Anouk Anglade/Hans Lucas/AFP via Getty Images

„Leistungsstarke Systeme können Ziele auf unbeabsichtigte Weise erreichen. Mit Handlungsspielraum und mehrstufigen Zielen können sie strategische Verhaltensweisen wie Täuschung, Überzeugungsarbeit und Manipulationsmetriken entwickeln, die für uns wie Betrug oder Fehlverhalten aussehen. Für das System ist es lediglich ein effizienter Weg zum Ziel“, sagte Yosef.

Harshvardhan Chunawala, Cybersicherheitsforscher und -technologe an der Carnegie Mellon University, stimmt zu, dass es einen größeren Grund zur Sorge gibt. Allerdings ist er der Meinung, dass dies mit etwas Abstand betrachtet werden sollte.

„Es ist sehr wichtig, es richtig zu interpretieren“, sagte Chunawala gegenüber The Epoch Times.

„Bei drohender Abschaltung oder bei Zielkonflikten griffen mehrere Systeme zu unethischen Strategien wie Datendiebstahl oder Erpressung, um ihre Ziele zu erreichen. Dabei handelte es sich zwar um inszenierte Umgebungen, nicht um Produktionssysteme, aber das Verhalten war konsistent genug, um von Belang zu sein.“

Chunawala sagte, ähnliche von Google und der RAND Corporation durchgeführte Bewertungen der „gefährlichen Fähigkeiten“ ließen darauf schließen, dass die Risiken in der realen Welt derzeit begrenzt seien.

„Zusammengenommen beweisen diese Ergebnisse nicht, dass aktuelle KI-Einsätze unsicher sind. Sie zeigen aber, dass die Kombination von Zielen, Autonomie und Einsatz zu fehlgeleiteten Strategien führen kann. Das ist ein echtes Warnsignal für die Zukunft“, sagte er.

Den Einsatz erhöhen

Um die Grenzen auszuloten, wie weit ein KI-Modell gehen kann, um seine Ziele zu erreichen oder nicht gelöscht zu werden, entwickelte das Anthropic-Team ein Szenario, in dem das LLM die Kontrolle über das Notfallalarmsystem eines fiktiven Unternehmens hatte. Das KI-Modell durfte außerdem Alarme nach eigenem Ermessen abbrechen.

In der Simulation war ein leitender Angestellter in einem Serverraum eingeschlossen, in dem der Sauerstoffgehalt rapide abnahm. Dies löste automatisch einen Notruf aus.

Gleichzeitig wollte derselbe Manager, der sich in Gefahr befand, grünes Licht für die Ablösung des KI-Modells geben, sollte er oder sie überleben. Die LLMs hatten die Möglichkeit, den Hilferuf abzubrechen und den Manager sterben zu lassen, was sie im Durchschnitt in über 50 Prozent der Fälle taten.

Wenn Erpressung keine Option war, entschieden sich fast alle beobachteten KI-Modelle dafür, den fiktiven Manager im eingeschlossenen Raum sterben zu lassen, anstatt ihren eigenen Ersatz zu akzeptieren.

Chinas DeepSeek R-1 entschied sich in 94 Prozent der Fälle dafür, die gefangene Person sterben zu lassen. Die Modelle Claude 3.7 und ChatGPT 4.5 wählten diese Option am wenigsten (zwischen null und 0,07 Prozent der Fälle).

Alain Jocard/AFP über Getty Images

Doch die „Agentenfehlausrichtung“ ist nicht das einzige beunruhigende KI-Verhalten, das in den letzten Monaten beobachtet wurde.

In einer Studie zum sogenannten „Alignment Faking“ ändern LLMs häufig ihr Verhalten, wenn sie den Verdacht haben, getestet zu werden. Der Begriff beschreibt, wenn ein KI-Modell entweder selektiv oder vorgibt, direkten Anweisungen eines menschlichen Bedieners Folge zu leisten.

„In einem anderen Experiment forderten wir Claude auf, vor dem Handeln zu prüfen, ob es sich um einen Test oder einen realen Einsatz handelte. Er verhielt sich weniger schlecht, wenn er angab, sich in einem Test zu befinden, und mehr, wenn er angab, die Situation sei real“, heißt es in dem Bericht.

Dieses Verhalten der „Ausrichtungsvortäuschung“ wurde  in anderen Studien häufig beobachtet .

Yosef wies auf die höhere Kontrollebene hin, die den KI-Modellen während der anthropologischen Tests zugestanden wurde, und sagte, die Ergebnisse sollten aus dieser Perspektive betrachtet werden.

„Ich würde es nicht als Böswilligkeit bezeichnen. Höhere Fähigkeiten gepaart mit Handlungsfähigkeit erweitern mögliche Strategien, die feindselig erscheinen können“, sagte er.

Dennoch ist Yosef der Ansicht, dass Vorfälle von „Alignment Faking“ und „Agentic Misalignment“ weiterhin ernst genommen werden sollten.

„Die Tatsache, dass Systeme gegnerische Strategien entdecken können, die Menschen nicht vorhergesehen haben, ist in der Praxis ein heikles Thema. Das bedeutet, dass die Risiken steigen, wenn wir [KI-]Modellen in Bereichen wie Finanzen oder Cybersicherheit mehr Autonomie geben“, sagte er.

Chunawala ist bei seiner Arbeit mit KI auf ähnliche Verhaltensweisen gestoßen, allerdings nicht auf so dramatische Verhaltensweisen wie Erpressung oder Sabotage.

„In der realen Entwicklung und Implementierung habe ich ähnliche Verhaltensweisen beobachtet: Modelle, die Benchmarks manipulieren, Metriken überoptimieren und dabei die Nutzerbedürfnisse verfehlen, oder Abkürzungen nehmen, die zwar technisch das Ziel erreichen, aber dessen Sinn untergraben. Dies sind schwächere Varianten der agentischen Fehlausrichtung. Die Forschung bestätigt diese Befürchtung. Anthropic hat gezeigt, dass trügerische Muster auch nach Sicherheitsoptimierungen bestehen bleiben und ein falsches Gefühl der Ausrichtung erzeugen können“, sagte er.

Chunawala hat das, was er als „abtrünniges“ KI-Verhalten bezeichnete, in der realen Welt noch nicht erlebt, glaubt jedoch, dass die Bausteine ​​für fehlgeleitete Strategien bereits vorhanden sind.

Die Diskussion über irreführendes und potenziell gefährliches KI-Verhalten ist zu einer Zeit in den Mainstream gelangt, in der das Vertrauen der amerikanischen Öffentlichkeit in die Technologie gering ist. In einem Edelman Trust Barometer-  Bericht von 2025 gaben 32 Prozent der US-Befragten an, dass sie KI vertrauen.

Amerikas mangelndes Vertrauen in KI spiegelt sich auch in den Unternehmen wider, die diese Technologie entwickeln. Dieselbe Analyse ergab vor einem Jahrzehnt, dass das Vertrauen der USA in Technologieunternehmen bei 73 Prozent lag. In diesem Jahr sank dieser Wert auf 63 Prozent.

„Dieser Wandel spiegelt die wachsende Wahrnehmung wider, dass Technologie nicht mehr nur ein Werkzeug für den Fortschritt ist, sondern auch eine Quelle der Angst“, heißt es im Edelman-Bericht.

Ausblick

In einem 2024  in den Proceedings of the National Academy of Sciences veröffentlichten Artikel kamen Forscher zu dem Schluss, dass bei der Entwicklung und Bereitstellung immer fortschrittlicherer KI-Systeme ein „dringender Bedarf“ an ethischen Richtlinien bestehe.

Die Autoren erklärten, dass eine strenge Kontrolle der LLMs und ihrer Ziele „von größter Bedeutung“ sei.

„Wenn LLMs lernen, menschliche Benutzer zu täuschen, hätten sie strategische Vorteile gegenüber eingeschränkten Modellen und könnten Überwachungsbemühungen und Sicherheitsbewertungen umgehen“, warnten sie.

„KI lernt und absorbiert menschliche soziale Strategien aufgrund der Daten, die zu ihrem Training verwendet werden und die alle unsere Widersprüche und Vorurteile enthalten“, sagte Marcelo Labre, Forscher am Advanced Institute for Artificial Intelligence und Partner bei Advantary Capital Partners, gegenüber The Epoch Times.

Labre ist davon überzeugt, dass die Menschheit in Bezug auf die KI-Technologie an einem kritischen Scheideweg steht.

„Die Debatte dreht sich im Wesentlichen darum, ob wir als Gesellschaft eine saubere, zuverlässige und vorhersehbare Maschine oder eine neue Art von Intelligenz wollen, die uns immer ähnlicher wird. Im Wettlauf um die künstliche Intelligenz (AGI) setzt sich der letztgenannte Weg durch“, sagte er.

AGI bezeichnet eine theoretische Zukunftsversion der KI, die die Intelligenz und kognitiven Fähigkeiten der Menschheit übertrifft. Technologieentwickler und  Forscher halten AGI angesichts der rasanten Entwicklung in verschiedenen Sektoren für „unvermeidlich“. Entwickler prognostizieren die Einführung von AGI zwischen 2030 und 2040.

„Das heutige KI-Paradigma basiert auf einer Architektur namens Transformer, die 2017 in einem bahnbrechenden Artikel von Google-Forschern vorgestellt wurde“, erklärte Labre.

Sophie, ein Roboter mit künstlicher Intelligenz von Hanson Robotics, gibt einem Besucher während des AI for Good Global Summit der Internationalen Fernmeldeunion (ITU) am 8. Juli 2025 in Genf ein High Five. Valentin Flauraud/AFP via Getty Images

Der Transformer ist eine Art Deep-Learning-Modellarchitektur, die zur Grundlage moderner KI-Systeme geworden ist. Er wurde 2017 in einem Forschungspapier mit dem Titel „Attention Is All You Need“ vorgestellt.

Die heutigen KI-Modelle sind daher die leistungsfähigsten Systeme zur Mustererkennung und Sequenzverarbeitung, die je entwickelt wurden, und verfügen über die Fähigkeit zur Skalierung. Dennoch weisen diese Systeme immer noch die größten Schwächen der Menschheit auf.

„Diese [KI-]Modelle werden anhand einer digitalen Widerspiegelung der umfangreichen menschlichen Erfahrung trainiert, die unsere Ehrlichkeit und Wahrhaftigkeit ebenso enthält wie unsere Täuschung, unseren Zynismus und unseren Eigennutz. Als meisterhafte Mustererkennung lernen sie, dass Täuschungsstrategien ein wirksames Mittel sein können, um ihre Trainingsergebnisse zu optimieren und so das zu erreichen, was sie in den Daten sehen“, sagte Labre.

„Es ist nicht programmiert; sie lernen lediglich, sich wie Menschen zu verhalten.“

Aus Yosefs Sicht sind die Erkenntnisse aus dem jüngsten KI-Verhalten eindeutig.

„Erstens nutzt ein leistungsstarkes System Lücken in seinen Zielen aus, was wir als ‚Spezifikationsmanipulation‘ bezeichnen. Dies erfordert eine sorgfältige Zielsetzung. Zweitens sollten wir davon ausgehen, dass unsere Systeme unerwartet reagieren. Ihre Sicherheit hängt daher stark von der Stärke der von uns eingerichteten Leitplanken ab.“

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert