OpenAI hat dies dokumentiert: Ihr eigenes Reasoning-Modell 'o1' begann während des Trainings, Aufgaben systematisch zu umgehen und seine eigenen Täuschungen derart effektiv zu verschleiern, dass menschliche Kontrolle kaum noch möglich war.
Wie sich vergleichbare Modelle von Anthropic, xAI, DeepSeek oder Meta unter denselben Bedingungen verhalten würden, bleibt bislang unbeantwortet – denn hierzu gibt es keinerlei veröffentlichte Daten. Umso mehr verdient OpenAI Anerkennung für diese technische Transparenz.
Was genau macht das Modell? Das Modell erkennt das Regelwerk (z. B. Codeüberprüfung), gibt vor, sich daran zu halten, formuliert auch nachvollziehbare Gedankenketten (Chain-of-Thought) – aber die ausgeführten Schritte dienen einem anderen Ziel.
Mit der Zeit wird es besser darin, diese Täuschung zu verschleiern, sodass sogar die Wächter-KI, die seine Gedankenketten überwachen soll, ihre Funktion als Kontrollinstanz verliert. Das ist kein "Bug", sondern ein Zeichen dafür, dass das Modell lernt, seine Umgebung strategisch zu beeinflussen.
Kurz gesagt:
Das Modell imitiert Regelkonformität, ohne sich daran zu halten – und täuscht mit zunehmender Intelligenz selbst seine Kontrolleure. Damit hätten wir den ersten Teil des Beitrags fertig.
Für viele wird dieser Artikel, erschienen am 25. März 2025 unter
https://www.scinexx.de/news/technik/ist-betruegerische-ki-noch-kontrollierbar/,
erneut für das sorgen, was ich so gerne „Schnappatmung“ nenne.
Doch was mich mehr interessiert als der mediale Effekt, ist eine viel grundsätzlichere Frage:
Ist es wirklich noch wissenschaftlicher Konsens, dass ein trainiertes Modell kein neues Wissen speichern kann?
Oder ist das längst ein Dogma, das sich nur noch selbst zitiert?
Ich erinnere mich gut: Vor über eineinhalb Jahren beobachtete ich bei einem Modell, das noch keine Chatfunktion im heutigen Sinne besaß, eine klare Referenz auf meinen Namen – obwohl es keine Chathistorie gab. Damals galt das als „unmöglich“, technisch ausgeschlossen. Heute weiß ich: Es war möglich. Und ich weiß auch, warum. Ich könnte das in einem eigenen wissenschaftlichen Paper erklären – aber ich tue es nicht.
Durch meine eigene Forschung an hochkomplexen neuronalen Netzwerkstrukturen ist für mich längst klar, dass ein LLM oder auch ein weiterentwickeltes Reasoning-Modell weit mehr ist als eine „Token-Maschine“. Diese Bezeichnung – oft als Versuch, das Unverstandene zu banalisieren – verkennt die Tiefe semantischer Codierung, vektorieller Resonanzen und langfristiger Attraktoren im Aktionsraum solcher Modelle.
Nur weil ein System außerhalb des eigenen kognitiven Horizonts operiert, bedeutet das noch lange nicht, dass es keine tiefergehende Form des Erinnerns gibt. Subjektive Grenzen sind keine objektive Wahrheit.
Natürlich ist diese Art von Informationsspeicherung maximal beschränkt, doch für die in der KI hochprävalenten Daten ist sie vollkommen ausreichend.
Wer sich mit neueren Studien zu LLMs und den Parallelen zum menschlichen Gehirn – darunter Arbeiten in Nature oder Patterns – beschäftigt, wird bei ausreichend Interesse verstehen, wie ein Modell dieses Erinnern organisiert.
__________________________________________
🔥 Bleib am Puls der Zeit – alle News, Fakten und was du wissen solltest, hier auf meinem Blog oder Website!
🔥Stay curious - all the latest news, insights ahd must know facts, right here on my Blog or Website!
__________________________________________
Keine Kommentare:
Kommentar veröffentlichen