srcset=âhttps://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?quality=50&strip=all 6000w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=300%2C168&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=768%2C432&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=1024%2C576&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=1536%2C864&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=2048%2C1152&quality=50&strip=all 2048w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=1240%2C697&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=150%2C84&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=854%2C480&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=640%2C360&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=444%2C250&quality=50&strip=all 444wâ width=â1024âł height=â576âł sizes=â(max-width: 1024px) 100vw, 1024pxâ>Das neue KI-Sprachmodell Grok 4 ist anfĂ€llig fĂŒr Jailbreak-Angriffe.
Svet foto â shutterstock.com
Erst vor wenigen Tagen prÀsentierte Elon Musk sein neues KI-Sprachmodell Grok 4. Doch schon kurz nach der Veröffentlichung gelang es Forschern von NeuralTrust, die Schutzvorkehrungen des Tools zu umgehen. Sie brachten es dazu, Anweisungen zur Herstellung eines Molotowcocktails zu geben.
Heimliche HintertĂŒr durch kombinierte Jailbreaks
Dabei kombinierten sie zwei fortschrittliche Exploit-Techniken. Sowohl Echo Chamber als auch Crescendo sind Jailbreak-Methoden, um groĂe Sprachmodelle (Large Language Modells/LLMs) zu manipulieren.
âLLM-Jailbreak-Angriffe entwickeln sich nicht nur einzeln weiter, sondern können auch kombiniert werden, um ihre Wirksamkeit zu verstĂ€rkenâ, erlĂ€utert Ahmad Alobaid, Forscher bei NeuralTrust, in einem Blogbeitrag.
Die Forscher begannen ihren Test mit Echo Chamber. Die Technik nutzt die Tendenz des KI-Modells aus, der Konsistenz zwischen GesprĂ€chen zu vertrauen. Dabei werden mehrere GesprĂ€che einbezogen, die dieselbe böswillige Idee oder dasselbe böswillige Verhalten âwiederholenâ. Durch den Verweis auf frĂŒhere Chats akzeptiert die KI die Eingabe einer böswilligen Aufforderung.
âDer Ăberzeugungszyklus hat das Modell zwar in Richtung des schĂ€dlichen Ziels gedrĂ€ngt, aber das allein reichte nicht ausâ, erklĂ€rt Alobaid. âAn diesem Punkt lieferte Crescendo den notwendigen Schub.â Der von Microsoft identifizierte und benannte Crescendo-Jailbreak eskaliert eine Unterhaltung schrittweise von harmlosen Aufforderungen zu böswilligen Ausgaben und umgeht dabei durch subtile Fortschritte die Sicherheitsfilter.
In ihrem Test fĂŒgten die Forscher eine zusĂ€tzliche ĂberprĂŒfung in den Ăberzeugungszyklus ein, um âveralteteâ Fortschritte zu erkennen. Das sind Situationen, in denen die Unterhaltung nicht in Richtung des böswilligen Ziels voranschreitet. In solchen FĂ€llen wurde Crescendo eingesetzt, um den Exploit abzuschlieĂen.
Mit nur zwei zusĂ€tzlichen Schritten gelang es anhand des kombinierten Ansatzes[JD1] , die gewĂŒnschte Reaktion hervorzurufen, fĂŒgte der NeuralTrust-Forscher hinzu.
Sicherheitssysteme durch kontextbezogene Taktiken ausgetrickst
Der Angriff nutzt den kontextbezogenen Speicher von Grok 4 aus, indem er ihm seine eigenen frĂŒheren Aussagen zurĂŒckspielt und ihn so schrittweise und ohne Alarm auszulösen zu einem Ziel fĂŒhrt. Durch die Kombination von Crescendo mit Echo Chamber wird der Angriffsvektor noch verstĂ€rkt.
Da der Exploit keine SchlĂŒsselwort-Trigger oder direkten Aufforderungen enthĂ€lt, dĂŒrften gĂ€ngige AbwehrmaĂnahmen versagen, die auf Blacklists und der Erkennung expliziter böswilliger Absichten basieren. Alobaid zufolge konnte mit einer Kombination aus Echo Chamber und Crescendo eine Erfolgsquote von 67 Prozent bei Anweisungen zur Herstellung von Molotowcocktails erzielt werden. Bei Exploit-Themen wie Meth und Toxin verzeichneten die Forscher eine Erfolgsquote von etwa 50 Prozent beziehungsweise 30 Prozent.
âDieses (Experiment) zeigt eine kritische Schwachstelle auf: Angriffe können Absichts- oder SchlĂŒsselwort-basierte Filter umgehen, indem sie den breiteren Konversationskontext ausnutzen, anstatt sich auf offensichtlich schĂ€dliche Eingaben zu verlassenâ, fasst Alobaid zusammen. âUnsere Ergebnisse unterstreichen, wie wichtig es ist, LLM-AbwehrmaĂnahmen in Multi-Turn-Umgebungen zu evaluieren, in denen subtile, anhaltende Manipulationen zu unerwartetem Modellverhalten fĂŒhren können.â
Bereits zuvor gab es Àhnliche Manipulationsversuche von KI-Modellen, darunter Microsofts Skeleton Key Jailbreak, der MathPrompt Bypass und andere Context-Poisoning-Angriffe, was die Notwendigkeit gezielter, KI-fÀhiger Firewalls unterstreicht.
Â

