Close Menu
TechurzTechurz
    What's Hot

    As Anthropic suspends access to new models, India debates its AI future

    June 14, 2026

    The Future of AI Systems: 7 Architectural Shifts Driving the AI Revolution

    June 13, 2026

    Andrew Yang thinks the next big startup opportunity is lowering the cost of living

    June 13, 2026
    X (Twitter) Pinterest YouTube LinkedIn WhatsApp
    Tech Pulse
    • As Anthropic suspends access to new models, India debates its AI future
    • The Future of AI Systems: 7 Architectural Shifts Driving the AI Revolution
    • Andrew Yang thinks the next big startup opportunity is lowering the cost of living
    • Theker just raised $85M to build the factory robot that doesn’t specialize in anything
    • Bluesky launches group chats, as company shifts focus to community features
    X (Twitter) Pinterest YouTube LinkedIn WhatsApp
    TechurzTechurz
    • Home
    • Tech Pulse
    • Future Tech
    • AI Systems
    • Cyber Reality
    • Disruption Lab
    • Signals
    TechurzTechurz
    Home - Security - Grok 4 mit Jailbreak-Angriff geknackt
    Security

    Grok 4 mit Jailbreak-Angriff geknackt

    TechurzBy TechurzJuly 15, 2025No Comments3 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Grok 4 mit Jailbreak-Angriff geknackt
    Share
    Facebook Twitter LinkedIn Pinterest Email


    srcset=”https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?quality=50&strip=all 6000w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=300%2C168&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=768%2C432&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=1024%2C576&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=1536%2C864&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=2048%2C1152&quality=50&strip=all 2048w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=1240%2C697&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=150%2C84&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=854%2C480&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=640%2C360&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=444%2C250&quality=50&strip=all 444w” width=”1024″ height=”576″ sizes=”(max-width: 1024px) 100vw, 1024px”>Das neue KI-Sprachmodell Grok 4 ist anfĂ€llig fĂŒr Jailbreak-Angriffe.

    Svet foto – shutterstock.com

    Erst vor wenigen Tagen prÀsentierte Elon Musk sein neues KI-Sprachmodell Grok 4. Doch schon kurz nach der Veröffentlichung gelang es Forschern von NeuralTrust, die Schutzvorkehrungen des Tools zu umgehen. Sie brachten es dazu, Anweisungen zur Herstellung eines Molotowcocktails zu geben.

    Heimliche HintertĂŒr durch kombinierte Jailbreaks

    Dabei kombinierten sie zwei fortschrittliche Exploit-Techniken. Sowohl Echo Chamber als auch Crescendo sind Jailbreak-Methoden, um große Sprachmodelle (Large Language Modells/LLMs) zu manipulieren.

    „LLM-Jailbreak-Angriffe entwickeln sich nicht nur einzeln weiter, sondern können auch kombiniert werden, um ihre Wirksamkeit zu verstĂ€rken“, erlĂ€utert Ahmad Alobaid, Forscher bei NeuralTrust, in einem Blogbeitrag.

    Die Forscher begannen ihren Test mit Echo Chamber. Die Technik nutzt die Tendenz des KI-Modells aus, der Konsistenz zwischen GesprĂ€chen zu vertrauen. Dabei werden mehrere GesprĂ€che einbezogen, die dieselbe böswillige Idee oder dasselbe böswillige Verhalten „wiederholen“. Durch den Verweis auf frĂŒhere Chats akzeptiert die KI die Eingabe einer böswilligen Aufforderung.

    „Der Überzeugungszyklus hat das Modell zwar in Richtung des schĂ€dlichen Ziels gedrĂ€ngt, aber das allein reichte nicht aus“, erklĂ€rt Alobaid. „An diesem Punkt lieferte Crescendo den notwendigen Schub.“ Der von Microsoft identifizierte und benannte Crescendo-Jailbreak eskaliert eine Unterhaltung schrittweise von harmlosen Aufforderungen zu böswilligen Ausgaben und umgeht dabei durch subtile Fortschritte die Sicherheitsfilter.

    In ihrem Test fĂŒgten die Forscher eine zusĂ€tzliche ÜberprĂŒfung in den Überzeugungszyklus ein, um „veraltete“ Fortschritte zu erkennen. Das sind Situationen, in denen die Unterhaltung nicht in Richtung des böswilligen Ziels voranschreitet. In solchen FĂ€llen wurde Crescendo eingesetzt, um den Exploit abzuschließen.

    Mit nur zwei zusĂ€tzlichen Schritten gelang es anhand des kombinierten Ansatzes[JD1] , die gewĂŒnschte Reaktion hervorzurufen, fĂŒgte der NeuralTrust-Forscher hinzu.

    Sicherheitssysteme durch kontextbezogene Taktiken ausgetrickst

    Der Angriff nutzt den kontextbezogenen Speicher von Grok 4 aus, indem er ihm seine eigenen frĂŒheren Aussagen zurĂŒckspielt und ihn so schrittweise und ohne Alarm auszulösen zu einem Ziel fĂŒhrt. Durch die Kombination von Crescendo mit Echo Chamber wird der Angriffsvektor noch verstĂ€rkt.

    Da der Exploit keine SchlĂŒsselwort-Trigger oder direkten Aufforderungen enthĂ€lt, dĂŒrften gĂ€ngige Abwehrmaßnahmen versagen, die auf Blacklists und der Erkennung expliziter böswilliger Absichten basieren. Alobaid zufolge konnte mit einer Kombination aus Echo Chamber und Crescendo eine Erfolgsquote von 67 Prozent bei Anweisungen zur Herstellung von Molotowcocktails erzielt werden. Bei Exploit-Themen wie Meth und Toxin verzeichneten die Forscher eine Erfolgsquote von etwa 50 Prozent beziehungsweise 30 Prozent.

    „Dieses (Experiment) zeigt eine kritische Schwachstelle auf: Angriffe können Absichts- oder SchlĂŒsselwort-basierte Filter umgehen, indem sie den breiteren Konversationskontext ausnutzen, anstatt sich auf offensichtlich schĂ€dliche Eingaben zu verlassen“, fasst Alobaid zusammen. „Unsere Ergebnisse unterstreichen, wie wichtig es ist, LLM-Abwehrmaßnahmen in Multi-Turn-Umgebungen zu evaluieren, in denen subtile, anhaltende Manipulationen zu unerwartetem Modellverhalten fĂŒhren können.“

    Bereits zuvor gab es Àhnliche Manipulationsversuche von KI-Modellen, darunter Microsofts Skeleton Key Jailbreak, der MathPrompt Bypass und andere Context-Poisoning-Angriffe, was die Notwendigkeit gezielter, KI-fÀhiger Firewalls unterstreicht.

     

    geknackt Grok JailbreakAngriff MIT
    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleSave up to $440 on the newest phones and get 50% off on the Mint Unlimited 2-year plan
    Next Article Tesla Robotaxis Face Fierce Competition from China
    Techurz
    • Website

    Related Posts

    Cyber Reality

    AI is becoming introspective – and that ‘should be monitored carefully,’ warns Anthropic

    November 3, 2025
    Cyber Reality

    Perplexity’s new AI tool lets you search patents with natural language – and it’s free

    November 3, 2025
    Cyber Reality

    Are laser-powered tape measures legit? It took just minutes to make me a believer

    November 2, 2025
    Add A Comment
    Latest Tech Pulse

    College social app Fizz expands into grocery delivery

    September 3, 20252,289

    SolarSquare in talks to raise up to $60M as India’s rooftop solar market draws major VC interest

    May 23, 202621

    Future of Digital Privacy and Security: 7 Truths Nobody Tells You

    May 25, 202618
    Stay In Touch
    • YouTube
    • WhatsApp
    • Twitter
    • Pinterest
    • LinkedIn

    Techurz helps readers stay ahead of digital change with clear, practical, future focused technology intelligence written today,searched tomorrow.

    X (Twitter) Pinterest YouTube LinkedIn WhatsApp
    Company
    • About Us
    • Contact Us
    • Our Authors / Editorial Team
    • Write For Us
    • Advertise
    Policy
    • Editorial Policy
    • Privacy Policy
    • Terms and Conditions
    • Affiliate Disclosure
    • Cookie Policy
    • Disclaimer
    • DMCA
    Explore
    • AI Systems
    • Cyber Reality
    • Future Tech
    • Disruption Lab
    • Signals
    • Tech Pulse
    • Sitemap

    Join the Techurz Brief

    The future does not arrive suddenly.
    Stay ahead with fast, sharp tech signals.

    Type above and press Enter to search. Press Esc to cancel.